Большие Данные: когда машина лучше эксперта

Очень перспективной стороной технологий Больших Данных является машинное обучение. Многие говорят о качественном улучшении аналитики, произошедшем в последнее время. Но аналитика подразумевает результат работы программы с данными, который затем интерпретирует человек. Революция же Big Data заключается в том, что методы машинного обучения позволяют во многих местах, где раньше требовались эксперты, обойтись без них. Дело не только в том, что у людей существуют вполне естественные ограничения — человек может устать, заболеть или вовсе уйти из компании. Гораздо важнее, что в ряде задач машина действует гораздо эффективнее человека — быстрее и точнее.

Каждая компания в чем-то уникальна, но в любой можно выделить процессы, где принятие решений можно доверить компьютеру, радикально ускорив их и повысив надежность. «Яндекс», Сбербанк и «Викимарт» — представители сегментов, где технологии Больших Данных успешно используются, доказав свою ценность. Их отличает не только определенная смелость принимаемых решений, но и прагматичность взглядов.

Психологический барьер

Начав приносить очевидную пользу в поисковых системах, одними из первых столнувшихся с феноменом Больших Данных, машинное обучение постепенно распространяется и на другие сегменты. «Почтовый и поисковый спам, проблема которого довольно успешно решается, фактически является попыткой обмана интернет-сервисов, и его природа во многом схожа с мошенничеством в банках», — уверен Андрей Себрант, директор по маркетингу сервисов компании «Яндекс». Задачи борьбы с мошенничеством также гораздо проще решать электронными средствами, чем силами аналитиков. Экспертам требуется многолетнее обучение, а алгоритмам достаточно пары секунд, после чего они начинают работать лучше людей. Иначе говоря, дорогостоящих специалистов можно выгнать на улицу, передоверив принятие решений алгоритмам.

«Когда речь идет об инновациях, зачастую эффект просчитать нереально», Алексей Винниченко, руководитель направления Больших Данных отдела технологических исследований Сбербанка

К другим перспективным задачам относятся поиск и анализ изображений, распознавание текста и голоса, причем многие решения выходят далеко за пределы интернет-сервисов. Например, поиск похожих изображений находит применение в медицине. Высококвалифицированные специалисты, занимающиеся интерпретацией результатов анализов, от которых зачастую зависит жизнь людей, становятся не нужны. Алгоритмы, обученные распознавать образы, работают многократно точнее и эффективнее. Новые технологии коренным образом меняют и подходы к маркетингу — например, используется прямое описание аудитории вместо косвенного.

Существует множество отраслей, где технологии способны дать компаниям многократный прирост эффективности. Но зачастую все усилия упираются в психологию людей, которые не перестроились и продолжают мыслить старыми категориями. «Почему я должен верить программе, если у нас есть опытные эксперты, которым мы доверяем?» — таково типичное возражение руководителей. Например, подобное происходит часто в финансовом ретейле, где не могут отказаться от услуг кредитного комитета, принимающего решения.

Как подчеркивает Себрант, проблемы наблюдаются именно в тех областях, где привыкли доверять аналитикам, досконально знающим бизнес. Люди не могут поверить, что для использования новых решений не обязательно понимать, как они работают.

Андрей Себрант, директор по маркетингу сервисов компании «Яндекс»

«Люди не могут поверить, что для использования новых решений не обязательно понимать, как они работают», Андрей Себрант, директор по маркетингу сервисов компании «Яндекс»

Алгоритм в роли искусствоведа

Тандем машины и человека, когда человек принимает решение на основе аналитической обработки данных, далеко не всегда оптимален. Гораздо чаще информационная система должна работать не вместе с человеком, а вместо него, давая ответы в режиме реального времени. Когда руководство компании приходит к пониманию, что часть задач экспертов можно передоверить алгоритмам, происходят серьезные перемены в бизнесе.

Уникальные решения всегда лучше принимает человек, и в этих случаях для него следует готовить отчеты. А есть ситуации, и они встречаются все чаще, когда требуется определить, какое рекламное объявление показать пользователю, принять решение о выдаче кредита, предупредить о возможной поломке. Такие массовые решения алгоритмы принимают быстрее и точнее, и человек в подобных процессах является лишним.

В зависимости от решаемых задач следует нанимать специалистов с разными компетенциями. Попытка нанять одного вместо другого приводит к колоссальным провалам. Именно с этим связано определенное разочарование в Больших Данных, наблюдающееся в некоторых компаниях. Все наслышаны о возможностях Big Data, но многие не очень хорошо представляют, как их интегрировать в бизнес-процессы, а потому нанимают не тех людей, и в результате получают провальные результаты, теряя колоссальные деньги.

Машины могут заменить самый широкий круг специалистов — от лаборантов, проводящих анализ, до искусствоведов, поскольку способны заметить в произведениях искусства то, чего за десятки и сотни лет не смогли обнаружить люди. Они хорошо отвечают на вопросы, но не умеют их задавать. Надо понимать, где решения должна принимать сама система, а где — человек, и не путать эти две области. Умение разделять их отличает талантливых руководителей, способных внедрять новые технологии в своих организациях.

Игра по особым правилам

Технологии Больших Данных, как и любые инновации, требуют особого отношения к себе. Без должной опеки и ухода их ростки с большой вероятностью будут погребены под грудой проектов, кажущихся более важными, менее рискованными и имеющими очевидную ценность для бизнеса. Менять ради инновационных проектов правила игры, а тем более создавать выделенные подразделения для работы над ними решается далеко не каждый.

В 2011 году в Сбербанке выделилось подразделение, задачей которого стало пилотирование и внедрение инновационных решений, — отдел технологических исследований. После изучения его руководством бизнес-стратегии банка, оценки мировых тенденций и консультации с несколькими известными евангелистами оказалось, что направление Больших Данных должно стать для отдела одним из самых перспективных.

«Спустя три года можно сказать, что мы не ошиблись. Сейчас технологии Big Data превратились в крупное и важное направление», — говорит Алексей Винниченко, руководитель направления Больших Данных отдела технологических исследований Сбербанка.

Надо сказать, что в 2011 году ситуация с технологиями Больших Данных была несколько иной по сравнению с нынешней. В Сбербанке были развернуты стандартные аналитические решения, под них подстроен ИТ-ландшафт. Практически не было экспертизы по работе с неструктурированными и плохо структурированными данными. Более того, ее не было не только внутри компании, но и на рынке. Приглашенные для консультации вендоры «жонглировали» знаменитыми «тремя V» (Volume, Variety, Velocity), но ничего конкретного сказать не могли. Сейчас только ленивый игрок рынка ИТ не имеет в своем портфеле решений, позиционируемых в направлении Больших Данных.

«Мы решили следовать концепции обучения на собственном опыте, попробовав все реализовать самостоятельно», — говорит Винниченко. При этом сразу же пришлось столкнуться с низкой скоростью корпоративных процессов. В крупных компаниях процедура реализации проектов жестко регламентирована. Чтобы открыть проект, нужно защитить его, детализировав бизнес-требования, нарисовав архитектуру, рассчитав экономический эффект. Это достаточно большой объем работы, способный отнять месяцы. Кроме того, когда речь идет об инновациях, зачастую эффект просчитать нереально.

Но даже если проект удастся защитить, он попадает в проектный офис, где обнаруживается, что подобных проектов больше, чем ИТ может сделать за год. Разумеется, работы приоритизируются, наверх «всплывают» важные крупные проекты, а инноваторские — откладываются в долгий ящик. В результате все инновационные и исследовательские проекты идут крайне медленно, хотя именно для них очень важна скорость. Кроме того, с момента возникновения идеи до результата нужно сделать сложные, иногда мучительные шаги. У бизнеса совершенно отсутствует мотивация этим заниматься: эффект не прогнозируем, а энергии на запуск инициативы требуется колоссальное количество.

Конвейер быстрых проектов

Решить проблему удалось, выделив подразделение в относительно независимую единицу. Оно имеет отдельный бюджет, свою маленькую команду специалистов по гибким методам разработки, свою лабораторию и т. д. — все необходимое для проведения исследований. Отдел не занимается крупными проектами и промышленными внедрениями, его задача — исключительно «пилоты».

«Принципиально важно, что в случае электронной торговли доступно множество данных об аудитории, и практически все показатели можно и нужно измерять», Михаил Сливинский, руководитель отдела маркетинговой и поисковой аналитики интернет-ретейлера «Викимарт»

Бюрократия и административные издержки в подразделении сведены к минимуму — никаких комитетов и сложных процессов. Возникшая бизнес-идея быстро реализуется, и, что самое важное, действует принцип «отрицательный результат — тоже результат». Если «не взлетит» крупный проект — будут санкции, здесь же есть право на ошибку, благо ее цена не слишком высока. Как показывает практика, две трети проектов по разным причинам (например, незрелость технологии или неготовность самой организации) отклоняются и идут в архив, и лишь треть имеет дальнейшее развитие, которым занимается ИТ-департамент за свой счет и на своих ресурсах. В этом и заключается суть исследовательской деятельности.

В результате удалось реализовать «конвейер быстрых пилотов», каждый из которых занимает по несколько месяцев. «В случаях, когда в работах участвуют внешние поставщики, приходится проводить тендеры и проекты несколько затягиваются, но в целом стараемся делать все предельно быстро», — подчеркивает Винниченко. Бюджеты маленькие, проекты короткие, и в ряде случаев крупные вендоры, рассчитывая на будущее сотрудничество, дают свои новые решения «поиграться» бесплатно, а иногда даже присылают консультантов.

Ключевой фактор успешной работы — сбалансированная команда. Она состоит из специалистов по данным (data scientist), аналитиков, разработчиков и руководителей проектов. Специалистов требуемого уровня и специальности с необходимым опытом работы достаточно сложно найти даже сейчас. Приходится активно обучать своих сотрудников на специализированных курсах.

«Изначально бизнес отнесся к реализованному подходу скептически, однако сейчас наших возможностей уже не хватает на все его идеи», — констатирует Винниченко. Отдел технологических исследований вышел на целевой показатель 25 проектов в год, треть таких проектов передается на внедрение в регулярный ИТ-департамент. Финансовый результат от этой трети проектов многократно превосходит все затраты на исследовательскую деятельность.

Эффекты считаем, бонусы — в уме

«Самые выгодные и интересные проекты исследовательского отдела связаны с безопасностью: соответствие законодательству, скоринг, борьба с мошенничеством. По понятным причинам о них говорить нельзя», — отмечает Винниченко. Это как раз те проекты, где используется очень много внешних источников неструктурированных данных. Среди прочих можно выделить два небольших, но достаточно интересных проекта.

Первый — это выявление среди клиентов массового сегмента потенциальных клиентов премиальных продуктов. Время от времени аналитики в процессе своей работы находили «интересных» клиентов. Ничем не выделяясь из остальных по стандартным критериям, они привлекали внимание нетривиальным поведением: например, могли за выходные провести транзакций на несколько миллионов или обладали внушительными остатками на счетах. Было интересно сгруппировать таких клиентов в отдельный список для продаж им премиальных продуктов. Однако сделать это следовало не просто по среднему чеку или остаткам на счетах, а более интеллектуально.

В качестве исходных данных были использованы объем транзакций за определенное время, составивший 4,5 млрд записей, и данные CRM. Затем «за дело взялись» механизмы машинного обучения, без которых ни один крупный проект по анализу данных работать не будет.

«Мы подобрали набор признаков, который позволял однозначно разделить клиентов на две категории: обычных и пользователей премиум-продуктов. На базе этого удалось построить поведенческую модель премиум-клиента. Это показатели активности, в том числе транзакционной, которые характеризуют интересующих банк людей», — говорит Винниченко. В начале проекта задача представлялась простой: казалось бы, клиенты должны однозначно различаться размером среднего чека. Как выяснилось, все намного сложнее и интереснее.

Применив полученную модель к массовому сегменту, удалось обнаружить 54 тыс. человек, имеющих поведенческий профиль премиальных клиентов. Этот список был передан специалистам розничного отдела.

Как обычно, в таких проектах, помимо основного результата, возникают дополнительные бонусы — эффекты, которые изначально не были запланированы. Так, среди премиальных клиентов было выявлено несколько тысяч тех, кто не ведет себя как премиальный. Фактически это означает, что с ними необходима дополнительная работа, иначе рано или поздно они уйдут к конкурентам.

Еще одним важным проектом стала оптимизация эквайринговой сети, в ее рамках решалось две задачи. Во-первых, следовало определить географические локации (вплоть до населенного пункта), где хорошо развиты эквайринговые сети — развернута мощная инфраструктура для приема безналичных платежей, но по каким-то причинам слабо развиты карточные продукты Сбербанка. Во-вторых, предстояло выделить регионы, где у банка много клиентов, но эквайринг либо вовсе слабо развит, либо преобладают чужие сети.

Всем известно, что максимально комфортно для банка, когда его карта используется в его же POS-терминале: ни с кем не приходится делиться. Это бизнес-задача, к которой следует стремиться.

В качестве исходных данных были взяты проведенные транзакции за год (в том числе чужих клиентов, воспользовавшихся терминалами Сбербанка) и данные Росстата по населению и демографии, а также экономической ситуации в регионах. В ходе проекта большая работа была проведена по очистке имеющихся данных, в том числе собственных.

В результате была получена интерактивная визуализация распространенности карточных продуктов и сетей эквайринга по регионам.

«С городами-миллионерами ситуация была известной и достаточно очевидной, а вот в глубинке обнаружились места, где положение было удручающим. Раньше этим вопросом просто никто не занимался из-за отсутствия данных, — признает Винниченко. — Нами был определен список торговых точек, где необходимо поставить наш эквайринг, потому что их посещает много наших клиентов». Кроме того, были выделены регионы для усиленного распространения карточных продуктов и зарплатных проектов. Дополнительным эффектом стало то, что удалось вычислить активность и степень проникновения эквайринга других банков.

Эта аналитика пусть и не обладает абсолютной точностью, но позволяет увидеть картину рынка. Раньше такой возможности не было.

Чего хочет покупатель?

Интернет-торговля обладает рядом характерных особенностей — например, это высокие затраты на привлечение клиентов и высокие риски. Стоимость любой ошибки весьма высока — конкуренты находятся на расстоянии одного клика друг от друга. По мере роста бизнеса каждый последующий заказ обходится все дороже, и из этого следует, что традиционный маркетинг в случае электронной коммерции работает плохо. Для успешной работы компании необходимо понять, чего хочет каждый конкретный человек, и удовлетворить его потребности.

«Наша задача — изучать потребности клиентов, персонализировать взаимодействие с ними, подстраивать сайт под пользователей, строить систему рекомендаций», — говорит Михаил Сливинский, руководитель отдела маркетинговой и поисковой аналитики интернет-ретейлера «Викимарт». Принципиально важно, что в случае электронной торговли доступно множество данных об аудитории, и практически все показатели можно и нужно измерять. В этом заключается главное отличие от традиционного ретейла, где количественные оценки зачастую невозможны.

В проектах электронной коммерции есть две возможности использования технологий Больших Данных. Первая — это просто следствие накопления больших объемов данных; в результате в компании постоянно появляются новые знания. Вторая — поиск неочевидных зависимостей с целью обнаружить ценную информацию в уже имеющихся данных.

У «Викимарта» есть несколько ключевых источников данных. Первый и главный — это собственный сайт: компания знает, откуда приходят посетители, по каким запросам и на какие страницы попадают, как они путешествуют по сайту. При этом возможно много сценариев обработки явной и неявной поведенческой информации.

Есть и внешние источники. Прежде всего — статистика запросов к поисковым системам. «Это трудно себе представить, но еще 15 лет назад ответить на вопрос: а нужны ли людям, например, детские велосипеды, а если нужны, то когда, где и сколько — было невозможно», — отмечает Сливинский. Сейчас ответы на подобные вопросы появились, и они дают массу пищи для размышлений.

Например, статистика спроса на велосипеды в 2012 и 2013 годах имеет тесную взаимосвязь с наблюдавшейся тогда температурой воздуха. Март прошлого года был значительно холоднее обычного, и в продажах велосипедов наблюдался резкий провал. Казалось бы, логически связь очевидна, но она стала доступной именно благодаря появлению новых данных от поисковых машин. Такого рода закономерности можно постоянно обнаруживать и использовать в своих целях.

Только через «Яндекс» за сутки происходит 200 млн поисковых запросов. Это фантастический по ценности источник информации. Поисковые машины работают с огромным числом запросов, и результаты их работы крайне полезны. Много ценного можно извлекать и из отзывов людей о своих покупках.

«Правильные» рекомендации

Большую часть работы аналитиков «Викимарта» занимает составление системы рекомендаций. Традиционно рекомендательные системы строились на фильтрации: если известно, что хотели люди, похожие на данного пользователя, то предлагалось считать, что ему нужно примерно то же самое. У этой логики есть как минимум два недостатка. Во-первых, для построения этой системы нужно много пользователей, выполняющих активные действия. Это в первую очередь деньги: приходится платить за рекламу и привлечение людей, чтобы «обучить» свою систему. Во-вторых, обучаясь на этих людях с нуля, компания очень сильно рискует их лояльностью. Если каждое предположение, многие из которых не соответствуют действительности, тестировать на дорогих пользователях — это неоправданно.

В рамках построения системы рекомендаций можно выделить пару интересных примеров. Едва ли не самое главное в системе рекомендаций — умение находить похожие товары. Оказалось, что это довольно интересная задача. Что такое «похожий» товар? Если пользователь пришел за 40-дюймовым телевизором Samsung, то будет ли для него похожим аналогичный телевизор другой марки? А телевизор той же марки, но отличающийся по размеру? А чуть более дорогая модель?

В результате анализа пришли к выводу, что следует пытаться измерять эластичность спроса не только по цене, но и по другим характеристикам.

«Мы стали наблюдать за пользователями, пришедшими к нам за вполне определенным товаром, но затем по какой-то причине изменившими свои предпочтения в процессе навигации по сайту», — говорит Сливинский. Оказалось, что вероятность лояльности пользователя бренду или другой характеристике можно вычислить и строить на ее основе универсальную рекомендательную систему, которая позволит находить похожие товары. Разумеется, это будет гораздо более «умная» система, чем та, что получится при использовании очевидных, более грубых критериев.

Вторая интересная задача — ранжирование товаров. Если запрос пользователя недоформулирован — например, человек просто хочет холодильник — это не означает, что пользователь не знает, чего хочет, просто он так сформулировал свой запрос. С подобными запросами у интернет-магазинов традиционно существуют большие проблемы: непонятно, как упорядочить вывод на экран огромного количества продающихся в данной категории товаров.

«Мы вывели формулу, в которую заложили несколько принципиальных факторов, связанных с популярностью товаров, конверсией и экономикой — насколько товар выгоден для магазина, — делится Сливинский. — Спрос, умноженный на конверсию, — счастье покупателя; конверсия, умноженная на маржу, — это счастье магазина». Довольно простые на первый взгляд действия позволили получить прирост прибыльности на 40%.

Еще одно критически важное направление работы аналитиков «Викимарта» — анализ отзывов покупателей.

«Традиционно мы видим только часть информации о товарах — она демонстрируется в рекламе брендов, которые хотят что-то продать», — констатирует Сливинский. Например, производитель телефона уверяет, что главное — операционная система, оперативная память, камера и т. п. Как выяснилось, в отзывах люди говорят совсем о другом. Например, в дискуссиях о телефонах часто обсуждается такое качество, как «хорошо лежит в руке». Это важная характеристика, которую невозможно понять по картинкам, и она интересна людям, не имевшим опыта общения с данным устройством.

Таких неочевидных примеров довольно много: люди в отзывах описывают свое восприятие купленного товара. Их эмоции становятся бесценным источником знаний для аналитиков, пытающихся понять, чего хочет клиент.