Wikimart: трезвый взгляд на Большие Данные

В онлайн-ретейлере Wikimart в результате внедрения Hadoop создан инструмент, генерирующий существенную долю продаж сайта компании: при более чем скромных инвестициях получен заметный для бизнеса результат, и его можно реплицировать в других компаниях. На пути к эффективному использованию Больших Данных компания накопила огромный опыт, но и убедилась, что технологии не всегда оправдывают ожидания.

Интерес к технологическим новинкам зачастую опережает понимание, для решения каких бизнес-задач они могут быть полезны. Поэтому первые проекты, где модные концепции находят вполне практическое применение, всегда привлекают к себе внимание. Полученный первопроходцами опыт избавляет от иллюзий, делая взгляд на инновации более трезвым, а оценку потенциала — реалистичной, тем самым открывая путь к их широкому использованию в бизнесе.

Технологии Больших Данных уже перевалили через «пик завышенных ожиданий» на кривой Gartner (Hype Cycle) и начали спуск по «желобу разочарований», тем не менее об их зрелости говорить преждевременно. Такое мнение высказал Александр Аникин, руководитель аналитического отдела Wikimart, на форуме Big Data 2015, организованном издательством «Открытые системы». По его словам, практика показывает, что, несмотря на очевидный прогресс за последние годы, Hadoop все еще остается сырой технологией, инструменты Apache не выдерживают критики, а система управления данными неудобна.

Однако это не означает, что Большие Данные нельзя заставить работать на бизнес уже сегодня. Просто абсолютному большинству компаний, представляющих средний бизнес, не нужны супертехнологии, им вполне достаточно реляционных СУБД. А концепция Big Data, вокруг которой сегодня так много шума, не решает основных проблем эффективной работы с данными: ни технологических, которые могла бы решить, ни управленческих, которые она решить и неспособна.

Чтобы извлечь из Больших Данных реальную пользу, необходимо прежде всего четко представлять, для решения каких задач они подходят, и правильно подбирать средства для решения этих задач, учитывая сильные и слабые стороны как новых, так и уже имеющихся инструментов. Компании Wikimart удалось сделать это, выстроив с помощью Hadoop систему формирования рекомендаций для покупателей.

Wikimart: трезвый взгляд на Большие Данные

Матрица рекомендует

Wikimart — крупный торговый онлайн-центр, где на одной площадке представлены свыше 2 млн товаров от более чем 1,5 тыс. интернет-магазинов. Онлайн-ретейлеры загружают информацию о своих товарах на сайт гипермаркета и обрабатывают поступающие через него заказы. Выставленные на продажу товары автоматически попадают в общий каталог и становятся доступными покупателям. По сути, Wikimart — это сервисная компания, упрощающая процесс онлайн-торговли для ретейлеров, которые платят агрегатору разовую сумму за активацию своего партнерского счета, абонентскую плату в зависимости от размера выручки на площадке и комиссию 1–15% от каждого созданного заказа.

Благодаря ресурсам, вкладываемым в привлечение трафика, поисковую оптимизацию и контекстную рекламу, на сайт гипермаркета заходят более 300 тыс. посетителей в день. Компания регулярно анализирует поведение пользователей на сайте и оптимизирует дизайн, интерфейс и функционал площадки, чтобы повысить так называемую конверсию — долю посетителей, ставших покупателями. При этом в построении аналитической инфраструктуры Wikimart очень экономна и инвестирует в нее лишь тогда, когда это действительно необходимо. Аналитическая платформа Wikimart основана на классическом стеке Microsoft Business Intelligence и отдельно стоящем Hadoop-кластере на десять серверов, который работает на решении Cloudera. Из множества источников, в числе которых сайт, веб-счетчик, учетная система «1С», комплекс Asterisk-решений, данные пользователей, MySQL, а также сервисы контекстной рекламы «Яндекс.Директ» и Google AdWords, данные стекаются в классическое хранилище.

«Большинство шагов, прописанных в умных ИТ-руководствах по созданию хранилища данных, не приносят никакой пользы бизнесу, — говорит Аникин. — Мне всегда немного стыдно за то, что у нас работа с данными бывает организована не «по науке» — иногда мы просто переносим данные из источника в хранилище, особо не контролируя их целостность и не проверяя никакие справочники, и все работает, никто не жалуется. На конференции Big Data я понял, что можно назвать это Data Lake и не волноваться по этому поводу».

«Деньги лучше тратить не на супертехнологии, а на «суперлюдей», которые могут дать фантастический результат даже на cвободном ПО, чего обычные люди не смогут даже с самыми космическими технологиями», Александр Аникин, руководитель аналитического отдела Wikimart

Между тем общий объем данных сам по себе не очень велик и составляет чуть больше 2 Тбайт. Сотрудники, имеющие доступ к хранилищу, пользуются OLAP-кубами, отчетами, сделанными по электронной почте или в веб-форме, пишут прямые запросы к витринам. Кроме того, хранилище обменивается данными с другими ИТ-системами компании в автоматическом режиме. Через такие механизмы осуществляется ценообразование, управление рекламой и формирование рекомендаций покупателям.

Реализованный в конце 2011 — начале 2012 года проект создания собственной системы внутренних рекомендаций для улучшения показателей конверсии и совершенствования взаимодействия пользователей с сайтом изначально был исследовательским. Для 2 млн товаров на сайте необходимо было построить матрицу попарных корреляций векторов просмотров этих товаров. Особенность этой задачи такова, что на входе данных не очень много, на выходе — еще меньше, но в процессе обработки возникают большие промежуточные вычисления, моментально забивающие винчестеры объемом по 10 Тбайт.

Поскольку существующее хранилище данных с поставленной задачей не справлялось, было выбрано решение Cloudera — практически единственное тогда бесплатное пакетное решение на базе Hadoop. Сырая на тот момент технология стала самой большой сложностью проекта. «Многие вещи делались впервые, почитать про опыт было практически негде, — вспоминает Аникин. — Но мы намеревались не просто поиграть технологиями, у нас была конкретная практическая задача, которую мы не могли решить обычными средствами».

В результате внедрения Hadoop создан инструмент, генерирующий существенную долю продаж сайта Wikimart.

Аникин считает проект эффективным: при более чем скромных инвестициях получен заметный для бизнеса результат, и его можно реплицировать в других компаниях: «К примеру, мой коллега Роман Зыков, главный идейный вдохновитель проекта внедрения Hadoop, стал одним из основателей проекта RetailRocket.ru, который предлагает сервис рекомендаций для интернет-магазинов в формате облачного решения».

В аналитическом подразделении Wikimart сейчас ведется два крупных технологических проекта: построение внутренней системы планирования и бюджетирования на базе Microsoft OLAP Writeback, а также перенос в Hadoop части задач классического хранилища данных и усложнение логики преобразований, которую в рамках обычной базы данных нельзя было реализовать из-за ограничений по производительности. В первую очередь речь идет об анализе ассортимента, мониторинге загрузки товаров магазинов на площадку и других подобных задачах. Но все, что можно сделать с помощью обычной базы данных за разумное время, с ней и делается, подчеркнул Аникин.

Отдел синергии

С учетом опыта, полученного в Wikimart при внедрении Hadoop, основные барьеры на пути к эффективному использованию Больших Данных можно разделить на технологические и организационные.

К технологическим относятся принципиальная возможность обработки данных и скорость этой обработки, которые могут быть ограничены имеющимися серверными мощностями и финансовыми ресурсами на их расширение. Сюда также можно отнести недостаточную точность и полноту данных, которые в сыром виде непригодны для использования в бизнес-аналитике.

В числе организационных барьеров Аникин назвал пресловутый разрыв между бизнесом и ИТ, а также одну из важнейших проблем: высшее руководство большинства компаний слабо понимает, зачем в принципе нужны эти технологии. Отсюда вытекает и низкая востребованность результатов работы с высокотехнологичными инструментами. А значит, необходимо обязательно добиваться синергетического эффекта ИТ и бизнеса, без этого невозможно эффективно использовать технологии Больших Данных, как, впрочем, и многие другие технологии.

Не менее сложным препятствием может оказаться недостаточная квалификация кадров для решения возникающих аналитических и ИТ-задач. Многие считают, что Hadoop — это дешево, но на самом деле это не так. Чтобы его развернуть, поддерживать и отлавливать ошибки, требуются очень высококвалифицированные специалисты, а такие на рынке сейчас в дефиците. Поэтому часть средств, которые в компании привыкли инвестировать в платформу, придется вкладывать в оплату труда.

«Деньги лучше тратить не на супертехнологии, а на «суперлюдей», способных дать фантастический результат даже на cвободном ПО, чего обычные люди не смогут даже с самыми космическими технологиями», — таков ключевой совет Аникина. Технологии сами по себе проблемы эффективной работы с данными не решают, и специалисты среднего уровня, скорее всего, ее тоже не решат, пока технологии не станут достаточно зрелыми.

По мнению Аникина, проблемы управленческого характера решить гораздо важнее, чем технологические. И если Большие Данные помогают справиться с вопросами возможности и скорости обработки данных, то к остальным барьерам в бизнесе пока еще только начинают подступать.

Компании должны научиться также задавать «правильные» вопросы к Большим Данным, поскольку точные и правильные данные необходимы огромному количеству людей, принимающих стратегические решения. А так как это совершенно новая компетенция, то один из подходов, который можно использовать для ее проникновения в компанию, — создание центра глубокой экспертизы Больших Данных.

Проблемы же с точностью и востребованностью данных решает наука о данных — Data Science, которая сейчас взбирается по кривой зрелости технологий, выстроенной аналитиками Gartner, на «пик ожиданий», в то время как Большие Данные уже начали с него сваливаться. Впрочем, учитывая отставание российского рынка от западного, Большим Данным еще только предстоит покорить вершину ожиданий. Но если срок созревания Больших Данных оценивается в 5–10 лет, то для Data Science этот период составляет от двух до пяти лет, а значит, барьеры недостаточной точности и востребованности данных могут быть преодолены гораздо быстрее. Функцию работы с данными следует выделить в специальный отдел, а в штате должна появиться должность директора по данным. Необходимость организационно обособить функции Data Science постепенно начинает осознаваться и в России, заметил Аникин. По его мнению, именно в отделе по работе с данными должна решаться проблема синергии бизнеса и ИТ. Кроме того, при наличии выделенной структуры будет заметно легче продвинуться в работе с данными на уровне топ-менеджмента.

«Хочется надеяться, что проблемы эффективной работы с данными решит Data Science, но время покажет», — заключил Аникин.

Не только Hadoop

Появление новых многообещающих подходов обычно порождает вопрос: а что будет с технологиями, уже успевшими стать привычными? Потеснят ли их с рынка совсем или они сохранят свое место в ИТ-ландшафте?

Можно ли перевести хранилище данных полностью на Hadoop? По мнению Александра Аникина, руководителя аналитического отдела Wikimart, нельзя, так как обработка простых и коротких запросов производится в нем слишком долго: операция, которая в обычной базе данных занимает секунды, вследствие особенностей организации хранения в Hadoop может идти минуты. А вот большие и сложные запросы, напротив, обрабатываются существенно быстрее, чем в реляционной базе, поэтому Hadoop отлично подходит для промежуточных вычислений. Он также очень удобен для работы аналитика с точки зрения вариантов выбора доступных инструментов обработки данных, в то время как обычная база данных предлагает только SQL. С Hadoop вполне можно работать без использования MapReduce или Java. При этом в плане целостности данных Hadoop гораздо менее строгая система по сравнению с обычными базами данных. Например, если случается деление на ноль, Hadoop сообщит об этом, но не остановит обработку. К такому поведению системы можно относиться двояко, но для аналитика это скорее плюс, чем минус.

Сегодня уже ясно, что Hadoop не заменит систему управления реляционными базами данных, они будут работать в паре. Аникин советует внедрять Hadoop только в том случае, когда управленец точно знает, для какой задачи это необходимо, и если реляционная СУБД не может ее решить или решает слишком долго.

Примечательно, что раньше Большие Данные ассоциировались прежде всего с Hadoop, но теперь эти технологии начали расходиться. Популярный у маркетологов интернет-сервис wordstat.yandex.ru, который позволяет изучать динамику запросов по ключевым словам, свидетельствует: в 2014 году Большие Данные набрали вдвое большую популярность по сравнению с 2013 годом, в то время как интерес к Hadoop вырос лишь на 20%. Количество же запросов, где эти технологии упоминаются вместе, упало на 60%.