Озеро данных: площадка для экспериментов

Большие Данные – с этим явлением компания сталкивается, когда поток входящих данных превосходит ее технические возможности по обработке и извлечению полезной информации, а сложность ландшафта превышает возможности технологий по быстрому сбору данных», – высказал мнение Дмитрий Первухин, начальник управления технологий сбора и хранения данных ВТБ24, выступая на форуме BIG DATA 2017, организованном издательством «Открытые системы». В этом случае бесполезно говорить о наращивании мощности, применении каких-либо новых инструментов. Необходимо кардинально менять мировоззрение и тематический подход.

Начальник управления технологий сбора и хранения данных ВТБ24 Дмитрий Первухин: «Технология озер данных позволяет быстро проводить натурные эксперименты с данными. При этом стоимость эксперимента стремится к нулю»

Когда компания «захлебывается» данными, у нее возникают проблемы. Главная – это очень высокая стоимость владения информацией при ее крайне низкой пользе. Чтобы представить эту информацию потребителю, нужно сначала ее извлечь, обработать, обеспечить качество данных, развернуть мощные аппаратные комплексы корпоративного класса, стоимость которых начинается от 30 тыс. долл. за 1 Тбайт. Проекты требуют космических затрат, а пользы от этих данных, как правило, очень мало. Зачастую речь идет об элементарных управленческих отчетах.

Поскольку данные хранятся в разных источниках, различных форматах и между собой никак не согласованы, они недоступны для анализа и моделирования, позволяющих использовать их в процессах прогнозирования и скоринга. Дополнительная проблема – крайне длительное время вывода продуктов на рынок. Разработка внутри банка, интеграция источников, включение их в технологические процессы могут занимать от нескольких месяцев до нескольких лет. Борьба за качество данных превращается в бесконечный и бесперспективный процесс, который обычно ничем не заканчивается.

Data Science – это эксперименты

«Большие Данные» вовсе не означают «много данных». Сама философия Больших Данных предлагает осознать, что «много» – понятие относительное.

«Например, мы работаем с корпоративным хранилищем на платформе Teradata размером 140 Тбайт, но телеком-операторов эти объемы не впечатлят, а есть много других банков, для которых даже этот объем – недостижимая величина», – рассказывает Первухин. Вопрос именно в том, успевает ли организация обрабатывать эти данные, получить от них пользу или они просто занимают место в хранилище. Если с обработкой данных проблем не возникает, то можно продолжать работать по-прежнему, а если сложности появляются, то надо брать на вооружение подходы Больших Данных.

Большие Данные – это набор технологий и методов математической статистики, позволяющий в многообразии данных получить статистически значимые результаты. Все остальное решается стандартными методами. Когда данных становится слишком много, приходится переходить к статистике, обрабатывать ее и получать тенденции, которые можно применять к тем или иным процессам.

К сожалению, использование Больших Данных сильно связано с человеческим фактором. В этом деле многое зависит от знаний имеющихся экспертов, нужны люди, знающие структуру данных компании и способные на основе своих знаний решать определенные аналитические задачи. Эти люди постепенно превращаются в айтишников, заточенных на выполнение конкретных бизнес-функций и превращающих данные в полезную информацию. Простые ИТ-специалисты не владеют бизнес-контекстом в достаточном объеме для решения таких задач.

«Data Science – это всегда эксперимент. Мы хотим сначала посмотреть на данные, оценить их качество и пользу, после чего принимаем решение об их промышленном использовании», – отмечает Первухин.

Расширение, но не замена

Использование Больших Данных требует централизации, построения организованного процесса по сбору и структурированию информации. Есть компании, в которых создают целые службы по управлению данными и их качеством. Зачастую это вполне оправданно: надо осознать, где какие данные лежат, как они могут использоваться. При работе с Большими Данными приходится прибегать к технологии озер данных, когда источник данных становится распределенным.

«Стремление впихнуть все данные в единое хранилище не закончится ничем хорошим. Объем появляющихся данных растет гораздо быстрее, чем способность ИТ дорабатывать техническую часть, обеспечивая попадание данных в хранилище и реальное их использование аналитиками», – объясняет Первухин.

Вместе с тем Большие Данные – это набор технологий, расширяющий, но отнюдь не заменяющий существующие решения. Например, инструмент Hadoop – всего лишь один из способов распределенного хранения данных с определенным образом структурирования. Он удешевляет хранение и позволяет построить аналитическую фабрику, в рамках которой возможно использование инструментов аналитики для построения моделей и проверки предположений. Конечно, это хранилище данных может использоваться в самых разных задачах – от отчетности до расчета кешбэка по операциям клиента, однако такая система в силу распределенности данных не может обеспечить пользователя отчетностью так оперативно, как ему это требуется. Поэтому правильнее применять традиционные решения.

Большие Данные – это набор технологий и методов математической статистики, позволяющий в многообразии данных получить статистически значимые результаты

«Песочница» для аналитиков

«В начале 2014 года коллеги из департамента рисков предложили создать модель, помогающую оценить, как изменения в кредитной политике влияют на бизнес-результаты, – рассказывает Первухин историю создания в ВТБ24 озера данных. – Они предлагали для анализа эффективности кредитной стратегии использовать логи кредитного конвейера». Речь шла об объеме данных из каждой системы 5-10 Тбайт в год (таких систем было семь), выкладывать такой объем в существовавшее хранилище Teradata было долго и дорого.

На одной из конференций специалисты банка заинтересовались платформой Hadoop в реализации Cloudera и начали создавать решение на ее основе. Первыми опытами заказчики остались недовольны: доля информации, полезной для решения их задач, не превышала 5%. Они начали экспериментировать, добавлять в хранилище внешние источники данных, проверяя их ценность, – Пенсионный фонд и другие источники. И, несмотря на то что первый блин вышел комом, вскоре выяснилось, что в результате банк получил весьма ценный своей гибкостью и скоростью разработки инструмент.

«Выяснилось, что технология озер данных позволяет быстро проводить натурные эксперименты с данными. Взять данные из источника, добавить их к имеющимся, проверить гипотезу силами одного аналитика. Стоимость эксперимента стремится к нулю», – подчеркивает Первухин. В случае успешного эксперимента принимается решение о дальнейшем использовании данных с помощью промышленных аналитических инструментов.

Когда источник данных становится распределенным, приходится прибегать к технологии озер данных

В Hadoop полностью копируются данные хранилища; кроме того, там располагаются данные для моделирования, а также «бизнес-песочница» – место, куда пользователи сами выкладывают данные из доступных источников, в том числе внешних. Объем озера данных на данный момент составляет 288 Тбайт на 12 узлах.

«Когда подсчитали, во что обойдется такой же комплекс для экспериментов с данными на решениях корпоративного класса, оказалось, что потребовалось бы от 3,5 до 6,5 млн долл. Hadoop позволил обойтись суммой в 500 тыс. долл.», – отмечает Первухин.

За год работы «аналитической фабрики», по самым скромным оценкам, было получено 1,2 млрд долл. дополнительных доходов, а продажи увеличились на 30 млрд руб. Этого удалось добиться главным образом благодаря точной настройке рисковых моделей – в особенности поведенческих моделей клиентов, на основе которых рассчитывается вероятность дефолта. Если же говорить о моделях, направленных на борьбу с мошенничеством, то эффект от снижения числа операций, ошибочно попадающих в разряд рискованных, посчитать сложнее, но он тоже очень серьезен. К тому же за счет более точной сегментации клиентов на 7% увеличился отклик в маркетинговых кампаниях, и на 5% – средний чек.

Именно благодаря технологиям Больших Данных удалось достичь большей точности, учесть в моделях большее количество факторов. Многократно проводя расчеты, эксперты отбирали действительно наиболее значимые из них.