Большие Данные – с этим явлением компания сталкивается, когда поток входящих данных превосходит ее технические возможности по обработке и извлечению полезной информации, а сложность ландшафта превышает возможности технологий по быстрому сбору данных», – высказал мнение Дмитрий Первухин, начальник управления технологий сбора и хранения данных ВТБ24, выступая на форуме BIG DATA 2017, организованном издательством «Открытые системы». В этом случае бесполезно говорить о наращивании мощности, применении каких-либо новых инструментов. Необходимо кардинально менять мировоззрение и тематический подход.

Начальник управления технологий сбора и хранения данных ВТБ24 Дмитрий Первухин: «Технология озер данных позволяет быстро проводить натурные эксперименты с данными. При этом стоимость эксперимента стремится к нулю»

Когда компания «захлебывается» данными, у нее возникают проблемы. Главная – это очень высокая стоимость владения информацией при ее крайне низкой пользе. Чтобы представить эту информацию потребителю, нужно сначала ее извлечь, обработать, обеспечить качество данных, развернуть мощные аппаратные комплексы корпоративного класса, стоимость которых начинается от 30 тыс. долл. за 1 Тбайт. Проекты требуют космических затрат, а пользы от этих данных, как правило, очень мало. Зачастую речь идет об элементарных управленческих отчетах.

Поскольку данные хранятся в разных источниках, различных форматах и между собой никак не согласованы, они недоступны для анализа и моделирования, позволяющих использовать их в процессах прогнозирования и скоринга. Дополнительная проблема – крайне длительное время вывода продуктов на рынок. Разработка внутри банка, интеграция источников, включение их в технологические процессы могут занимать от нескольких месяцев до нескольких лет. Борьба за качество данных превращается в бесконечный и бесперспективный процесс, который обычно ничем не заканчивается.

Data Science – это эксперименты

«Большие Данные» вовсе не означают «много данных». Сама философия Больших Данных предлагает осознать, что «много» – понятие относительное.

«Например, мы работаем с корпоративным хранилищем на платформе Teradata размером 140 Тбайт, но телеком-операторов эти объемы не впечатлят, а есть много других банков, для которых даже этот объем – недостижимая величина», – рассказывает Первухин. Вопрос именно в том, успевает ли организация обрабатывать эти данные, получить от них пользу или они просто занимают место в хранилище. Если с обработкой данных проблем не возникает, то можно продолжать работать по-прежнему, а если сложности появляются, то надо брать на вооружение подходы Больших Данных.

Большие Данные – это набор технологий и методов математической статистики, позволяющий в многообразии данных получить статистически значимые результаты. Все остальное решается стандартными методами. Когда данных становится слишком много, приходится переходить к статистике, обрабатывать ее и получать тенденции, которые можно применять к тем или иным процессам.

К сожалению, использование Больших Данных сильно связано с человеческим фактором. В этом деле многое зависит от знаний имеющихся экспертов, нужны люди, знающие структуру данных компании и способные на основе своих знаний решать определенные аналитические задачи. Эти люди постепенно превращаются в айтишников, заточенных на выполнение конкретных...

Это не вся статья. Полная версия доступна только подписчикам журнала. Пожалуйста, авторизуйтесь либо оформите подписку.
Купить номер с этой статьей в PDF