Анджей Аршавский: «Большие Данные начинаются тогда, когда к внутренним данным компании добавляются внешние источники»

За три года, прошедшие со времени первого форума Big Data, традиционно организуемого в конце марта издательством «Открытые системы», успело произойти многое — как с Большими Данными, так и в ИТ-индустрии в целом.

«Сейчас данные в большинстве случаев молчат, но хотелось бы, чтобы они сами говорили», — заявил Алексей Благирев, директор по развитию систем аналитики и отчетности банка «Открытие» Нынешние подходы к работе с данными по-прежнему подразумевают «озарение» аналитика, позволяющее перейти к конкретным действиям.

Сегодня основными пользователями Больших Данных являются представители профессии data scientist, которая еще не успела обзавестись устойчивым русскоязычным названием, однако смысл ее определился. Главное качество таких специалистов — умение задавать правильные вопросы к данным. Они должны обладать сбалансированными знаниями сразу в трех областях — математике, программировании и отраслевой бизнес-проблематике, а также иметь развитое воображение и способности к визуализации получаемых результатов. По выражению Григория Каневского, архитектора решений Teradata Aster, компаниям нужна «аналитика с человеческим лицом» — решения, направленные на широкий круг пользователей, позволяющие максимально интегрировать аналитические системы в бизнес-процессы.

Павел Миронов, директор департамента по работе с предприятиями энергетического сектора компании «Эр-Стайл», уверен: громадный объем информации можно переработать, только обладая способностью к ассоциативному мышлению, проведению аналогий. Именно благодаря технологиям Больших Данных есть возможность двигаться к автоматическому управлению производственными процессами. При этом можно обходиться без участия человека, особенно если речь идет о тяжелых и вредных условиях.

Желоб разочарований

По мнению Сергея Карелова, председателя совета Лиги независимых экспертов, на рынке Больших Данных произошла кардинальная смена повестки: наблюдается определенный скепсис относительно технологий, возникший из-за несовпадения ожиданий и реальности. На кривой зрелости технологий, предложенной Gartner, Большие Данные уже прошли «пик завышенных ожиданий» и сейчас постепенно скатываются по «желобу разочарований».

«Только поняв и осознав причины наших заблуждений, мы сможем остановить скатывание по этому желобу, которое будет продолжаться еще пару лет», — подчеркнул Карелов, согласно прогнозам которого 60% проектов Больших Данных не пойдут дальше пилотной стадии.

По словам Рината Гимранова, начальника управления ИТ «Сургутнефтегаза», вопрос не в том, как не попасть в 60% проектов-неудачников, а как вообще в ближайшее время «избежать» Больших Данных. Он уверен, что сейчас для предприятий гораздо важнее добиться актуальности используемой информации и «свертывания», то есть максимального упрощения ИТ-архитектур. В решении этих двух задач помогут технологии обработки данных в оперативной памяти (in-memory).

Сергей Золотарев, глава Pivotal в России и СНГ, согласился, что технологии, работающие в памяти, становятся новой парадигмой построения информационных систем — от реализации отдельных баз данных до полного использования in-memory в качестве платформы для всех приложений. Их применение поможет сократить разрыв между ожиданиями бизнеса и возможностями ИТ.

«Детсткие болезни» Больших Данных

Как отметил Святослав Сухов, директор дивизиона EMC Isilon в России и СНГ, ажиотаж, возникший вокруг Больших Данных, постепенно спадает. Так или иначе, по данным Gartner, лишь 13% компаний заявляют о реализации связанных с ними проектов. Треть компаний находятся на этапе разработки стратегии и сбора информации и еще примерно столько же проводят пилотные проекты.

Для сферы Больших Данных характерны «детские болезни», обусловленные незрелостью технологий. «Существует достаточно много инструментов, но проверенных на практике, стандартизованных методик пока не хватает», — признал Евгений Степанов, менеджер по продажам решений HP Big Data в России. Чтобы понять, какому именно подходу следовать, надо уяснить, какими данными компания обладает, сколько денег тратит на поддержку существующих систем, насколько эффективно решает поставленные задачи.

Илья Гершанов, руководитель направления Больших Данных компании Informatica, подчеркнул, что многие заказчики уже нащупали круг задач, которые можно решать с помощью Больших Данных, определился и спектр доступных технологий. По его мнению, сократить достаточно высокие риски и сроки проектов поможет использование поставщиками заготовок — «типовых» проектов Больших Данных для поддержки бизнес-инициатив.

Самым наглядным примером использования Больших Данных становится клиентская аналитика. Люди — один из самых ценных источников Больших Данных. Как признал Николай Кацан, руководитель направления IBM по решениям в области управления информацией, анонимность в Сети иллюзорна, и всесторонний анализ данных о клиентах позволяет узнать о них многое — возможно, даже больше, чем те хотели бы.

«Большие Данные начинаются тогда, когда к внутренним данным компании добавляются внешние источники. Так данные превращаются в стратегический актив», — заявил Анджей Аршавский, директор Центра компетенции супермассивов данных «Сбертеха». При этом, по словам Аршавского, 70% работ в аналитических проектах связано с приведением данных в порядок — их очисткой и интеграцией. Кроме того, для удобства анализа данные требуют реинжиниринга и переформатирования. Все это отнимает много времени и является одной из причин разочарования в Больших Данных.

«За хранилищем данных нужно следить, иначе оно превратится в помойку», — согласился Егор Осипов, эксперт направления «Хранилища данных, аналитика и Big Data» компании «Крок». Миграция отлично помогает санации данных. Хорошим поводом для этого становится начало проектов Больших Данных.

Не теряет актуальности и проблема масштабирования. Как отметил Дмитрий Толпеко, руководитель направления «Хранилища данных и Big Data» компании EPAM Systems, в хранилища поступает так много данных, что обрабатывать их в разумные сроки не представляется возможным. В этом случае кластеры Hadoop становятся не заменой традиционных хранилищ, а скорее их дополнением, в отдельных ситуациях — даже спасением.

«Hadoop — не панацея, классические аналитические задачи следует решать другими способами. Hadoop силен в анализе неструктурированных данных, тогда как обычные задачи лучше доверить традиционным хранилищам», — предупреждает вместе с тем Сергей Сотниченко, руководитель управления хранилищ данных и отчетности банка «Тинькофф Кредитные Системы».

Облака для Интернета вещей

«Уже в недалеком будущем основной поток информации будет поступать не от людей, а от устройств, встроенных в бытовые приборы», — высказал мнение Николай Местер, директор по развитию корпоративных проектов Intel. По его словам, это и будут «настоящие» Большие Данные. Организациям придется понимать, как из них извлекать пользу, создавая принципиально новые сервисы: по прогнозам Gartner, к 2020 году около 80% своей прибыли компании будут получать от услуг на основе анализа данных. Однако, если информацию не обрабатывать в реальном времени, ее ценность, равно как и построенных на ней сервисов, будет резко падать. Таким образом, жизнеспособность многих будущих бизнес-моделей окажется в зависимости от производительности построенных ИТ-решений.

На рынке побеждают продукты, которые дешевле и проще. В случае с Большими Данными это облачные системы.

«Компании будут вынуждены учиться анализировать собираемую информацию, и облако сильно упрощает этот путь», — уверен Дмитрий Марченко, директор департамента Microsoft Cloud Enterprise.

Купить номер с этой статьей в PDF