В облаке Больших Данных

Как показывает опыт различных организаций, основной проблемой при использовании технологий Больших Данных остается извлечение из них пользы для бизнеса. Масштабы затрат и организационно-технические проблемы уходят на второй план. Сегодня нужны новые подходы к формулировке и решению прикладных задач, для которых требуются такого рода данные.

Объем и разнообразие данных продолжают интенсивно расти, одновременно увеличиваются требования к скорости их обработки — эти тенденции сомнений не вызывают. С 2008 года закрепилось название «Большие Данные». До последнего времени они трактовались в первую очередь как некие явления, происходящие в мире технологий, и, что вполне закономерно, оказали заметное влияние на ИТ-сектор. Об этом свидетельствуют, например, выступления и дискуссии на форумах Big Data, которые проводит издательство «Открытые системы».

Сегодня фокус дискуссий постепенно смещается от анализа возможностей технологических решений к обсуждению различных методологических вопросов, поскольку без их решения едва ли получится исключить необоснованные затраты и уменьшить риск снижения качества принимаемых решений относительно внедрения и использования технологий Больших Данных.

Финансы, телеком и розница

Количество данных растет во всех отраслях, однако потребность в их быстрой и всеобъемлющей обработке неодинакова.

Слава Лазебников, вице-президент компании EPAM Systems по технологическим решениям, считает, что технологии Больших Данных актуальны практически для любого сегмента рынка. Объем данных растет экспоненциально, и любая компания рано или поздно столкнется с влиянием этого фактора. Наиболее заметны такие явления в финансовом сегменте, телекоммуникационной отрасли, сфере электронной коммерции, розничной торговле, нефтегазовом секторе, а также в компаниях, чей бизнес связан с Интернетом.

Уже сейчас есть отрасли, где ценность от реализации больших проектов велика, эффект виден почти сразу и затраты на проект окупаются быстро, отмечает Сергей Нестеренко, руководитель отделения интеграции данных дивизиона данных компании IBS. Среди таких отраслей — телекоммуникационная. Так, использование сетей 4G (в России они основаны на стандарте LTE) порождает огромный объем трафика. Чтобы его анализировать с помощью, например, технологии накопления статистических данных, проверки и фильтрации сетевых пакетов по их содержимому (deep packet inspection), необходимы новые инструменты. Результаты анализа способны повлиять на добавленную стоимость продукта, адресованного конечному потребителю, поясняет Нестеренко. Освоение телекоммуникационной компанией технологий Больших Данных является бесспорным конкурентным преимуществом, позволяющим автоматически создавать адресное предложение для конкретного потребителя, комплексное и своевременное.

По наблюдениям Нестеренко, подобная ситуация наблюдается и в банковской сфере: появляется все больше данных, связанных с отдельными потребителями финансовых услуг. На основе анализа таких данных легко оценить динамику и тенденции изменений потребностей и настроений клиентов. Это важно, поскольку банковские клиенты становятся все более требовательными — они хотят получать предложения, адресованные именно им. Чтобы обеспечить персонализованный подход к клиенту, необходимы инвестиции как в хранилища данных (инфраструктуру), так и в методы обработки этой информации и доступа к ней.

Пионерами в создании и использовании Больших Данных выступили некоторые государственные структуры, отмечает Илья Киселев, руководитель направления Big Data компании «Ай-Теко». Они собрали и продолжают накапливать огромные массивы данных (в первую очередь в целях обеспечения безопасности). Для госорганов оптимизация использования этих массивов чрезвычайно актуальна. В авангарде применения технологий Больших Данных также идут финансовая, телекоммуникационная отрасли и интернет-компании. Связано это прежде всего с тем, что в таких отраслях ИТ-составляющая является одним из ключевых активов бизнеса. Кроме того, операции в этих сегментах рынка в силу технических и организационных причин порождают большой поток данных, поэтому их анализ может существенно увеличить добавленную ценность. Помимо перечисленных отраслей, большого эффекта от применения технологий Больших Данных, считает Киселев, можно ожидать в розничной торговле и в тех видах бизнеса, которые основаны на логистике.

Анна Харитонова, начальник отдела бизнес-анализа центра программных решений компании «Инфосистемы Джет», отмечает, что среди отечественных компаний технологии Больших Данных наиболее востребованы там, где есть большой объем клиентских данных. Поэтому, наверное, как и во всем мире, здесь лидируют банки, торговые розничные организации и телекоммуникационные операторы. В розничных компаниях актуален анализ чеков, в банках — анализ транзакций, на предприятиях телекома — анализ записей для биллинговой системы (Call Detail Record, CDR). Таким образом, это актуально везде, где бизнес хочет как можно лучше понимать своих клиентов, привлекать новых, повышать качество обслуживания. Возможно, потому одна из самых распространенных задач, для решения которой могут пригодиться технологии Больших Данных (причем независимо от отрасли), — это повышение эффективности маркетинговых акций.

Два слона данных

Николай Смирнов

Виктор Булгаков, руководитель департамента управленческой информации компании «Вымпелком»

«Кластер из десяти не самых новых рабочих станций вполне может соперничать по эффективности с высокопроизводительным сервером», Виктор Булгаков, руководитель департамента управленческой информации компании «Вымпелком»

«Вымпелком» уже достаточно давно имеет дело с Большими Данными. Корпоративное хранилище компании объединяет 87 разнородных источников, а его объем превышает 430 Тбайт. Масса используемого оборудования составляет 12 тонн, из-за чего проект получил название «Два слона». При этом для компании актуальны как минимум два типа Больших Данных: транзакционные данные, порождаемые оборудованием и различными системами, и данные взаимодействия — например, хранящиеся в социальных сетях.

Как известно, людей принято делить на оптимистов и пессимистов по их отношению к наполовину наполненному стакану воды. Примерно такое же разделение можно провести по отношению к Большим Данным.

Виктор Булгаков, руководитель департамента управленческой информации «Вымпелкома», явно оптимист. По его словам, объединив и сопоставив данные из различных источников, можно извлечь немалую ценность. «Черно-белая картина вдруг превращается в цветную, а плоское изображение — в объемное», — описал Булгаков эффект анализа Больших Данных на конференции IDC Big Data and Business Analytics.

Прошлой осенью в компании стартовало сразу несколько проектов, причем старт был весьма бурным. Конечно, поначалу объемы данных, задействованных в них, были невелики, но, что важно, эти инициативы не потребовали значительных затрат времени и денег.

«Первый шаг сделать несложно, главное — не забыть о нескольких ключевых моментах», — рекомендует Булгаков. Во-первых, нужны три-четыре ИТ-специалиста, мотивированных на использование новых технологий и перспективы роста, а также несколько рабочих станций (возможно, бывших в употреблении) для построения кластера Hadoop. Во-вторых, следует вспомнить «важные дела» для бизнеса, которые по тем или иным причинам были отложены в архив. И наконец, необходим менеджер проекта с опытом бизнес-анализа. При этом главной целью должны стать «быстрые победы».

Что же касается дефицита кадров, представляемого аналитиками в качестве одного из главных сдерживающих факторов для Больших Данных, то он вовсе не критичен. В России много специалистов, способных быстро освоить необходимую программу, она занимает чуть больше 20 дней.

По словам Булгакова, кластер из десяти не самых новых рабочих станций вполне может соперничать по эффективности с высокопроизводительным сервером. Тем не менее спустя некоторое время на смену откровенно любительскому решению пришло вполне профессиональное — многоузловой кластер, построенный на серверах стандартной архитектуры.

Сейчас в «Вымпелкоме» реализуются проекты, непосредственно ориентированные на получение прибыли. Они должны сразу приносить пользу бизнесу, зарабатывая определенный кредит доверия на будущее.

Одним из таких проектов стало целевое предложение роуминга клиентам в аэропортах. Дело в том, что, улетая в другой регион или за границу, люди часто приобретают SIM-карты локальных операторов. Предлагая таким клиентам роуминг в аэропорту, можно существенно повысить вероятность дальнейшего использования SIM-карты Beeline. При реализации этого проекта использовались геолокационные сервисы: было необходимо не только обеспечить мониторинг передвижения клиентов в реальном времени, но и проанализировать предысторию их перемещений, чтобы не донимать предложениями таксистов, сотрудников аэропорта и местных жителей.

Среди прочих реализованных проектов можно выделить несколько весьма успешных. Главной задачей при этом, естественно, становится удержание клиентов. Необходимо в реальном времени реагировать на определенные события и их последовательность: звонки и посещение сайтов конкурентов, проблемы, возникшие у клиента. На основе этой информации следует формировать предложения, направленные на предотвращение ухода клиента.

Второе важное направление — дополнительные продажи. Оно всегда было актуальным, однако работа «вслепую» неэффективна. Сравнение данных из разных источников позволяет составлять более полные профили пользователей, изучать их образ жизни, привычки и предпочтения, провести микросегментирование. Целевые предложения, основанные на потребностях конкретной группы людей, дают гораздо больший эффект.

Наконец, очевидный финансовый эффект приносят проекты, направленные на оптимизацию работы контакт-центра. Проактивно выявив реальные или возможные проблемы и своевременно проинформировав абонентов, можно предотвратить шквал звонков в службу поддержки.

Нельзя упускать из виду и системы предотвращения мошенничества. Это тоже выгодные проекты, но они требуют отдельных мероприятий. В настоящее время проектная команда изобретает эффективную архитектуру, не нагружающую системы, являющиеся источниками данных.

Важно, что созданное «Вымпелкомом» решение для анализа Больших Данных включает не только техническое решение, но и «фабрику идей». В рамках выстроенных процессов происходит сбор предложений от подразделений и их переработка в конкретные бизнес-идеи и — что гораздо важнее — обеспечивается сохранение и накопление опыта.

Инфраструктурный барьер

Необходимость вкладывать значительные средства в инфраструктуру при внедрении технологий Больших Данных создает высокий барьер на пути вхождения в эту область. Некоторые надежды на его снижение связаны с облачными вычислениями. Так, сейчас немалое число соответствующих проектов реализуются на облачных технологиях, считает Лазебников. Есть сервисы (к примеру, у Amazon), которые позволяют эффективно выстраивать сбор, хранение и обработку данных, причем с высокой скоростью. «Не всегда с финансовой точки зрения использование облаков оказывается для компании более выгодным, чем использование традиционной инфраструктуры, — отмечает Лазебников. — Но в ряде случаев проекты Больших Данных вполне успешно реализуются в облаках».

При обращении к технологиям Больших Данных хороший результат дает эволюционный подход, добавляет Лазебников. При интеграции новой платформы для работы с Большими Данными в текущую ИТ-инфраструктуру он рекомендует двигаться небольшими шагами, контролировать риски и не стремиться одним разом заменить все существующие технологии. Лучше поэтапно добавлять в ИТ-инфраструктуру новые компоненты и затем постепенно переключаться на их использование, отказываясь от ставших ненужными средств и систем.

Несмотря на то что технологии Больших Данных и облачные вычисления развиваются одновременно, прямой связи между ними нет, считает Сергей Заблодский, директор департамента корпоративных решений дивизиона данных компании IBS. Концепция облачных вычислений возникла несколько раньше и в основном относится к сфере инфраструктуры. Концепция Больших Данных в большей степени относится к аналитическим задачам. Связаны они между собой косвенно: облачные сервисы — это более дешевый и удобный способ реализации проектов, для которых нужны большие вычислительные мощности. Другими словами, облачные вычисления — это способ предоставления аналитических возможностей как сервиса потребителям, которые заинтересованы в результатах анализа Больших Данных.

Характер трансформации ИТ-инфраструктуры при переходе к технологиям Больших Данных, отмечает Заблодский, зависит от того, как именно компания собирается работать с Большими Данными. Первый вариант: компания принимает решение о том, что она самостоятельно будет накапливать все данные, которые имеет возможность получить. Для этого ей придется обзавестись дешевыми накопителями необходимой емкости — возможно, не очень быстрыми. Данный вариант предполагает размещение соответствующего оборудования и затраты на энергопотребление и обслуживание. Это достаточно типичные инфраструктурные задачи, решаемые ИТ-службами повсеместно. Второй вариант: компания может отдать работы по накоплению и хранению Больших Данных на аутсорсинг — например, в какой-либо ЦОД, который может предоставлять организации-заказчику доступ к этим данным напрямую либо посредством облачных технологий. В этом случае закупать и размещать собственное оборудование не придется. Однако остается другой вопрос — обработка накопленных данных: выбор технологии для нее будет зависеть от профиля организации и спектра актуальных бизнес-задач, считает Заблодский. Возможно, отмечает он, для реализации проекта Больших Данных достаточно будет средней производительности оборудования. Часто у компании есть оборудование, которое утратило свою актуальность для решения каких-то операционных задач, тем не менее оно вполне подходит для организации Hadoop-кластера.

Киселев считает, что технологии Больших Данных неразрывно связаны с облачными вычислениями. Для сбора больших массивов разнородных данных и их анализа требуются весьма значительные мощности. Не все компании могут себе позволить строить собственные ЦОД для решения аналитических задач, к тому же сегодня нет необходимости создавать собственную инфраструктуру и повторно собирать уже накопленные кем-то данные, достаточно обратиться к одним поставщикам облачных услуг за данными, а к другим — за вычислительными мощностями и инструментарием для их анализа. В частности, активно развивается рынок «сырых» данных, которые можно использовать для анализа. Так, исландская компания DataMarket предлагает свободный доступ к наборам данных других организаций, например Всемирного банка, Евростата, ООН. Свой доход компания получает в результате перепродажи данных от коммерческих поставщиков. Windows Azure DataMarket компании Microsoft выступает в качестве аналогичной площадки для перепродажи наборов данных от сторонних компаний. В целом, отмечает Киселев, ценность рыночных предложений тех, кто управляет данными с использованием облачных вычислений, растет.

Основной риск — новизна задачи

По мнению Заблодского, при обращении к технологиям Больших Данных самый главный риск заключается в том, что данная концепция в том виде, в каком она сейчас обсуждается, достаточно новая. Впрочем, отмечает он, то, что сейчас принято называть Большими Данными, существует уже достаточно давно и методологии их обработки нарабатывались годами. Новизна состоит в том, что большинство компаний и их ИТ-директоров никогда раньше не пытались использовать эти технологии в интересах своего бизнеса. Как любая новая задача, она таит в себе риски не учесть факторы, способныекритичным образом повлиять либо на достижимость результата, либо на его качество.

Во многих организациях, к сожалению, отсутствует ясное понимание того, чем эти технологии могут быть полезны их бизнесу. «Большие Данные не панацея, — отмечает Заблодский. — Прежде чем приступать к подобным проектам, нужно четко понимать, какого результата хотите достичь и насколько этот результат в принципе достижим». К счастью, есть опыт компаний, которые уже прошли этот путь, говорит он. Не всеми он был пройден абсолютно успешно. Некоторые получили от проектов Больших Данных дополнительное преимущество. Но есть и компании, которые, начав подобный проект, остановили его, разочаровавшись либо в сроках получения результатов, либо в самих результатах, пусть даже промежуточных.

Основные риски проектов Больших Данных связаны с тем, что это не проекты из серии «сделай сам», считает Лазебников. Большие Данные подразумевают целый комплекс технологий, средств и решений. Его интеграция в живую ткань компании, в ее структуру и бизнес требует опыта и хорошего понимания сути задачи. Если внутри ИТ-команды подобных компетенций и экспертизы нет, то лучше не действовать в стиле «главное начать, а дальше разберемся». Риски будут ниже, если перед стартом проекта нанять в штат профессиональных экспертов по Большим Данным или пригласить для его реализации внешнюю компанию-консультанта с соответствующим опытом.

По словам Харитоновой, на пути к внедрению технологий Больших Данных их потребителей ожидают серьезные риски. На сегодняшний день нет даже единого понимания того, какие объемы данных и технологии относятся к разряду Больших Данных, поэтому вряд ли стоит рассчитывать на использование аналогичного опыта. Пока каждый новый проект — это своеобразный эксперимент. Если же говорить о целях использования данной технологии, то, как и в случае с любым другим видом анализа данных, одним из основных рисков можно считать недоверие бизнеса к полученным результатам и, как следствие, непонимание им ценности внедрения этой технологии.

Киселев считает, что на пути внедрения технологий Больших Данных есть два существенных риска. Первый — риск, связанный с обоснованием ROI и других показателей экономической эффективности решений. Сегодня нет устоявшегося подхода к оценке окупаемости ИТ-проектов вообще и, в частности, нет ясного понимания ценности, которую способны обеспечить проекты, связанные с Большими Данными. Второй существенный риск — риск недостижения заявленных результатов проектов Больших Данных. Эта новая область знаний требует разработки и использования сложных математических моделей. При этом, отмечает Киселев, зачастую каждый проект уникален и предыдущий опыт (в частности, разработанные и использованные ранее модели) нередко не годится для решения новой или даже переформулированной задачи, которая решалась на другом предприятии. Впрочем, эти риски, по мнению Киселева, не являются отличительной особенностью проектов Больших Данных — они сопутствуют всем ИТ-проектам.

От Больших Данных к необходимым данным

Татьяна Лякишева, директор направления аналитических решений дивизиона данных компании IBS, отмечает, что в результате анализа больших массивов данных должно остаться лишь небольшое их количество, необходимое для принятия решений. Но эти данные должны обладать очень большой ценностью. Лякишева приводит пример «обогащения» профиля клиента на основании данных из социальных сетей. Подключая данные социальной сети, то есть ассоциируя профиль клиента (например, клиента банка) с его профилем в социальной сети, организация получает доступ к огромному количеству информации о человеке и его партнерах по коммуникациям. Также из созданного контента мы можем узнать, чем он интересуется, проанализировать специфику его речи. Из всех подобных данных (а это массив огромного объема) может быть извлечено всего несколько аналитических атрибутов для профиля клиента, которые впоследствии могут быть использованы в разных целях, говорит Лякишева. Например, в модели кредитного скоринга эти данные могут применяться для формирования очередного привлекательного предложения клиенту.

Похожая ситуация с объемом данных и в других отраслях экономики — например, в промышленности при принятии решений о техническом обслуживании и ремонте оборудования, когда данные с контрольных датчиков должны быть проанализированы на лету, но из них могут быть в результате извлечены всего несколько статистических показателей, на основании которых можно прогнозировать вероятность отказа оборудования.

Для принятия решений человеку требуется достаточно небольшой объем информации, отмечает Лякишева. Например, при принятии стратегических решений руководитель видит распределение прибыли по основным секторам и тренды развития значений показателей, которые выводит ему информационная система. Это «сухой остаток» того, что было проанализировано, извлечено и подготовлено машиной.

По мнению Лазебникова, наличие достаточного количества данных может заменить — и во многих случаях заменяет — недостаток теории: «В конце концов, не так важно, почему какой-то человек регулярно приходит в наш магазин за молоком и пивом. Возможно, жена попросила его покупать молоко, а он пользуется этим, чтобы приобрести еще и пиво. Может, есть какие-то другие причины. Важно, что если при анализе потребительской корзины мы зафиксировали сам факт таких покупок, то дальше можем принимать его в расчет при разработке нашей маркетинговой стратегии или рекламной кампании». В любом случае всегда должен быть кто-то, кто подумает, на какие вопросы следует искать ответы с помощью Больших Данных, как интерпретировать полученные результаты и как затем их использовать.

Обсуждая роль аналитика в анализе данных, Киселев отмечает, что количество данных и источники определяет аналитик в зависимости от поставленной задачи. Как правило, говорит он, в проектах Больших Данных аналитики и специалисты по ИТ-инструментарию работают в тесной связке и ни одна сторона не сможет решить задачу в одиночку. Аналитики уточняют задачи и строят модели, они своего рода промежуточный слой, который переводит задачу бизнеса в представление для информационных систем.

Итак, более или менее очевидно, что инфраструктурный барьер вхождения в данную область может быть снижен за счет облачных решений. Однако издержки пока что высоки. Главных проблем две. Во-первых, нужно определить, в чем состоят выгоды для бизнеса от данных решений, и, что еще важнее, объяснить их бизнесу. Во-вторых, реализовывать проект придется при практически полном отсутствии опыта других организаций, поэтому опираться придется только на свою интуицию.