Данных у компаний хватает, и даже с избытком — их генерируют различные приборы в составе промышленного оборудования, информационные системы, многочисленные внешние источники. Пока в большинстве случаев они признаются малоценными и игнорируются. Между тем задач, которые решаются на основе больших объемов и потоков данных, может быть очень много. Компании должны лишь научиться задавать «правильные» вопросы к Большим Данным.

Крупные компании, особенно финансовые, достаточно активно изучают возможности использования Больших Данных, причем более быстрыми темпами, чем можно было ожидать. Как отмечают в NewVantage Partners, такие компании обычно тяжелы на подъем, однако обладают значительными ресурсами. Они видят ценность Больших Данных и вкладывают в их изучение средства. 85% из них уже запустили ознакомительные проекты, причем 75% уже вложили в технологию более 1 млн долл. Тем не менее достижение успеха подобных проектов пока видится скорее искусством, чем наукой.

Павел Литвинов, директор департамента информационных технологий независимой лаборатории «Инвитро»
«С помощью анализа данных можно прогнозировать потребности пациентов и изменение их предпочтений», Павел Литвинов, директор департамента информационных технологий независимой лаборатории «Инвитро»

Доводов для инвестиций в Большие Данные может быть много — от снижения рисков до повышения качества продуктов и услуг. Однако два из них являются безусловными лидерами: более быстрое и обоснованное принятие решений, а также пристальное изучение клиентов. Конечно, эти причины характерны и для традиционных средств BI. Но реальное бизнес-преимущество дает именно скорость получения ответов на возникающие вопросы. Используя средства анализа Больших Данных, компании получают ответы за секунды и минуты, а не за часы и дни, и это радикально влияет на их бизнес-процессы. Вся проблема в том, чтобы задавать правильные вопросы.

Здоровье и коммерция

Мнения экспертов относительно сущности Больших Данных сильно расходятся — все-таки этот термин еще довольно нов. Наиболее часто определение подразумевает совокупность структурированных и неструктурированных данных большого объема, которые появляются с большой скоростью из многочисленных источников, имеют различный формат и нуждаются в анализе «на лету».

«Для каждой компании в понятии Больших Данных есть определенная специфика. Обычно превалируют один или два атрибута», — отмечает Павел Литвинов, директор департамента информационных технологий независимой лаборатории «Инвитро». Лабораторию можно отнести не только к здравоохранению, но и к ретейлу: их проблемы здесь объединены. Например, помимо общего объема данных, в данном случае актуальна еще и скорость их накопления: через компанию проходит больше 5 млн пациентов в год, а общее их число составляет 20 млн. За последние несколько лет компания получила столько же информации, сколько за предыдущие десять лет. Что же касается разнородности данных, то в этом плане ситуация относительно спокойная: собираемая информация из года в год не меняется.

Литвинов выделяет несколько преимуществ работы с Большими Данными. Во-первых, это научный потенциал. «Мы накопили большую федеральную базу данных медицинского назначения. Ее изучение может представлять значительный научный интерес», — уверен он.

Например, может идти речь о составлении карты здоровья населения. Вспышки заболеваемости могут быть предсказаны задолго до их начала, по изменению определенных статистических показателей.

Информация, накопленная компанией, может быть полезна и в вопросах интеграции и слияния данных. Во многих странах вынесены на государственный уровень проекты электронных медицинских карт, когда в едином хранилище собирается информация о здоровье пациента из различных источников.

Безусловно, данные могут представлять интерес и для бизнеса. Посредством их анализа можно прогнозировать потребности пациентов и изменение их предпочтений, осуществляя дополнительные продажи. Кроме того, у компании существуют «узловые», наиболее ценные клиенты, влияющие на поведение целых групп. Их определение и обеспечение их лояльности являются отдельной задачей.

Но понимает ли сам бизнес, чего хочет от Больших Данных? Да, проблемы часто возникают. Сам факт владения данными — это уже затраты. Если же говорить про обработку, то затраты увеличиваются кратно.

«Многое становится понятно, когда мы начинаем оперировать финансовыми показателями», — говорит Литвинов. Если потенциал, получаемый в результате обработки данных, превышает затраты, то вполне применима обычная проектная логика. Немного сложнее с наукой: такие инвестиции более рискованны в плане возврата, они могут окупаться гораздо дольше. Здесь необходима другая система ценностей, поэтому работают скорее социальные и общечеловеческие подходы.

«В целом нам с менеджментом крупно повезло: ИТ воспринимается не только как центр затрат, но и как источник определенных конкурентных преимуществ», — констатирует Литвинов.

Во многом благодаря этому направление Больших Данных попало в пятилетний стратегический план развития.

Прошлый год стал стартовым по осмыслению проблемы. Компания находится в самом начале пути: она определилась с используемыми инструментами, видами используемых данных и способами их обработки, а также с желаемыми результатами и способами их измерения.

«У нас есть специальное достаточно крупное подразделение — отдел по управлению данными. Он занимается поддержанием в актуальном состоянии и обработкой Больших Данных», — делится Литвинов. Данные, считанные с приборов или полученные извне, как правило, являются «грязными» и представляют мало интереса. Их нужно поддерживать в актуальном состоянии, проводить дедупликацию и обогащение.

В компании завершается проект внедрения решения Master Data Management — информационной системы, позволяющей поддерживать качество собираемых данных. После его реализации будет запущено внедрение средств аналитики, включающих механизм data mining и предназначенных для бизнес-пользователей.

«Кандидатский минимум» Big Data

Рост актуальности Больших Данных обусловил появление новой категории специалистов по бизнес-технологиям — data scientist. Их задача — перевод большого объема на первый взгляд малосвязанных данных в предсказательные «догадки», способные принести реальные результаты. Как отмечают в EMC, эти специалисты крайне востребованы на рынке: в США стартовый доход такого специалиста может составлять до 300 тыс. долл. В новой специальности проявляется явный налет элитарности — эксперты ее называют самой привлекательной (sexy) на рынке.

Разумеется, такие специалисты в большом дефиците. В последние 20 лет много говорилось о дефиците ИТ-специалистов, программистов и инженеров, могущих обеспечивать развитие всей индустрии высоких технологий. Однако неожиданно обнаружилась нехватка аналитиков для извлечения пользы из данных, накопленных ИТ-системами.

Главная проблема в том, что для экспертов data science требуется гораздо более глубокое образование. Проведенное исследование показало, что 40% из них имеют хотя бы кандидатскую степень, а 10% — докторскую. Для сравнения, докторскую степень имеет лишь 1% экспертов по бизнес-аналитике.

Более того, нынешние профессионалы BI по большому счету даже не рассматриваются в качестве источника кадров для data science. Скорее речь может идти о студентах, обучающихся по программам бизнес-аналитики.

Различия начинаются с самого фундамента: наиболее предпочтительным бэкграундом для специалистов BI всегда считалось бизнес-образование. Для экспертов data science, напротив, наиболее популярным считается ИТ-образование. Далее в списке самых перспективных следуют инженеры и математики.

В любом случае востребованность таких специалистов во много раз превышает предложение, поэтому необходимо создать все условия по их подготовке. Без специалистов data science не произойдет никакой «революции Больших Данных».

Подготовка специалистов для реализации потенциала Больших Данных может оказаться гораздо более сложной задачей, чем внедрение необходимых технологий и процессов. Эксперты по работе с данными должны обладать коммерческой проницательностью, аналитическим складом ума и техническим опытом. От них потребуется соединить бизнес с ИТ и аналитическими методами.

В мире весьма ограниченное количество программ подготовки специалистов data scientist, некоторые из которых только готовятся к запуску. Любопытно, что в октябре 2012 года о планах запуска такой программы объявила и ВШЭ.

«Data scientist — это специалист, который обладает знаниями относительно всего жизненного цикла данных, но главное — относительно возможностей их использования, с чем сейчас и наблюдаются существенные проблемы», — считает Светлана Мальцева, декан факультета бизнес-информатики ВШЭ. Он должен объединять профессиональные знания в областях математической статистики и теории вероятности, анализа данных, равно как и иметь представление о бизнес-моделях компаний.

В ВШЭ взялись за создание такой программы, хотя еще и не определились, какого уровня она будет.

Клиенты из Интернета: найти и «достучаться»

«Я понимаю Большие Данные как огромные объемы неструктурированной информации, которые необходимо быстро обрабатывать и на основе анализа делать выводы и принимать решения», — подчеркивает Алексей Евтушенко, директор по ИТ банка «Хоум Кредит». С этой точки зрения Большие Данные — это вовсе не та информация, которая накоплена в ИТ-системах любой компании, а всевозможная информация в Интернете: социальные сети, форумы, видеофайлы, изображения, содержимое любого веб-сайта.

В настоящее время большинство банков оперируют только данными из собственных ИТ-систем, их объем может составлять десятки или сотни терабайт. Да, объем велик, но это не Большие Данные, и проблем с их обработкой не возникает.

По мнению Евтушенко, лидерами работы с Большими Данными на текущий момент являются интернет-поисковики. Именно они мгновенно обрабатывают огромные залежи данных, не только помогая находить нужную информацию, но и запоминая поведение пользователей и показывая им рекламные баннеры, соответствующие их интересам. С точки зрения многих компаний, работающих на массовом рынке, такие действия близки к идеалу.

Алексей Евтушенко, директор по ИТ  банка «Хоум Кредит»
«Большие Данные — это вовсе не та информация, которая накоплена в ИТ-системах любой компании, а всевозможная информация в Интернете», Алексей Евтушенко, директор по ИТ банка «Хоум Кредит»

Если говорить про банки, то они делают первые попытки работать с Большими Данными.

«Мы теперь выходим в социальные сети для представления там своих услуг, помощи клиентам и сбора обратной связи. Активных продаж и продвижения своих продуктов на основе обработки информации о различных сегментах пользователей пока не делаем, хотя желание такое есть», — признает Евтушенко. Все идет к тому, что бизнес во многих сферах переходит «в провода» — не случайно главными тенденциями в ИТ являются не только облака и Большие Данные, но также «мобилизация» и «социализация» населения. Уже сейчас количество мобильных устройств, подключенных к Сети, превышает число стационарных компьютеров, люди активно общаются в группах по интересам, узнавая многие новости именно там.

Все организации, осознающие эти тенденции, ищут пути выхода в Сеть для начала активной работы там. В ряде организаций реализуются пилотные проекты.

«Мы также контактируем с рядом крупных компаний на предмет развертывания прототипа системы и оценки возможностей сканирования Интернета с целью найти потенциальных клиентов и довести до них наши предложения», — говорит Евтушенко. Пора уходить от массового маркетинга, который становится менее эффективным, к таргетированному продвижению услуг.

При этом самое сложное — научиться быстро обрабатывать информацию и формировать консолидированные решения. Информация не структурирована и разбросана по огромному числу ресурсов, и нужны совершенно новые алгоритмы обработки данных, отличные от традиционного сканирования корпоративных хранилищ.

Наиболее интересная для банков возможность — это, конечно, поиск клиентов. Важно выяснить их контакты, определить, по какому каналу каждому из них удобнее общаться, и сделать им заманчивое предложение, соответствующее их интересам.

Второе перспективнейшее направление — создание механизма сбора откликов клиентов, реализация обратной связи. Солидные организации делают проверки соблюдения корпоративных стандартов (проекты «Таинственный покупатель», Mystery Shopping). Они нанимают независимых специалистов, чтобы те сделали экспертное заключение о качестве сервиса. Для компании с большим количеством торговых точек подобные инициативы выливаются в огромные затраты, но полного контроля достигнуть все равно не удается. С помощью анализа содержимого интернет-ресурсов возможно не только разделить отзывы людей на позитивные и негативные, но и сгруппировать их, выделить наиболее лояльные группы пользователей, наиболее характерные жалобы, региональную специфику. Исходя из этой информации любая организация может предпринять массу действий по оптимизации своих процессов.

У любой коммерческой организации основным движителем проектов является экономическая целесо­образность. Все, что потенциально может увеличить доход или оптимизировать затраты, бизнесу будет интересно. Если вместо миллионных затрат на физический контроль качества сервиса компания сможет за те же деньги построить систему с более широкими возможностями, это откроет новые перспективы для улучшения бизнес-процессов.

«Перед внедрением новых технологий мы делаем пилотный проект, и Большие Данные не являются исключением, — подчеркивает Евтушенко. — Сейчас мы прорабатываем возможность запуска подобного пилота. Конечно, просветительская работа с менеджментом тоже ведется. Однако, прежде чем новые технологии станут более привычными, иногда проходит несколько лет. Поэтому главным средством убеждения должны быть именно успешные пилоты».

Слышали многие, уверены в пользе немногие и лишь единицы делают первые шаги — так сейчас можно описать отношение к Большим Данным в России.

Убежденности, что в это направление имеет смысл инвестировать именно сейчас огромные средства, пока нет.