Big Data: ответы на «правильные» вопросы

Данных у компаний хватает, и даже с избытком — их генерируют различные приборы в составе промышленного оборудования, информационные системы, многочисленные внешние источники. Пока в большинстве случаев они признаются малоценными и игнорируются. Между тем задач, которые решаются на основе больших объемов и потоков данных, может быть очень много. Компании должны лишь научиться задавать «правильные» вопросы к Большим Данным.

Крупные компании, особенно финансовые, достаточно активно изучают возможности использования Больших Данных, причем более быстрыми темпами, чем можно было ожидать. Как отмечают в NewVantage Partners, такие компании обычно тяжелы на подъем, однако обладают значительными ресурсами. Они видят ценность Больших Данных и вкладывают в их изучение средства. 85% из них уже запустили ознакомительные проекты, причем 75% уже вложили в технологию более 1 млн долл. Тем не менее достижение успеха подобных проектов пока видится скорее искусством, чем наукой.

Павел Литвинов, директор департамента информационных технологий независимой лаборатории «Инвитро»

«С помощью анализа данных можно прогнозировать потребности пациентов и изменение их предпочтений», Павел Литвинов, директор департамента информационных технологий независимой лаборатории «Инвитро»

Доводов для инвестиций в Большие Данные может быть много — от снижения рисков до повышения качества продуктов и услуг. Однако два из них являются безусловными лидерами: более быстрое и обоснованное принятие решений, а также пристальное изучение клиентов. Конечно, эти причины характерны и для традиционных средств BI. Но реальное бизнес-преимущество дает именно скорость получения ответов на возникающие вопросы. Используя средства анализа Больших Данных, компании получают ответы за секунды и минуты, а не за часы и дни, и это радикально влияет на их бизнес-процессы. Вся проблема в том, чтобы задавать правильные вопросы.

Здоровье и коммерция

Мнения экспертов относительно сущности Больших Данных сильно расходятся — все-таки этот термин еще довольно нов. Наиболее часто определение подразумевает совокупность структурированных и неструктурированных данных большого объема, которые появляются с большой скоростью из многочисленных источников, имеют различный формат и нуждаются в анализе «на лету».

«Для каждой компании в понятии Больших Данных есть определенная специфика. Обычно превалируют один или два атрибута», — отмечает Павел Литвинов, директор департамента информационных технологий независимой лаборатории «Инвитро». Лабораторию можно отнести не только к здравоохранению, но и к ретейлу: их проблемы здесь объединены. Например, помимо общего объема данных, в данном случае актуальна еще и скорость их накопления: через компанию проходит больше 5 млн пациентов в год, а общее их число составляет 20 млн. За последние несколько лет компания получила столько же информации, сколько за предыдущие десять лет. Что же касается разнородности данных, то в этом плане ситуация относительно спокойная: собираемая информация из года в год не меняется.

Литвинов выделяет несколько преимуществ работы с Большими Данными. Во-первых, это научный потенциал. «Мы накопили большую федеральную базу данных медицинского назначения. Ее изучение может представлять значительный научный интерес», — уверен он.

Например, может идти речь о составлении карты здоровья населения. Вспышки заболеваемости могут быть предсказаны задолго до их начала, по изменению определенных статистических показателей.

Информация, накопленная компанией, может быть полезна и в вопросах интеграции и слияния данных. Во многих странах вынесены на государственный уровень проекты электронных медицинских карт, когда в едином хранилище собирается информация о здоровье пациента из различных источников.

Безусловно, данные могут представлять интерес и для бизнеса. Посредством их анализа можно прогнозировать потребности пациентов и изменение их предпочтений, осуществляя дополнительные продажи. Кроме того, у компании существуют «узловые», наиболее ценные клиенты, влияющие на поведение целых групп. Их определение и обеспечение их лояльности являются отдельной задачей.

Но понимает ли сам бизнес, чего хочет от Больших Данных? Да, проблемы часто возникают. Сам факт владения данными — это уже затраты. Если же говорить про обработку, то затраты увеличиваются кратно.

«Многое становится понятно, когда мы начинаем оперировать финансовыми показателями», — говорит Литвинов. Если потенциал, получаемый в результате обработки данных, превышает затраты, то вполне применима обычная проектная логика. Немного сложнее с наукой: такие инвестиции более рискованны в плане возврата, они могут окупаться гораздо дольше. Здесь необходима другая система ценностей, поэтому работают скорее социальные и общечеловеческие подходы.

«В целом нам с менеджментом крупно повезло: ИТ воспринимается не только как центр затрат, но и как источник определенных конкурентных преимуществ», — констатирует Литвинов.

Во многом благодаря этому направление Больших Данных попало в пятилетний стратегический план развития.

Прошлый год стал стартовым по осмыслению проблемы. Компания находится в самом начале пути: она определилась с используемыми инструментами, видами используемых данных и способами их обработки, а также с желаемыми результатами и способами их измерения.

«У нас есть специальное достаточно крупное подразделение — отдел по управлению данными. Он занимается поддержанием в актуальном состоянии и обработкой Больших Данных», — делится Литвинов. Данные, считанные с приборов или полученные извне, как правило, являются «грязными» и представляют мало интереса. Их нужно поддерживать в актуальном состоянии, проводить дедупликацию и обогащение.

В компании завершается проект внедрения решения Master Data Management — информационной системы, позволяющей поддерживать качество собираемых данных. После его реализации будет запущено внедрение средств аналитики, включающих механизм data mining и предназначенных для бизнес-пользователей.

«Кандидатский минимум» Big Data

Рост актуальности Больших Данных обусловил появление новой категории специалистов по бизнес-технологиям — data scientist. Их задача — перевод большого объема на первый взгляд малосвязанных данных в предсказательные «догадки», способные принести реальные результаты. Как отмечают в EMC, эти специалисты крайне востребованы на рынке: в США стартовый доход такого специалиста может составлять до 300 тыс. долл. В новой специальности проявляется явный налет элитарности — эксперты ее называют самой привлекательной (sexy) на рынке.

Разумеется, такие специалисты в большом дефиците. В последние 20 лет много говорилось о дефиците ИТ-специалистов, программистов и инженеров, могущих обеспечивать развитие всей индустрии высоких технологий. Однако неожиданно обнаружилась нехватка аналитиков для извлечения пользы из данных, накопленных ИТ-системами.

Главная проблема в том, что для экспертов data science требуется гораздо более глубокое образование. Проведенное исследование показало, что 40% из них имеют хотя бы кандидатскую степень, а 10% — докторскую. Для сравнения, докторскую степень имеет лишь 1% экспертов по бизнес-аналитике.

Более того, нынешние профессионалы BI по большому счету даже не рассматриваются в качестве источника кадров для data science. Скорее речь может идти о студентах, обучающихся по программам бизнес-аналитики.

Различия начинаются с самого фундамента: наиболее предпочтительным бэкграундом для специалистов BI всегда считалось бизнес-образование. Для экспертов data science, напротив, наиболее популярным считается ИТ-образование. Далее в списке самых перспективных следуют инженеры и математики.

В любом случае востребованность таких специалистов во много раз превышает предложение, поэтому необходимо создать все условия по их подготовке. Без специалистов data science не произойдет никакой «революции Больших Данных».

Подготовка специалистов для реализации потенциала Больших Данных может оказаться гораздо более сложной задачей, чем внедрение необходимых технологий и процессов. Эксперты по работе с данными должны обладать коммерческой проницательностью, аналитическим складом ума и техническим опытом. От них потребуется соединить бизнес с ИТ и аналитическими методами.

В мире весьма ограниченное количество программ подготовки специалистов data scientist, некоторые из которых только готовятся к запуску. Любопытно, что в октябре 2012 года о планах запуска такой программы объявила и ВШЭ.

«Data scientist — это специалист, который обладает знаниями относительно всего жизненного цикла данных, но главное — относительно возможностей их использования, с чем сейчас и наблюдаются существенные проблемы», — считает Светлана Мальцева, декан факультета бизнес-информатики ВШЭ. Он должен объединять профессиональные знания в областях математической статистики и теории вероятности, анализа данных, равно как и иметь представление о бизнес-моделях компаний.

В ВШЭ взялись за создание такой программы, хотя еще и не определились, какого уровня она будет.

Полная версия статьи в журнале "Директор информационной службы"

Zero Trust и Data Governance: как управление данными превращает дата-каталог в ядро контура безопасности