В конце марта состоялся юбилейный, пятый ежегодный форум BIG DATA 2016, организованный издательством «Открытые системы». За прошедшее время форум зарекомендовал себя как ведущее мероприятие в России для обсуждения актуальных проблем и знакомства с достижениями в области Больших Данных.

За прошедшие годы структура программы форума претерпевала заметные изменения. В 2012 году ее составили в основном доклады западных вендоров, ставящих целью просвещение аудитории, а наиболее острые дискуссии развертывались над самим определением Больших Данных. В дальнейшем стало появляться все больше заказчиков, готовых делиться своим опытом, начали обсуждаться результаты первых проектов. В этом году наряду с крупнейшими западными компаниями на форуме выступало немало российских разработчиков, которые представляли собственные технологические решения, обобщающие опыт участия в проектах, объединенных той или иной отраслевой или прикладной спецификой, и даже коллективы, предлагающие средства работы с Большими Данными в качестве сервиса.

Несколько месяцев назад в Gartner убрали технологии Big Data со своей кривой Hype Cycle. Рано или поздно это должно было произойти: Большие Данные — зонтичный термин, синергия огромного количества технологий, многие из которых сами по себе достойны самого пристального рассмотрения. Однако появившаяся новая отрасль и сформировавшиеся подходы к работе с данными не исчезли: появились средства, позволяющие работать с конкретными бизнес-проблемами и находить умные решения задач нового уровня.

Ключ к конкурентоспособности

Как известно, в ходе эволюции выживают не сильнейшие, а те, кто умеет быстрее других приспосабливаться к изменениям среды. По мнению Святослава Сухова, директора дивизиона EMC Isilon в России и странах СНГ, то же самое происходит в нынешней бизнес-среде. Цифровая экономика захватывает существенную часть реального сектора экономики, улучшая его показатели и стимулируя эти процессы эволюции. И если данные — нефть цифровой экономики, то аналитика — ее двигатель. Проблема в том, что, согласно оценкам Gartner, 41% компаний, внедривших у себя технологии Больших Данных, не знают, окупились ли их проекты. Как полагает Сухов, это свидетельствует о явных недочетах в целеполагании.

Компании не могут быть конкурентоспособными, основываясь лишь на традиционной аналитике, которая уже не дает заметных преимуществ. «Классическая бизнес-аналитика — это археология, хотя и ее полное отсутствие может быть чревато крахом бизнеса, — провел аналогию Евгений Степанов, руководитель направления HPE Big Data Platform в России. — Реальное конкурентное преимущество может дать только открытие, направленное в будущее». При этом главная проблема вовсе не техническая, и заключается она в определении ценности данных и выработке стратегии их накопления и использования.

За пять лет форум зарекомендовал себя как ведущее мероприятие в?России для обсуждения актуальных проблем и?знакомства с?достижениями в?области Больших Данных

Леонид Березовский, руководитель отдела продаж платформы управления данными Microsoft, согласен с тем, что компании, реализующие проекты Больших Данных, преследуют общую цель — пытаются получить то или иное уникальное конкурентное преимущество. Сценарии могут быть самыми разными — от предотвращения оттока клиентов до минимизации производственных потерь и борьбы с мошенничеством. При этом, как правило, компании ориентируются на какое-то одно направление, создавая свою уникальность, а по остальным параметрам стараются быть на общем уровне.

Например, МТС хочет «ворваться на рынок мобильной рекламы», на основе имеющейся информации определяя потребности человека в данный момент. Как отметил Леонид Ткаченко, директор департамента стратегического маркетинга МТС, технологии сделали хранение и обработку данных очень дешевыми, благодаря чему стали целесообразными проведение массовых аналитических исследований и реализация новых сервисов. Глобальная задача — предоставление «ультраперсонализированного» сервиса на массовый рынок.

Действительно, оператор по своей статистике может узнать о районе проживания человека, времени его нахождения дома, интересах, приобретаемых товарах, составив полный профиль поведения. Однако даже «безопасные мелочи» могут стать конфиденциальной информацией после агрегации и обработки, поэтому защите данных необходимо уделять повышенное внимание. Дженнифер Трелевич, директор отдела риска и рыночных данных «ТехЦентра Дойче Банка», предложила применять концепции безопасных архитектур информационных систем, выделяя «белые» (незащищенные), «красные» (конфиденциальные) и «черные» (обязательные для шифрования) данные. Это позволит сделать защиту адекватной по трудозатратам и экономической эффективности. При этом ключевым вопросом становится даже не собственно безопасность, а этика использования Больших Данных. Компании должны не только защищать данные, выполняя требования регуляторов, но и аккуратно подходить к вопросам их использования.

В условиях гигантского роста объемов налоговой информации и усложнения алгоритмов ее анализа эффективное налоговое администрирование возможно благодаря использованию Больших Данных, уверена Татьяна Матвеева, начальник управления информационных технологий ФНС России. Именно технологии Больших Данных позволят автоматически сопоставлять данные контрагентов, оперативно выявлять и пресекать незаконную деятельность компаний-мошенников. Формируемый «единый налоговый файл» дает возможность сопоставлять между собой любые налоговые данные в масштабах всей страны, что значительно усложняет попытки применения незаконных схем уклонения от уплаты налогов.

Маркетинг с учетом Open Source

Не секрет, что открытые решения побеждают на рынке распределенной обработки массивов неструктурированных данных и многих других базовых технологий Больших Данных. Многие поставщики вынуждены принимать это во внимание, выстраивая свою политику.

Некоторые производители начинают работать с открытыми решениями. Как рассказал Андрей Суворкин, руководитель направления Big Data компании Teradata в России, компания год назад взяла под свое крыло платформу Presto — логическое хранилище данных на базе технологий обработки in-memory, и начала продвигать ее на корпоративном рынке, предлагая платную коммерческую поддержку. При этом клиенты получают такие преимущества, как быстрый старт, интеграция с другими продуктами и прочие корпоративные сервисы (безопасность, оптимизация работы, облачные сервисы и т. п.).

«Да, все более широкое распространение получают средства Open Source. Но очень многие компании предпочитают ускорять проекты, избегая трудоемких этапов и приобретая готовые решения», — заявила Наталья Горбунова, ведущий технический специалист Oracle. По ее словам, важно упростить вход в проекты Больших Данных, сделать доступнее работу с ними, и при этом речь идет вовсе не о деньгах. Новые технологии должны органично вписаться в существующую архитектуру и начать работать совместно с другими решениями. На волне успеха программно-аппаратных комплексов компания Oracle выпустила Big Data Appliance, построенный совместно с Cloudera и Intel.

«Мы не ставим целью заработать на ПО, хотя продукты и не бесплатны. Наша задача — предлагать решения, работающие на нашем оборудовании наиболее эффективно», — заявил Геннадий Федоров, технический консультант Intel. Предоставляя такое ПО, компания стимулирует продажи своих «основных» продуктов. Технологии Больших Данных требуют высочайшей эффективности вычислительных операций, и свое преимущество в Intel видят в том, что понимают проблемы науки о данных (Data Science) и умеют оптимизировать программные коды под свою архитектуру.

Нужен безграничный кредит доверия

По мнению Юрия Петрова, эксперта Big Big Data Group, главная проблема проектов Больших Данных заключается в том, что такие проекты, по определению требующие инновационного подхода, загоняют в стандартные рамки, а команду собирают из «старой гвардии»; это их и губит. Проект Big Data должен быть освобожден от всех проблем и ограничений, существующих в компании, — понимание этого должно быть у топ-менеджмента. Желание сэкономить ни к чему хорошему не приводит. Если руководство компании не готово выдать безграничный кредит доверия команде и практически безграничные ресурсы, то просто не следует начинать проект.

«Наша компания придерживается принципа независимости от внешних поставщиков, в том числе и в вопросах хранения и обработки данных», — заявил Сергей Бондарев, руководитель направления развития корпоративных информационных систем и отчетности «Ростелекома». Компании должны стремиться быть реальными владельцами своих данных, но фактически вадельцем часто становится разработчик внедряемых решений. «Ростелеком» строит хранилище данных на базе дистрибутива HortonWorks Hadoop силами специалистов дочерней компании.

Как полагает Бондарев, многие проекты Больших Данных не идут дальше «пилотов» из-за того, что к их оценке подходят «не с той стороны». Монетизация данных, на которую надеются многие компании, не всегда очевидна, поэтому следует начинать с простого. Проект «Ростелекома» изначально базируется на экономии в инфраструктуре. Потом можно будет задуматься о повышении операционной эффективности, а в дальнейшем — о дополнительных эффектах, к которым относится и монетизация данных.