Большие Данные – комплексный подход | Компьютерный мир

Сергей Лихарев: «Обязательным условием для старта проекта с нашими технологиями Больших Данных является понимание того, что, начав работать с ними, компания получит нечто кардинально новое»

Делясь впечатлениями о форуме Big Data 2012, организованном издательством «Открытые системы», Сергей Лихарев, руководитель направления решений по управлению информацией IBM EE/A, заметил, что все выступающие на конференции выделяют определенную, наиболее близкую себе тему в широкой проблематике Больших Данных. Но важно, что рынок сегодня стремится к консолидации, старается прийти к общему знаменателю в понимании того, что такое Большие Данные и какие инструменты необходимы, чтобы эффективно решать связанные с ними задачи.

Что есть Большие Данные для IBM и какими решениями в этой области располагает корпорация, у Сергея Лихарева поинтересовалась Наталья Дубова, редактор журнала «Открытые системы».

Что IBM вкладывает в понятие Больших Данных?

IBM характеризует Большие Данные по наличию как минимум одного из трех признаков. Первый – классический признак объема. Говоря о Больших Данных, мы имеем в виду огромные объемы – петабайты и зеттабайты данных. Нижний порог – десятки терабайтов данных. Второй критерий – разнородность данных. Если традиционно при работе с данными мы имеем дело с SQL-ориентированным хранилищем, то Большие Данные к структурированным данным добавляют информацию из социальных сетей, тексты, электронную почту, аудио, видео и т. д. И третий признак Больших Данных – скорость. Но не скорость роста хранилищ данных, а скорость, с которой данные поступают. Например, с сенсоров очень быстро идет нескончаемый поток информации. Встает вопрос, с одной стороны, о скорости обработки этих данных, а с другой — о скорости принятия решения на их основе.

Если присутствует один их этих признаков или все они в совокупности, то это задача из области Больших Данных. Часто эти признаки оказываются взаимосвязаны: разнородная информация, как правило, имеет очень большие объемы, а информация с датчиков поступает с огромной скоростью.

Ваши основные предложения в этой области?

Для Больших Данных в целом IBM на сегодня имеет четыре решения. Прежде всего, это хранилища структурированных данных больших объемов в десятки и сотни терабайтов – программно-аппаратные комплексы Netezza, Smart Analytics System. Для обработки потоковых данных предлагается специализированное решение Infosphere Streams. Этот продукт дает возможность написать программу, которая, принимая на вход множество потоков разнородных данных, будет их преобразовывать, анализировать, сопоставлять информацию из разных потоков, чтобы на выходе сохранить извлеченную из потока информацию в хранилище, либо принять на ее основе то или иное решение. Например, в приложении Streams для торговли ценными бумагами изменение котировок может быть сигналом покупать или продавать акции.

Для работы с большими объемами разнородных данных – неструктурированных, полуструктурированных либо структурированных, которые не нужно сразу помещать в хранилище, но нужна возможность обращаться к ним с помощью SQL-запросов, – IBM предлагает продукт Infosphere BigInsights. Это промышленное решение на базе платформы с открытым кодом Apache Hadoop, к которой добавлены средства обеспечения высокой доступности, масштабируемости, инструменты администрирования, инструменты для разработчиков и для конечных пользователей.

Четвертый компонент предложений в области Больших Данных – это интеграционные возможности системы Infosphere Information Server, которые позволяют связать перечисленные решения между собой и с другими компонентами портфеля IBM по управлению информацией.

Все наши технологии Больших Данных основаны на принципе массивно-параллельной обработки, что позволяет создать платформу с практически неограниченными возможностями масштабирования.

Судя по вашим словам, Streams – это среда разработки, а не готовая аналитическая система?

Streams – это среда разработки и одновременно среда исполнения приложений для потоковых данных. Продукт включает в себя наборы библиотек, которые позволяют строить аналитические приложения для обработки различных типов данных – финансовых, текстовых, видео, аудио. Например, с помощью соответствующего тулкита в Streams можно написать приложение для обработки информации, поступающей с видеокамер, которое будет сопоставлять все лица с определенной базой данных и выполнять некоторые действия при выявлении совпадения. Приложение, разработанное с использованием набора библиотек для аудиоданных, сможет, например, выделять звук человеческого голоса из шума моря. Библиотеки для финансовых данных дают возможность разбирать форматы этого типа информации.

Streams предоставляет инструменты разработки на специальном языке Streams Processing Language, созданном в IBM. После того как программа на SPL написана и отлажена, она переносится в продуктивную среду Streams. В этот момент начинает работать технология по оптимизации. Во время написания программы разработчик не знает, в какой среде она будет исполняться. В зависимости от интенсивности потока данных приложение может быть развернуто на одном ноутбуке или на кластере из сотни мощных машин, которые будут вести параллельную обработку. Красота решения IBM в том, что программа на декларативном языке преобразуется в эффективный машинный код. Streams сначала получает задание осуществить те или иные преобразования данных, а затем информацию о том, что эти преобразования надо реализовать, например, для потока данных в 1 Тбайт в час. И приложение будет развернуто на оптимальной аппаратной конфигурации для такой скорости обработки.

Как появился этот продукт?

Streams был разработан в рамках проекта Watson для высокоскоростной обработки голоса.

Streams, по-видимому, достаточно сложное решение, и, чтобы его использовать, компании понадобятся знающие специалисты.

Конечно, это не инструмент бизнес-пользователя. SPL – это SQL-подобный язык, и специалист, который будет работать с Streams, должен знать основы программирования и синтаксис SQL. Но продукт полностью скрывает от него детали исполнения приложения в продуктивной среде, разработчик создает только логику программы. Поэтому Sterams в значительной степени упрощает и ускоряет разработку сложных аналитических приложений обработки потоковых данных.

На семинаре в рамках форума мы всего за час продемонстрировали целиком процесс разработки относительно сложного приложения, которое принимает на вход финансовые транзакции и выполняет с ними определенные действия.

Есть ли примеры внедрения Streams в российских компаниях? Появились ли у IBM на местном рынке партнеры по продвижению этого решения?

Сейчас идет несколько пилотных проектов, которые реализуются силами специалистов IBM. Мы понимаем, что, с одной стороны, такие решения постепенно становятся востребованными и рано или поздно возникнет ситуация, когда партнеры сами придут к нам; с другой - уже сейчас у ряда финансовых организаций есть настоятельная потребность анализа потока финансовых транзакций. Поэтому мы рассказываем партнерам о Streams и приглашаем их к совместному участию в проектах, но при этом стараемся не быть зависимыми от них. Если партнеры быстро не откликнутся, будем эту технологию продвигать сами и развивать рынок до того момента, когда уже заказчики подтолкнут партнеров к тому, чтобы заниматься этим решением.

Насколько Streams востребован и каковы, на ваш взгляд, его перспективы на нашем рынке?

Я уже вижу потребность у финансовых организаций и у телекоммуникационных компаний, которые постоянно имеют дело с потоками данных. Потенциальный пользователь Streams – промышленные предприятия, в частности нефтегазовая отрасль, где эксплуатируется множество датчиков, с которых все время приходит информация. Еще одна область – системы безопасности, где стоит задача распознавания видеоизображений и выполнения тех или иных действий по результатам анализа.

Есть ли аналоги этого решения у других производителей?

С таким же объемом возможностей, как у Streams, нет. Сегодня на конференции все выступающие говорили об объемах, многие – о разнородности данных, но никто не упомянул разнородные потоковые данные, например видео, аудио, тексты. Есть нишевые решения, но большинство крупных вендоров пока не работают с потоками разнородной информации. А у IBM в этой области уже очень зрелый продукт.

Сегодня предлагается не одна коммерческая реализация систем работы с Большими Данными на базе Hadoop. Что выделяет решение BigInsights?

BigInsights – полноценная корпоративная платформа с возможностями развертывания, администрирования, безопасности, высокой доступности. Кроме того, решение включает в себя Text Analytics Toolkit, который позволяет писать приложения по анализу текстов. Например, нужно извлечь из текста фамилию и имя человека и его контактную информацию. Эти данные могут быть перечислены в одном месте или разбросаны по тексту. Инструменты текстовой аналитики BigInsights позволяют строить предметно-ориентированные наборы правил для извлечения нужной информации из текста.

В настоящее время этот инструментарий хорошо работает с английским языком, но при этом является очень открытым: объясняет, какие решения принимаются и почему, позволяя тем самым себя расширять. Поэтому наши партнеры, у которых есть прекрасные наработки в области анализа русского языка, получат возможность использовать их в рамках платформы BigInsights. Мы также работаем с Российской лабораторией систем и технологий IBM по расширению возможностей поддержки русского языка в BigInsights.

Кроме того, в этой системе, как и в Streams, реализована многопотоковая оптимизация времени исполнения, благодаря которой написанное приложение будет работать в продуктивной среде быстро, надежно и качественно. IBM уже 20 лет занимается массивно-параллельной обработкой, и именно в корпорации изобрели SQL как декларативный язык, так что мы действительно знаем, как с этим эффективно работать.

Какие примеры задач для BigInsights вы могли бы привести?

В мире много проектов, в которых профиль клиента строится не только на основе информации о его транзакциях, но и исходя из того, с кем и как он общается в социальных сетях. На форуме я привел пример компании из индустрии моды, которая проводит мониторинг высказываний в Twitter об их продукции непосредственно во время показов. Модели, на которые идут не очень хорошие отзывы, тут же выставляют на продажу со скидкой. Это дает возможность продать их со скидкой 40%, поскольку в конце сезона на такие модели придется делать скидку 80%. Многие банки в мире ведут мониторинг мнений о них в социальных сетях.

В России этого пока нет, но я думаю, что поддержка русского языка на платформе BigInsights откроет новые возможности для наших заказчиков. Пока они с осторожностью присматриваются к этой технологии, но, когда появятся первые успешные проекты, интерес к ней будет нарастать как снежный ком.

В России уже есть пилотные проекты с использованием BigInsights?

Пока нет. Фактически мы сегодня на форуме впервые представили этот продукт, рассказали о том, что есть бесплатная и промышленная редакции BigInsights. Кроме того, мы открыли интернет-ресурс BigDataUniversity, в котором можно бесплатно пройти курсы по технологиям Hadoop и BigInsights и попробовать применить свои знания с помощью облачной инсталляции системы. У BigDataUniversity уже около 8,5 тыс. студентов по всему миру, в том числе из России. Мы также обязательно включим BigInsights в нашу программу работы с российскими университетами.

Надеюсь, и партнеры, и потенциальные заказчики сегодня услышали эту информацию. Думаю, первыми заказчиками BigInsights станут компании, которые декларируют клиентоориентированную стратегию, прежде всего это банки, телекоммуникационная индустрия. Я также рассчитываю на появление интереса к этой системе у госорганизаций, которые работают с очень большими объемами неструктурированной информации.

Что вы можете сказать о востребованности комплекса Netezza?

Netezza близка по духу заказчикам, потому что это классическая SQL-реализация хранилища данных. Система позволяет ускорить работу с существующим у заказчика хранилищем – реализованная в нем аналитическая модель просто переносится в Netezza, где она будет работать без изменений, но значительно быстрее. При этом скорость, которую обеспечивает переход на Netezza, открывает возможность и для реализации новых проектов, например в области прогнозной аналитики. Как показывает наше общение с партнерами и заказчиками, сейчас в России приходит понимание, что прогнозная аналитика – это реальный бизнес-инструмент, способный приносить деньги. Когда прогнозная аналитика выйдет на промышленный уровень использования, Netezza с ее возможностями быстрой обработки больших объемов структурированных данных будет очень востребована. По продукту Netezza сейчас идут пилотные проекты, которые делают IBM и партнеры компании.

Какие необходимые и достаточные условия должны быть у компании, чтобы начать проект в области Больших Данных с использованием технологий IBM – определенное количество специалистов, опыт работы с теми или иными технологиями?

Можно начать с чистого листа. Я бы сказал, обязательным условием является понимание того, что, приступив к работе с Большими Данными, компания получит нечто кардинально новое. Если компания не считает важным, что о ней говорят в социальных сетях, или не видит необходимости в анализе данных, которые в огромном количестве получает с меток RFID, наклееных на каждый ее товар, проект в области Больших Данных для такой компании не актуален. Но как только заказчиков начинают интересовать эти вопросы, мы сможем их научить, как перевести их в практическую плоскость, и предоставим необходимые инструменты.

Как вы оцениваете объем бизнеса IBM в России на ближайший год по решениям для Больших Данных – Streams, BigInsights и Netezza?

Для Streams и BigInsights это будет год развития рынка. Netezza выйдет на уровень системных продаж, и ее доля в бизнесе решений семейства IBM Information Management будет неуклонно расти.

К инструментам Больших Данных можно отнести и систему Watson, о начале активного коммерческого использования которой сейчас много говорят в IBM. Есть ли перспективы коммерциализации Watson в России?

Мы наблюдаем интерес и попытки примерить эти технологии на себя. Есть несколько запросов от заказчиков на проведение семинаров по теме, как использовать Watson в их бизнесе. Надеюсь, после семинаров появятся и потенциальные проекты.

Большие Данные – комплексный подход

Zero Trust и Data Governance: как управление данными превращает дата-каталог в ядро контура безопасности