Алгоритмы — гибкие, «железо» — стандартное | Директор информационной службы

Как правило, наиболее ярко о проблемах Больших Данных готовы говорить поставщики прикладных решений и интеграторы. Поставщики аппаратных платформ гораздо более сдержанны, подчеркивая свою нейтральность и готовность поддержать любые подходы. Своими взглядами на развитие этого рынка поделился Андрей Семин, директор Intel по суперкомпьютерным технологиям в Европе, на Ближнем Востоке и в Африке.

В каких направлениях, с вашей точки зрения, будет происходить развитие технологий Больших Данных? В чем заключаются их последствия для поставщиков оборудования?

В числе ключевых тенденций можно выделить разнообразие охватываемых данных, сложность используемых алгоритмов и рост скорости получения ответа на запросы.

Говоря про ожидаемое создание Интернета вещей, можно прогнозировать появление очень многих типов данных от различных устройств. Более того, разнообразие данных продолжит увеличиваться и после того, как будут построены системы их обработки.

А значит, создаваемые решения должны быть достаточно гибкими. Узкие проблемно ориентированные решения могут оказаться недостаточно приемлемыми для дальнейшего роста.

Андрей Семин, директор Intel по суперкомпьютерным технологиям в Европе, на Ближнем Востоке и в Африке

Кроме того, данные сами по себе мало кому интересны. Важны знания, которые можно получить при их анализе, а потому важны математические алгоритмы, необходимые для получения полезной бизнесу информации. Можно полагать, что будут активнее развиваться алгоритмы, способные максимально быстро давать ответ при использовании все более широкого спектра данных. Работа анализа в реальном времени — ключевое требование к системам. Оно в известной степени выполняется уже сейчас и будет еще строже выполняться в дальнейшем.

Во многих случаях проект Больших Данных стартует по типичному сценарию: создание прототипа системы на персональном компьютере или ноутбуке, выделение одного-двух серверов под пилотный проект, а затем закупка вычислительного оборудования десятками систем или даже шкафов. Это когда становится понятно, что сбор и анализ данных дают реальный бизнес-эффект. Переход от идеи к ее практической реализации иногда занимает буквально два-три месяца. Но за это время разработать специализированное решение (оптимизированный программно-аппаратный комплекс) невозможно. Вывод очевиден: «железо» должно быть стандартным.

Для производителей оборудования ключевой станет возможность предоставлять эффективную платформу — в первую очередь надо сказать про ее стоимость и удобство масштабирования. Именно эти факторы могут выделить компанию и ее платформу среди конкурентов. Если требуется за один шаг нарастить мощности для обработки данных — скажем, вдвое, — то это должно быть сделано удобно, быстро и недорого.

Из Больших Данных в последнее время в отдельную категорию выделяются «быстрые» данные — поток быстро устаревающей информации из различных источников, требующий мгновенной обработки. Не считаете ли вы, что это и есть настоящие Большие Данные? И дело тут не только в их объемах?

Вопрос, важный с точки зрения определения того, что такое Большие Данные. Чуть ли не каждый эксперт обладает в этом отношении своим видением. В Gartner говорят о трех ключевых характеристиках Больших Данных: объем, скорость поступления и вариативность (разнообразие структур) данных. Я уверен: чтобы называться «большими», данные должны обладать всеми тремя характеристиками. Однако есть и другая точка зрения, согласно которой достаточно хотя бы одного из признаков.

Например, биржи генерируют большой объем данных, которые они обязаны хранить определенное время по юридическим соображениям. По моему мнению, это не Большие Данные, так как они хорошо структурированы, да и скорость их образования не столь велика, как в других областях. Таким образом, дело действительно не только и не столько в объемах. Гораздо важнее их вариативность — ведь хорошо структурированные данные существенно снижают нагрузку на вычислительную обработку.

Другой показательный пример: в Европейском центре ядерных исследований (CERN) во время экспериментов на Большом адронном коллайдере генерируется 1 Пбайт данных в секунду. Но эти данные структурированы, и 98% из них отбрасываются как незначащие. Их к Большим Данным я тоже отнести не могу.

Большие Данные по-прежнему воспринимаются как технология «не для всех». Каковы основные барьеры на ее пути в массы?

Не хватает людей, которые осилят постановку задачи. Из доступного океана данных большая часть игнорируется именно потому, что специалисты не знают, что с ними делать. В постановке задачи «давайте возьмем данные и извлечем из них выгоду», нужно как минимум определить, какова эта выгода для конкретного бизнеса. Это не инженерная проблема, а скорее искусство. А креативность людей и их количество, к сожалению, ограниченны.

Видимо, будет происходить консолидация экспертизы в специализированных компаниях. С развитием Интернета вещей таких компаний — экспертов по Big Data — станет больше и они будут менее заметными, чем сейчас. Они будут «хребтом» новой экосистемы, позволяющей на основе анализа данных множества устройств извлекать ценную информацию.