Инфраструктурный прогресс Больших Данных

За последние пять лет рынок Больших Данных серьезно повзрослел: согласно выводам аналитиков Wikibon, продажи соответствующих решений и сервисов выросли во всем мире с 7 млрд долл. до 38,4 млрд долл. За это же время рынок в России поднялся фактически с начальной отметки до примерно 500 млн долл. годовых продаж. Прошедшее пятилетие также дало мощный старт применению в корпоративном секторе многих инноваций, таких как Hadoop и NoSQL. В экспертной среде радикально изменилось общее представление о Больших Данных, что обусловило необходимость по-новому взглянуть на инфраструктурные решения для реализации этой популярной концепции.

Четыре новых «V»

Все вроде бы привыкли к классическому определению, указывающему на принадлежность данных к разряду Больших. Это известная аббревиатура из трех латинских «V»: Volume (большой объем), Velocity (высокая скорость накопления и обработки), Variety (многообразие типов и форматов). Теперь же специалисты говорят о новом условном обозначении «7V». Заявлено, что к упомянутым первым трем признакам Больших Данных прибавляются еще четыре: Veracity (достоверность данных, ибо лишь проверенные данные могут принести пользу), Variability (изменчивость, так как одни и те же данные могут иметь разное значение в зависимости от контекста), Visualization (визуализация – возможность представить анализируемые данные в доступной форме), Value (ценность – из данных можно извлечь полезную информацию и знания, чтобы улучшить бизнес-результаты).

Произошедшая переоценка Больших Данных и выявление их новых качеств требуют соответствующей поддержки на инфраструктурном уровне, считают участники пятого, юбилейного форума BIG DATA 2016, организованного издательством «Открытые системы».

Форум показал, что инновации в области инфраструктуры Больших Данных сейчас сосредоточены на нескольких ключевых направлениях. Во-первых, это дальнейшее развитие линейки специализированных программно-аппаратных комплексов (appliances). Во-вторых, появление и массовое распространение инструментов Open Source и их активная поддержка вендорами, прежде развивавшими только проприетарные разработки. В-третьих, всевозможные попытки упростить инфраструктуру Больших Данных. Четвертое – переход к облачным решениям, в том числе для анализа данных. Наконец, разработчики уделяют повышенное внимание вопросам безопасности, надежности инфраструктурных решений и снижения стоимости владения ими.

Два подхода

По своей тональности и содержанию доклады и презентации на форуме BIG DATA 2016 продемонстрировали два разных подхода. Одни эксперты, констатируя, что Большие Данные – это громадный стек программных и аппаратных технологий, оптимистично утверждали, что работа с ними в действительности проста (если использовать предложенные ими решения и подходы). Другие, напротив, фокусировали свое внимание на том, как нелегко добиться нужного результата.

Например, специалисты EMC вживую продемонстрировали, как на аппаратной платформе Isilon, кооперированной с программной системой виртуализации VMware Big Data Extensions, развертывание готовой к применению и оптимизированной под разные дистрибутивы Hadoop инфраструктуры Больших Данных можно осуществить всего за десять минут.

Геннадий Федоров, технический консультант Intel, в своем докладе «Большие Данные – не значит большие проблемы» рассказал о решении Data Analytics Acceleration Library. По сути это набор оптимизированных строительных блоков для всех этапов и уровней систем анализа данных. Инструментарий был разработан той же командой, которая создает математические библиотеки для процессорных ядер Intel. Поэтому, делают вывод в корпорации, архитектуры на основе DAAL позволяют выжать из процессоров Intel максимальную производительность при работе с Большими Данными.

Заочные оппоненты реагировали на это скептически: разве быстрое развертывание и предельная производительность гарантируют общую успешность проекта и фактическую пользу от работы с Большими Данными? Помимо инфраструктуры для достижения позитивных результатов, нужны детально проработанные сценарии извлечения знаний, согласующиеся с текущими бизнес-задачами использования последних.

Евгений Степанов, руководитель направления HPE Big Data Platform в России, в своем выступлении отметил: рынок решений для Больших Данных сейчас перенасыщен, однако очень часто эти решения не оправдывают ожиданий организаций и многие проекты терпят фиаско. В частности, из-за того, что большинство инструментов для работы с ними (такие как реляционные технологии) появились в 70-х годах прошлого века и их современные версии пришли к нам из устаревшей парадигмы ИТ.

Многие представители заказчиков, выступая на форуме, указывали на серьезные проблемы, с которыми они столкнулись при выполнении проектов Больших Данных.

Инфраструктурный прогресс Больших Данных

Усложняя, упрощай

Чтобы Большие Данные стали доступнее для заказчиков, некоторые поставщики инфраструктурных решений делают ставку на развитие специальных программно-аппаратных комплексов.

«Мы стараемся упростить клиентам вход в мир Больших Данных. Потому что это нелегкая технология с точки зрения освоения и начала работы с ними», – заявила ведущий технический специалист Oracle Наталья Горбунова.

По ее словам, разработки Oracle для инфраструктуры Больших Данных идут главным образом в трех направлениях: хранение, унифицированный доступ и анализ. Все эти задачи предлагается решать посредством адаптированных к их специфике систем, по максимуму использующих как свои программные, так и аппаратные возможности. У Oracle имеются две линейки таких систем: Exadata для реляционных баз данных и BigData Appliance, основанная на инновациях самой Oracle, Cloudera и Intel.

Как утверждает Горбунова, BigData Appliance – это готовая инфраструктура для развертывания Hadoop-кластера, а также баз данных NoSQL. В частности, конфигурация полной стойки BigData Appliance, интегрированная с 18 серверами Oracle Sun x86, с возможностью подключения через высокоскоростные каналы InfiniBand и Ethernet обеспечивает очень простое развертывание процессов хранения, унифицированного доступа и анализа Больших Данных, а также прозрачное управление этими процессами. На машине используется собственная ОС Oracle Linux, которая оптимизирована с учетом нагрузок, свойственных Hadoop. И для таких же нагрузок сконфигурирована машина Oracle Java.

BigData Appliance – симбиоз «правильной» аппаратной платформы, «правильной» операционной системы и «правильного» ПО, непосредственно связанного с обработкой Больших Данных (Cloudera CDH, Cloudera Manager и Cloudera RTQ), подчеркивают в Oracle.

Как отмечалось выше, EMC тоже фокусируется на упрощении инфраструктуры Больших Данных. Технический консультант компании Михаил Владимиров сообщил, что решение Isilon запущено почти полтора десятка лет назад, но в последнее время в нем появились серьезные инновации, призванные обеспечить экономичность инфраструктуры, ее упрощение и снижение операционных расходов.

«Isilon позволяет упростить работу тем администраторам, кому инфраструктура Hadoop представляется новой и сложной. Используя наше решение, они будут иметь дело с привычными инструментами виртуализации, с классическими системами хранения данных, но при этом смогут воспользоваться новыми возможностями высокоскоростного доступа к данным и их быстрого резервирования», – подчеркнули в EMC.

Конечно, заказчик может собрать отдельные вычислительные машины в кластер самостоятельно и установить на него свободное ПО для хранения и обработки Больших Данных, но тогда ему придется проделать большую работу по инсталляции, конфигурации созданного комплекса. Наверняка возникнут сложности с обеспечением нужной производительности и масштабируемости, сетевого взаимодействия. Все эти вопросы заранее решены в системах, подобных Oracle BigData Appliance или EMC Isilon.

Помнить о безопасности

Еще один акцент разработчиков в развитии инфраструктурных решений смещен в область безопасности Больших Данных.

Владимиров напомнил, что разоблачитель глобальной электронной слежки Эдвард Сноуден смог опубликовать свои сенсационные данные благодаря тому, что в структуре АНБ США занимал позицию Data Scientist. Он, в отличие от своих коллег-администраторов, имел доступ к широкому спектру информации, а не к отдельным узким сегментам системы, глядя на которые невозможно сделать какие-либо выводы.

Это важный урок. И из него следует, что, запуская проект Больших Данных, организациям очень важно грамотно выстроить механизмы разграничения полномочий и доступа к данным. Поэтому в Isilon, например, встроен ряд инновационных функций для обеспечения безопасности: контроль доступа на базе ролей, зоны безопасного доступа, шифрование данных, схема «одна запись, многократное чтение» (WORM). Система безопасности Isilon интегрирована с провайдерами аутентификации Kerberos, Active Directory, LDAP, а также поддерживает внешний аудит файловой системы.

Открыто и экономично

Некоторые разработчики за основу стратегии развития инфраструктуры Больших Данных приняли продукты с открытым исходным кодом.

Например, компания Teradata «взяла под свое крыло» решение Presto и начала активно продвигать его в сообществе Open Source и среди заказчиков.

«Главная за последний год наша инновация – серьезный сдвиг в сторону Open Source, к работе с такими решениями, как Presto, Hadoop и т. п. Мы полностью вбираем их в свою экосистему и, например, только для развития Presto выделили 16 разработчиков», – подчеркивает руководитель направления Big Data в российском подразделении Teradata Андрей Суворкин.

Продукт Presto пока не получил широкого распространения на рынке. Он был разработан в компании Facebook для своих нужд, но с 2013 года является полностью открытым и распространяется абсолютно свободно.

Суворкин так объясняет необходимость поддержки Presto: «Концентрация пользы в объеме данных – величина непостоянная. И это обусловливает различные подходы к работе с ними. Для каждого типа данных нужен инструмент, который наиболее эффективно решит те или иные задачи. Но такие инструменты должны быть объединены в общую структуру, реализующую так называемое логическое хранение данных, когда данные можно бесшовно использовать и обрабатывать наиболее подходящими способами. Это не совсем виртуализация, но нечто похожее на нее по сути».

Средством, реализующим подобную концепцию и позволяющим получить доступ к данным независимо от того, в каких репозиториях они хранятся, является Presto. Этот продукт поддерживает разные дистрибутивы Hadoop и другие источники данных, включая реляционные базы данных, источники потоковых данных и пр. Он построен на базе технологии in-memory и обеспечивает очень высокую скорость обработки данных. В архитектурном плане Presto представляет собой высокооптимизированное к задачам анализа данных Java-приложение.

Весной 2015 года Teradata начала оказывать услуги платной поддержки Presto. Если заказчики готовы имплементировать этот продукт в свою экосистему хранения и обработки данных, то Teradata может предоставить им необходимую техническую поддержку на коммерческих условиях. Такая поддержка может быть оказана как из облака, так и на объекте у заказчика.

«Эпоха программно-аппаратных комплексов для Больших Данных, может быть, еще не уходит совсем, но в данный момент сжимается, и нам нужно переводить свои решения в облако. Это тоже установившаяся тенденция», – заявил Суворкин.

Облака для аналитики и домашнего хранения

Юрий Попов, руководитель направления по продвижению платформы данных Microsoft в финансовом секторе, подчеркивает, что на сегодняшний день все фазы аналитического процесса Больших Данных могут осуществляться в облаке. Загрузка, обработка, хранение и доставка для работы с аналитическими инструментами и приложениями – все эти операции могут осуществляться на базе сервисов и инфраструктуры Microsoft Azure.

«Если мы говорим о Больших Данных, то должны сделать наше решение максимально масштабируемым. Но чем сложнее преобразования, которые мы производим с данными, и чем сложнее процессы в рамках аналитического решения, тем сложнее это решение масштабировать», – замечает Попов.

Разумеется, обеспечить масштабирование в облаке намного проще, чем в условно замкнутой корпоративной системе.

В Microsoft утверждают, что хранилище так называемого озера данных в Azure обеспечивает единый репозиторий, в котором можно держать данные любого типа и объема, предоставлять доступ к ним с любой нужной скоростью и без внесения изменения в приложение при масштабировании данных. Новая распределенная служба аналитики Azure, построенная на базе Apache YARN, которая тоже динамически масштабируется, позволяет заказчикам сконцентрироваться на бизнес-задачах, а не отвлекаться на сложные процессы управления распределенной инфраструктурой. Вместо того чтобы развертывать и настраивать оборудование, нужно всего лишь формировать запросы для преобразования данных и получения важных выводов, подчеркивают в корпорации.

Есть еще одна облачная «инновация» для мира Больших Данных, которая обусловлена не требованиями бизнеса, а законодательными нормами в части локального хранения и обработки персональных данных. Эти нормы подтолкнули российские компании к освоению рынка облачной работы с данными. Например, недавно на рынок облачного хранения для сектора B2B вышла группа Mail.ru.

Как пояснил Дмитрий Соколов, руководитель проекта «Облако Mail.ru», компания сначала развивала сервисы облачного хранения данных для собственных корпоративных нужд и для частных пользователей. Но затем, освоив нужные технологии на высоконагруженных проектах и достигнув определенного качества работы с ними, вышла на открытый рынок бизнес-пользователей. Новый сервис облачного хранения Mail.ru основан на инфраструктуре из четырех дата-центров. В них поддерживается полная репликация данных по схеме, в которой каждый файл хранится в двух копиях на разных дисках. Все ЦОД находятся в России, что в свете современного законодательства может рассматриваться как конкурентное преимущество, за которым стоят и самые настоящие технические инновации.

***

Согласно исследованиям IDC, лишь 23% данных, накопленных в организациях и на предприятиях, пригодны для потенциальных инноваций, несущих пользу бизнесу. И только 0,5% в итоге приносят пользу. Несомненно, этот процент можно повысить, если использовать инновационные инфраструктурные решения для работы с данными, особенно в комплексе с продуманными организационными подходами и обоснованной методологией извлечения полезных знаний из Больших Данных.