Большие Данные на пути к облакам

Рынок Больших Данных достиг в 2012 году почти 12 млрд долл., и ожидается его рост до 18 млрд в 2013 году и до 47 млрд к 2017-му, что при нынешнем состоянии мировой экономики весьма внушительно. Ясно, что для обработки таких потоков недостаточно усилий одного производителя — требуются конвергенция различных подходов и единая стратегия работы с большими объемами разнотипных данных.

Еще недавно предложения EMC в классе Больших Данных выглядели как набор разрозненных продуктов: Isilon, Greenplum и Atmos — а сегодня на базе этих систем, дополненных смежными технологиями (VMware, Documentum), создается решение для обработки Больших Данных, интегрированное с облачными системами. Отличительные черты данного решения — программно-конфигурируемое распределенное хранение; унифицированная аналитика в реальном времени; аналитика в виде сервиса по требованию; прозрачное встраивание результатов обработки в бизнес-процессы и документооборот предприятия.

В последние три-четыре года в индустрии ИТ произошел сдвиг интереса от простых хранилищ данных к аналитическим, помогающим ответить на вопрос «что делать?», а не «кто виноват?». Сегодня для получения конкурентных преимуществ важно не столько понимать прошлое, сколько средствами предиктивной аналитики точно предсказывать будущее. Традиционные игроки рынка, такие как Teradata, IBM/Netezza, Oracle и EMC/Greenplum, предлагают заказчикам уже не просто «превосходную СУБД», а средства получения данных, способствующих конкретному повышению эффективности бизнеса, например инструменты перехода от простых SQL-запросов и построения отчетов к работе на уровне бизнес-логики. Это, в отличие от вчерашнего дня, требует привлечения профессиональных бизнес-аналитиков и соответствующих инструментов, например от SAS Institute.

Ситуацию на рынке Больших Данных сегодня можно охарактеризовать следующей метафорой: если Большие Данные — это нефть, то рынок, интуитивно осознающий их ценность, пока не может предложить решения по их переработке в конечный продукт («бензин», «керосин» и т. п.). Поэтому «нефть» данных пока просто сжигают, причем недалеко от ее «месторождения», так как эффективных средств дальней транспортировки Больших Данных или конечного продукта их переработки нет. На рынке нет также нужного количества специалистов, сочетающих технические навыки в ИТ с опытом бизнес-консультантов. Сегодня взаимопонимание между этими группами пока редкость, поэтому совместные проекты идут довольно трудно.

Аналитические лаборатории

Российский опыт работы компании EMC в проектах с Большими Данными показывает, что многим организациям, желающим примерить на себя возможности Больших Данных, нужны исследователи данных. У поставщиков технологий работы с большими потоками данных такие специалисты имеются — их услуги предлагаются в рамках проектов с четко очерченным кругом работ. Например, в компании EMC работает аналитическая лаборатория, специалисты которой за 12 недель могут подготовить полноценный аналитический проект — рабочий прототип системы Большой аналитики у заказчика, с обоснованием получаемой бизнес-выгоды. Результативность аналитической лаборатории объясняется тем, что для работы в ней привлекаются исследователи, знакомые со спецификой различных прикладных областей, знающие характерные особенности конкретных отраслей и использующие при реализации проекта проверенные методики. Также в состав рабочей группы проекта, кроме исследователей данных, входят представители бизнеса заказчика, его служб ИТ, администраторы СУБД и аналитики.

Инструменты исследователей данных

Как уже отмечалось, компания EMC проводит сегодня консолидацию своих решений и систем для получения интегрированного решения, предназначенного для продуктивной работы с Большими Данными. На основе имеющихся в компании технологий сейчас создается информационно-центричная среда, сочетающая в себе качества мобильных облачных сред, социальных сетей, аналитики и программно-определяемого хранения.

В состав решения входит Isilon — горизонтально масштабируемая система хранения для Больших Данных, поддерживающая HDFS (файловая система среды Hadoop). Проведенная компанией EMC модернизация OpenSource-продукта Hadoop, позволяющего создавать масштабируемые среды для массово-параллельной обработки неструктурированных данных на базе MapReduce, позволила вплотную приблизиться к коммерческой реализации унифицированной системы обработки всех видов Больших Данных. Дополняет Isilon система Atmos — горизонтально масштабируемое облачное хранилище для больших объемов неструктурированных данных.

Платформа аналитики Больших Данных

Большие Данные все чаще сравниваются с «новой нефтью» — как и любой сырой ресурс, данные сами по себе не имеют собственной ценности, поэтому главной задачей индустрии становится переход от сырых данных к реальной выгоде.

Денис Серов

Основой аналитической обработки является горизонтально масштабируемое унифицированное аналитическое хранилище для Больших Данных — Greenplum Unified Analytics Platform, содержащее компоненты для работы со структурированными (SQL) и неструктурированными данными (NoSQL), инструменты интеграции всех типов данных (ETL/ELT) на базе единой аналитической платформы, а также версия дистрибутива Apache Hadoop — Greenplum Hadoop. Платформа поддерживает работу в среде MapReduce, HDFS, интегрирована с Isilon и поддерживает на своих узлах высокопроизводительную версию Hadoop от компании MapR. Все это объединено функционалом масштабируемости, высокой доступности, мониторинга и работает на одной платформе с СУБД Greenplum. Кроме этого, в состав платформы входит дистрибутив Pivotal Hadoop, дополненный средствами мониторинга и загрузки данных.

Для совместной работы аналитиков в Greenplum UAP может быть включена платформа Chorus, призванная в стиле социальных сетей обеспечить взаимодействие группы аналитиков, предоставив им возможности развертывания и отработки пробных сценариев анализа данных. Имеется также вариант OpenChorus — исходный код Greenplum Chorus свободно распространяется среди разработчиков ПО на этой платформе.

В помощь аналитикам предлагается библиотека алгоритмов с открытым кодом Madlib, содержащая функции параллельной математической и статистической обработки структурированных и неструктурированных данных. Для коллаборативной предиктивной аналитики на базе Greenplum UAP в состав решения может быть включена разработка Alpine Data Labs, поддерживающая платформы Greenplum, Oracle, Exadata, Netezza, DB2, PostgreSQL и Hadoop.

Масштабы обрабатываемых объектов естественным образом роднят технологии Больших Данных и облака, поэтому в EMC была создана виртуальная компания Pivotal Initiative, работающая над созданием соответствующих средств на базе Greenplum, VMware vFabric, VMware Cloud Foundry.

Система vFabric включает Gemfire и SQLFire — горизонтально масштабируемые среды для распределенной in-memory обработки структурированных (SQL) и неструктурированных данных.

Cloud Foundry — платформа с открытым исходным кодом, поддерживаемая VMware, для разработки облачных решений класса Platform as a Service.

Новое архитектурно независимое решение, которое, как ожидается, объединит в себе Большие Данные с облаками, строится на базе Spring — среды Java-разработки, альтернативной Oracle Java EE.

Точкой интеграции Больших Данных и облаков, становится сервис Syncplicity от Documentum, позволяющий эффективно объединять данные персональных устройств и пользователей, сохраняя контроль.

Greenplum

C начала 2013 года в качестве аппаратной основы для Greenplum DCA (Data Computing Appliance) используются более производительные серверы стандартной архитектуры с оперативной памятью большого объема, позволившие от 30% до двух с половиной раз увеличить производительность. Однако эволюция платформы проявилась не только в наращивании мощности оборудования, но и в развитии функционала.

В Greenplum появился новый функционал мониторинга и управления производительностью MoreVRP (выполнение сервисных соглашений на уровне отдельных запросов, предоставление сервиса отдельным пользователям путем выделения процессорного времени и количества операций ввода/вывода), новый коммерческий дистрибутив Pivotal HD, усовершенствованный и дополненный расширенными сервисами работы с данными, такими, например, как HAWQ (Hadoop With Query), позволяющий выполнять SQL-запросы для данных, находящихся в среде Hadoop, которую можно назвать «Линуксом» в мире Больших Данных. Сегодня Hadoop — малоосвоенное пространство и огромные перспективы: кто успеет, тот и получит больше. Например, при помощи MapReduce можно выполнять анализ в реальном времени — по мере набора запроса в интерфейсной строке, как это происходит сейчас в Google Search.

Дистрибутив Pivotal HD (рис. 1) включает дистрибутив Apache Hadoop 2.0, а также ряд добавлений от EMC: Installation Configuration Manager — инструменты для быстрой установки; Greenplum Command Center — графический интерфейс для мониторинга системы и выполнения запросов; Hadoop Virtualization Extension — прослойка для эластичного расширения кластера Hadoop; GP Data Loader — инструмент для быстрой параллельной загрузки данных в HDFS; Isilon Integration — набор библиотек для интеграции с системой файлового хранения.

Рис. 1. Структура Pivotal HD

В дистрибутив включены расширенные сервисы данных (Advanced Data Services) на базе среды HAWQ, основанной на опыте разработки языка запросов СУБД Greenplum применительно к Hadoop и HDFS. В отличие от SQL-подобных сервисов, таких как Hive, среда HAWQ предоставляет стандартный полнофункциональный интерфейс SQL для работы с файловой системой HDFS. Таким образом, в Pivotal HD устранена граница между мирами SQL и NoSQL.

Другим усовершенствованием является поддержка отказоустойчивости, высокой доступности и возможностей управления, реализованных в архитектуре MPP Greenplum, но до сих пор ограничивавшихся особенностями старой архитектуры Hadoop. Кроме того, Pivotal HD можно использовать как еще один источник данных портала самообслуживания для аналитиков EMC Chorus, выполняющих на нем стандартные SQL-запросы. Для работы с Pivotal HD сертифицированы аналитические инструменты от ведущих производителей, например SAS Institute.

Хранилище для Больших Данных

Рис. 2. Архитектура Isilon

В отличие от систем, предлагающих для хранения и обработки больших объемов данных единое пространство имен (Single Name Space), файловая система Isilon OneFS масштабируется горизонтально и обеспечивает производительность на уровне 1 млн IOPS. Архитектура Isilon (рис. 2) позволяет компенсировать выход из строя любого узла за счет перестроения схемы защиты, балансировки нагрузки и перераспределения данных по другим узлам. Кроме того, в ней нет жестко фиксированных «островов хранения», и, при соответствующем разрешении на уровне политики, данные могут свободно перетекать между узлами. Благодаря этому систему хранения можно буквально разорвать на две части без потери данных и остановки работы — она лишь превратится в распределенный катастрофоустойчивый кластер. В России один из заказчиков, купивший пятиузловую систему, перестроил ее в кластер из двух трехузловых систем, приобретя для этого дополнительный узел хранения и коммутационное оборудование. Далее из имевшейся системы были изъяты два узла, причем без остановки работы и потери данных, перенесены на вторую площадку и объединены в трехузловой кластер с новым узлом посредством коммутатора. После того как на новый кластер был залит микрокод и сконфигурирована репликация, получилась катастрофоустойчивая пара.

Микрокод Isilon Mavericks не только позволил повысить производительность, но и внес в некогда узкоспециализированную систему хранения возможности корпоративной среды — появилась поддержка Active Directory, LDAP, сетевых сервисов (NIS), зон доступа (Access Zones), управления административными ролями (Role Based Administration) и пользовательскими правами доступа на уровне файловой системы.

В контексте конвергенции технологий Больших Данных хранилище Isilon стало платформой для Hadoop, построенной на такой же стандартной архитектуре, как и Greenplum DCA, что позволяет выполнять ряд функций обработки данных уже на этом уровне или передавать их на другой уровень.

Atmos — хранение в облаках

Atmos — облачная платформа распределенного архивного хранения больших объемов данных, поддерживающая защиту на базе кодов Рида — Соломона и географическое кэширование. В 2012 году было обновлено аппаратное и программное обеспечение платформы — в дополнение к поддержке REST API появился интерфейс к Amazon S3, что позволило строить гибридные облака, обеспечивать миграцию данных предприятия и поддерживать работу уже существующих пользователей сервисов Amazon. Кроме того, появилась поддержка множества ЦОД (multi-tenancy) с полным контролем за настройками политик, а также аналогичный функционал для среды виртуальных машин, развернутых на сертифицированных серверах VMware.

Сегодня Atmos предоставляет возможности построения географически распределенных отказоустойчивых кластеров, позволяющих развертывать облака любых типов. Кроме того, в ближайшее время появится новая облачная система хранения (кодовое название Project Bourne), построенная по принципам программно-конфигурируемых ЦОД (Software Defined Data Center).

Большие Данные и облака

В январе 2013 года компания EMC анонсировала облачный сервис Syncplicity, позволяющий синхронизировать данные между разными персональными устройствами, а также с облаками. Эта технология поддерживает возможность одновременной работы с данными, версионность, восстановление и входит в состав платформы EMC Documentum, которую можно развернуть в облаках. В качестве платформ хранения Syncplicity поддерживают Atmos и Isilon. Здесь открываются возможности доступа по HDFS. То есть с этими данными сможет напрямую работать Hadoop.

Побочным следствием введения данного сервиса становится то, что предприятие получает точку кристаллизации для интеграции разнородных данных, которая: поддерживает всевозможные средства аналитики, имеет горизонтально масштабируемую архитектуру с практически неограниченной производительностью, находится в частном или гибридном облаке, поддерживает средства сотрудничества при работе с данными и построена на базе программно-определяемой стандартной инфраструктуры.

Для целенаправленной поддержки интеграции технологий Больших Данных и облаков была создана виртуальная компания Pivotal Initiative, в которую вошли такие подразделения, как Pivotal Labs, Greenplum, vFabric, Cloud Foundry, Spring и Cetas. Речь идет об объединении в единую структуру решений класса PaaS и Большой аналитики. Продукты VMware в этом альянсе отвечают за инфраструктуру и PaaS, системы Greenplum — за аналитику, а Pivotal — за объединение продуктовых направлений воедино и разработку общего коммерческого решения.

***

Сегодня ситуацию на рынке Больших Данных можно сравнить с ранним этапом освоения человечеством нефтяных месторождений, когда единственным способом утилизации нефти было ее сжигание — однако уже появились технологии, позволяющие отказаться от такого варварского метода. Подход к хранению и обмену данными становится все более информационно-центричным, появились средства переработки разнородных по своему составу сырых данных, совершенствуются инструменты массово-параллельной доставки и переработки больших объемов данных. Интегральные инструменты в ближайшем будущем позволят по запросу получать конечные результаты анализа, без необходимости построения собственных «добывающе-перерабатывающих комплексов». Рынок, осознавший ценность информации и результатов ее анализа, готов к решениям нового поколения, позволяющим производить информационные продукты, доступные подобно бензину на автозаправке.

Денис Серов (denis.serov@emc.com) — руководитель направления технического консультирования «ЕМС Россия» (Москва).