Платформа аналитики Больших Данных

Под влиянием облаков и Больших Данных ИТ сегодня трансформируются — данные, как и нефть, надо добыть, доставить к месту переработки, извлечь из них полезное содержимое и предложить его рынку. Объем цифровой вселенной удваивается каждые два года, и хотя многие организации богаты данными, они не могут извлечь из них адекватную выгоду, и связано это прежде всего с отсутствием механизмов переработки данных и превращения их в деньги. Прежде чем понять реальную ценность данных, их надо найти, собрать и проанализировать, а для этого требуется интегрировать на единой платформе множество технологий. К сожалению, пока нет универсального ответа на вопрос «как это сделать?», но очевидно одно — организации, раньше других начавшие движение по этому пути, получают конкурентное преимущество, и этому есть множество примеров.

Наиболее типичное решение, сочетающее в себе алгоритмизацию и визуализацию, — разработка компании Quid, позволяющая визуализировать распространение и взаимосвязи идей в Интернете. Специальное программное обеспечение анализирует содержание блогов, новостей и статей за определенный период времени, группирует схожие идеи, связывает их и позволяет предсказывать, как события в том или ином сегменте сети могут повлиять на события в другом. Визуализация полученных взаимосвязей дает возможность прослеживать и выявлять интересные корреляции. Аналогичные методики, но переложенные на процессы внутри предприятия, могут быть применены в корпорациях, стремящихся оптимизировать свои бизнес-процессы или вывести на рынок новые продукты.

Цифровая вселенная на 90% представлена неструктурированными данными, требующими иных, чем структурированные, подходов при анализе и обработке, поэтому сегодня в организациях можно встретить две и более платформ для интеграции и анализа данных, решающих задачи работы со структурированными и неструктурированными данными. Платформа EMC Greenplum UAP призвана создать фундамент для построения аналитического хранилища нового поколения, позволяющего работать со всем многообразием источников, образующих Большие Данные.

Аналитика для Больших Данных

Проблема Больших Данных вызвана не столько большими объемами, сколько неспособностью старых методов справиться с потоками разнообразных данных, поступающих из огромного числа внешних и внутренних источников, имеющих различную структуру и схемы индексации.

Алексей Лоншаков, Олег Бродецкий

Платформа Greenplum UAP объединяет в себе функционал для обработки всех типов данных и интегрирует технологии Hadoop, Greenplum DB и традиционные средства извлечения, преобразования и загрузки данных (Extract, Transform, Load, ETL). Пользователи, уже внедрившие платформу Greenplum или Greenplum HD, могут ее преобразовать в Greenplum UAP, обновив программное обеспечение до версии 4.2 и добавив необходимые аппаратные модули.

Ускорение выполнения задач аналитики достигается, в том числе, за счет приближения анализа к самим данным — именно по этому пути пошла компания EMC, объединив СУБД Greenplum с аналитическими системами от SAS. Специальные программные модули встраиваются в Greenplum Appliance, для того чтобы анализ данных SAS мог происходить непосредственно в месте расположения данных. Совместная разработка EMC и SAS Institute — High Performance Analytics Appliance — использует три интегрированные в EMC Greenplum технологии для работы с Большими Данными: SAS Grid Computing, SAS In-Database Analytics и SAS In-Memory Analytics.

SAS Grid Computing — решение по объединению вычислительных мощностей множества распределенных узлов Greenplum (масштабирование от четырех до сотен узлов) для параллельного выполнения экземпляров аналитического ПО. SAS In-Database Analytics — технология, позволяющая разгрузить аналитический сервер, работающий с базой данных, и выполнять обработку непосредственно в базе данных. Для этого СУБД должна выполнять специфические аналитические функции, причем уметь их распараллеливать по максимальному числу своих ресурсов. SAS In-Memory Analytics — система обработки в памяти.

Однако распараллеливание работы на множестве узлов возможно далеко не всегда и сопряжено со сложностью распределения данных. Кроме того, ресурсы каждого узла невелики (это естественное свойство архитектуры MPP), а сам узел нельзя физически объединить с другими или передать им часть своих ресурсов (например, память, кэш и т. п.). Для преодоления этой проблемы предложена технология ускорения из среды серверной виртуализации — Gemfire, разработанная компанией VMware специально для горизонтального масштабирования традиционных систем и преодоления их узких мест. Основная идея Gemfire — создание распределенного когерентного кэша, который был бы доступен разным системам одновременно. В результате вместо одного дорогого многопроцессорного суперсервера может быть использован кластер из серверов стандартной архитектуры. В Gemfire заложены такие интересные особенности, как распределенное кэширование без единой точки отказа, интеллектуальное размещение данных в кэше на том узле, где их наиболее часто используют, иерархическое кэширование.

Время конвергентных инфраструктур

Появление конвергентных инфраструктур стало закономерным результатом эволюции корпоративных ЦОД по направлению к частным облакам, и неудивительно, что они оказались сегодня в центре внимания всех крупных ИТ-производителей.

Леонид Черняк

Платформа Greenplum UAP позволяет работать с СУБД как с поколоночным, так и с построчным хранением, используя в том числе потенциал сообщества OpenSource (совместно с Apache Software Foundation компания EMC построила тысячеузловой Hadoop-кластер с памятью в 24 Пбайт, доступный сообществу Open Source) по развитию Hadoop. Кроме того, Greenplum Hadoop была недавно сертифицирована для работы на серверах Cisco UCS C-Series, которые являются серверной платформой для VBLOCK с гипервизором от VMware, что открывает большое поле для применения Gemfire.

Сегодня технологии Hadoop начинают применяться в коммерческих реализациях: интегрируются с виртуальными средами, сертифицируются для работы с ведущими аналитическими платформами, исследуются возможности их применения и пределы масштабирования. Однако производители оборудования и ПО, включая EMC, ищут пути для архитектурных усовершенствований этой платформы.

Архитектура Hadoop состоит из двух ключевых элементов: Hadoop MapReduce — среда распределенной обработки данных, параллельно выполняющая задания по работе с большими объемами данных; Hadoop Distributed File System — распределенная файловая система, хранящая обрабатываемые данные. Эта система представляет собой блочную файловую систему, распределенную по множеству узлов кластера и предоставляющую доступ к файлам. Она имеет традиционную иерархическую организацию (в ней можно создавать, переименовывать и удалять каталоги и файлы), но у нее есть еще специальный протокол потокового доступа, дающий возможность приложениям, работающим в среде MapReduce, обращаться к распределенным в ней данным. В отличие от обычных файловых систем, HDFS нельзя монтировать как файловую систему, а общение происходит исключительно через программный интерфейс HDFS, работающий поверх протокола TCP/IP.

Архитектура HDFS, в свою очередь, состоит из двух компонентов: Name Node — мастер-сервер, содержащий метаданные и карту с указателями на каждый файл, его расположение и блоки внутри файлов; Data Node — хранилище собственно данных, обслуживающее операции чтения/записи, создания, удаления и репликации блоков данных, получаемых от Name Node. В случае выхода из строя Name Node доступ к данным теряется, что снижает общую надежность решения, и пока такой архитектурный изъян можно объяснить только молодостью архитектуры. Data Node — узел хранения данных.

Файловые сервисы и сети

Едва ли можно представить бизнес-процесс или приложение, которые в той или иной форме не зависели бы от сервисов, устройств хранения файлов и файловых систем.

Александр Александров

В HDFS используются техники зеркалирования данных между узлами кластера, которые нужны не только для повышения производительности путем приближения данных к обрабатывающему их узлу, но и для повышения отказоустойчивости. Обычно применяется трехкратное зеркалирование, что снижает полезную емкость файловой системы. Это дает повод скептикам говорить, что архитектура Hadoop в ее текущей реализации столь же надежна, сколь и эффективна. И в этом есть доля правды — в развитии платформы Hadoop, при всех ее преимуществах, давно назрел вопрос повышения надежности и эффективности хранения Больших Данных. Тройное резервирование емкости устраивает далеко не всех пользователей, а недостаточная отказоустойчивость Name Node, сбой которого приводит к временной недоступности сразу всего кластера, препятствует широкому промышленному использованию коммерческих реализаций Hadoop. Для решения этих проблем компания EMC предложила систему хранения Isilon с единой файловой системой OneFS, обеспечивающей пропускную способность более 100 Гбайт/с, и с архитектурой горизонтального масштабирования, наращиваемой до петабайтных объемов, в которую встроена поддержка уровня HDFS. Благодаря тому что HDFS построена поверх протокола TCP/IP, переход на Isilon с точки зрения Hadoop MapReduce ничего не изменил — все прежние сервисы HDFS работают на тех же принципах.

Результатом такого симбиоза стало повышение эффективности хранения, а также повышение отказоустойчивости Hadoop-кластера, достигнутой благодаря тому, что сервис Name Node выполняется на уровне кластера Isilon, поэтому отработка отказов Name Node теперь стала прозрачной для приложений. Однако при всей красоте решения, скептики отмечают конфликт философий — во-первых, Большие Данные требуют приближения обработки к самим данным, а в Isilon произошло отдаление. Во-вторых, Hadoop идеологически построен на идее Open Source и должен работать на максимально дешевых компонентах класса commodity, а про закрытые разработки EMC Isilon такого не скажешь. Но, с точки зрения конечного потребителя, которому Hadoop нужен для решения корпоративных задач, картина может быть иная. В самом деле, Hadoop как продукт набрал достаточную зрелость и теперь заслуживает, чтобы его вывели на серьезный коммерческий уровень, когда его могут купить большое количество заказчиков, а для этого в ряде случае стоит и пожертвовать открытостью.

Плюсы интеграции Isilon c Hadoop таковы:

повышение отказоустойчивости Name Node; в отличие от прежней реализации, теперь не нужно ждать физического восстановления Name Node;
повышение эффективности хранения за счет устранения многократного зеркалирования;
упрощение администрирования хранилища Hadoop — петабайтная файловая система OneFS не требует больших навыков администрирования, что может стать действительно решающим обстоятельством при росте объемов данных, позволит избежать администрирования RAID-контроллеров, дисков, драйверов и других элементов хранения;
расширенные сервисы обеспечения целостности и сохранности данных (контрольные суммы при хранении, передаче данных, динамическое восстановление поврежденных секторов и т. п.);
совместный доступ к данным, исключающий стадию загрузки данных в кластер Hadoop (если данные уже находятся в системе хранения, то можно просто указать на них кластеру, который и займется их обработкой).

***

Данные объявлены сегодня «новой нефтью» человечества, а нефть определяет пока экономическое здоровье государств. Каким будет мир, когда люди научатся извлекать столько же пользы из данных, сколько они сегодня извлекают из нефти? Так или иначе, переход от сырых данных к реальной выгоде возможен только с развитием технологий Большой Аналитики, которые, например, компания EMC связывает с платформой EMC Greenplum UAP.

Денис Серов (denis.serov@emc.com) — руководитель направления технического консультирования ЕМС Россия.