Инструменты Oracle для Больших Данных

Подобный набор из арсенала корпорации Oracle был представлен на конференции Big Data & BI Forum, состоявшейся в Москве 27 февраля. Набор, хотя и не имеет специального названия, тем не менее представляет собой целостное интегрированное решение, включающее все инструменты, необходимые для реализации четырех элементов технологической цепочки: сбора данных, организации данных, анализа и принятия решений.

Системы, ориентированные на Большие Данные, преимущественно строятся на основе кластерных конфигураций в сочетании с Hadoop. В своем нынешнем состоянии программное обеспечение Apache Hadoop, помимо модели распределенных вычислений MapReduce, содержит всеобъемлющую конструкцию для хранения и обработки больших массивов данных на базе недорогих, имеющихся на рынке кластеров. Apache Hadoop включает в свой состав библиотеки и утилиты Hadoop Common, распределенную файловую систему Hadoop Distributed File System, средства для управления кластером, модель Hadoop MapReduce, платформу программирования Apache Pig, хранилище данных Apache Hive, нереляционную распределенную СУБД Apache HBase и ряд других компонентов.

Пользователям, заинтересованным в создании сред обработки Больших Данных, приходится решать — строить их самим, оснащая их свободным ПО, или покупать готовое решение? Используя свободное ПО и серверы массовой архитектуры, ничто не мешает собирать конфигурации, необходимые для работы с Большими Данных, силами самих пользователей — так получается дешевле. ТЭтот путь вполне приемлем для «университетских» проектов, однако в корпоративных приложениях, где выше требования к надежности и есть необходимость согласовывать новые приложения с уже существующими, оказывается разумнее отдать предпочтение системам, собранным и укомплектованным профессионально. Такой, в частности, является специализированная система Oracle Big Data Appliance X4-2 в сочетании с комплектующим ее ПО (частично это свободное ПО, а частично — разработанное в Oracle). Она собирается из следующих частей: дистрибутив Apache Hadoop от компании Cloudera; менеджер Oracle Big Data Appliance Plug-In for Enterprise Manager; менеджер Cloudera CDH; дистрибутив статистического пакета на языке R; СУБД Oracle NoSQL Database; операционная система Oracle Enterprise Linux и виртуальная машина Oracle Java VM.

В максимальном комплекте Oracle Big Data Appliance X4-2 занимает стандартную стойку, в такой комплект входят 18 серверов Oracle Sun Fire X4270 M2 с суммарным объемом памяти 64 Тбайт. Коммуникации поддерживают два коммутатора Sun Network QDR InfiniBand Gateway Switch, коммутаторы Sun Datacenter InfiniBand Switch и Catalyst 4948 Ethernet Switch. Каждый процессор — восьмиядерный, а общее число ядер равно 288. Есть более скромный стартовый комплект Oracle Big Data Appliance X4-2 Starter Rack, он ограничен шестью серверами и может расширяться с помощью модулей Oracle Big Data Appliance X4-2 In-Rack Expansion до 12 или 18 узлов. Oracle Big Data Appliance могут совместно использовать машина баз данных Oracle Exadata Database Machine и аналитическая машина Oracle Exalytics Business Intelligence Machine.

Цепочка работы с Большими Данными поддерживается соответствующими программными компонентами.

Сбор. Hadoop Distributed File System служит для работы с неструктурированными данными, Oracle NoSQL Database — для частично структурированных данных, а обычная СУБД Oracle — для структурированных данных.
Организация. Для этого служат Hadoop Software Framework, Oracle Data Integrator и коннекторы. Всего разработано четыре типа коннекторов, заметно отличающих покупное решение от свободного: Oracle Direct Connector for HDFS (обеспечивает параллельную загрузку данных и доступ к таблицам в Hive и HDFS); Oracle Data Integrator Application Adapter for Hadoop (уменьшает сложность описания преобразований в Hadoop за счет графического интерфейса); Oracle R Hadoop Connector (обеспечивает линейное масштабирование алгоритмов на R, распараллеливает вычисления и выполняет MapReduce на R); Oracle Loader for Hadoop (передает часть нагрузки в Hadoop, разгружает базу Oracle и балансирует нагрузку).
Анализ. Распределен между Hadoop и СУБД Oracle; на Hadoop в основном возложена предварительная обработка данных, а собственно задачи по анализу данных решает СУБД Oracle, используемая в качестве хранилища подготовленных данных. Доступен следующий набор инструментов анализа: Oracle R Enterprise; In-Database Data Mining; In-Database Text Mining; In-Database Semantic Analysis; In-Database Spatial

Кроме того, инструментарий для работы с Большими Данными от Oracle включает еще две важные составные части. После приобретения компании Endeca, специализирующейся на поиске в неструктурированных информационных средах, в Oracle подготовили несколько аналитических приложений для работы с потоковыми данными: Oracle Endeca Commerce для извлечения информации из разного рода коммерческих данных и Oracle Endeca Information Discovery для поиска скрытой информации. Обработка сложных событий (Complex Event Processing, CEP) в Oracle стала возможной после приобретения компании BEA с ее WebLogic Event Server, переименованным позже в Oracle CEP; сейчас он входит в состав Oracle Event-Driven Architecture Suite.

Инструменты Oracle для Больших Данных

Цифровая дегустация: культовый вкус через digital-фильтр