В рамках прошедшего в Москве четвертого форума BIG DATA 2015 компания EMC анонсировала новое интегрированное решение для работы с Большими Данными — Federation Business Data Lake (FBDL). Разработанное подразделением EMC Information Infrastructure в сотрудничестве с компаниями Pivotal и VMware, оно позволяет ускорить и автоматизировать развертывание «озер данных» — хранилищ, содержащих сырые и уже обработанные данные. Выпуск FBDL намечен на апрель 2015 года.

По информации Gartner, на пути к использованию Больших Данных компанию подстерегает целый ряд проблем. До настоящего времени создание эффективных «озер данных» было сопряжено со значительными трудностями. ИТ-службам приходилось развертывать и настраивать аналитическую платформу, а также соответствующее хранилище для каждой аналитической задачи — от обработки массивов Hadoop до анализа данных в реальном времени. После создания среды требовалось загрузить данные, настроить права доступа и политики управления. Развертывание среды и наборов данных оказывалось весьма затратным и создавало трудности при выполнении запросов пользователей.

Federation Data Lake использует технологии Pivotal, VMware и EMC, однако решения для «озера данных» могут быть не только разного формата, но и сочетаться с технологиями других производителей, что позволяет создать нужную платформу и обеспечить требуемую функциональность
Federation Data Lake использует технологии Pivotal, VMware и EMC, однако решения для «озера данных» могут быть не только разного формата, но и сочетаться с технологиями других производителей, что позволяет создать нужную платформу и обеспечить требуемую функциональность

 

Неудивительно, что лишь немногим более 10% организаций успешно внедрили эти технологии. Как утверждают в EMC, FBDL дает возможность всего за семь дней развернуть массивы Hadoop и системы для анализа данных в реальном времени. Кроме того, EMC предлагает заказчикам набор услуг по работе с «озерами данных» на всех этапах обработки больших объемов данных. Они включают в себя консультации по установке и развертыванию этого решения, оптимизации аналитической среды и настройке требований к данным, а также обучение.

Все это призвано значительно упростить неординарную задачу создания «озера данных», обеспечить оперативное автоматизированное развертывание и масштабируемость. «Озеро данных» содержит как структурированные, так и неструктурированные данные из самых различных источников, реализуя хранение данных для аналитических задач. Для этого нужна СХД, в которой большая емкость сочетается с высокой производительностью. В FBDL эту роль играет система хранения EMC Isilon.

Еще одна задача — предоставление современных средств анализа данных и управления ими для всех типов аналитических механизмов, в том числе систем на основе Hadoop, In-Memory No-SQL и Scale-out MPP. Для этой цели EMC предлагает на выбор целый стек решений, включая ПО Pivotal и разные дистрибутивы Hadoop, например Cloudera и Hortonworks, а также новые дистрибутивы на основе открытых платформ. Третья задача FBDL — предоставление данных пользователям и приложениям для корректировки результатов в реальном времени и принятия важных решений.

Средства аналитики виртуализируются с помощью решений VMware на вычислительной платформе vBlock и включают в себя пакет Pivotal Big Data Suite, в том числе решение PivotalHD с модулем HAWQ для реализации технологии SQL-on-Hadoop. При обработке данных Hadoop ПО Pivotal Big Data Suite обеспечивает взаимодействие между аналитическими платформами — SAS, Tableau и другими решениями.

По словам Святослава Сухова, директора дивизиона Isilon корпорации EMC в России, идея федеративного «озера» EMC — в возможности замены компонентов, однако на первом этапе можно заменять только первый слой — дистрибутив Hadoop. Заказчики FBDL получают также функции корпоративного уровня

для работы с данными, включая обеспечение их безопасности (на базе решений RSA). В последующем планируется добавить в FBDL — в качестве уровня хранения — EMC ViPR, а кроме того, возможно, поддержку Microsoft Hyper-V. Он отметил, что FBDL представляет собой «попытку придать технологиям Больших Данных товарный вид», чтобы компании могли сосредоточиться на бизнесе, не отвлекаясь на технологические вопросы. По информации EMC, в России около 27% организаций реализуют пилотные проекты с использованием Больших Данных и примерно 13% уже внедрили их.