В общем случае, платформа хранилища данных – это программно-аппаратный комплекс, объединяющий один или несколько аппаратных серверов, системы хранения, операционную систему и СУБД. Аналитики The Data Warehouse Institute (TDWI), авторитетной организации, занимающейся исследованиями и обучением в области бизнес-аналитики и хранилищ данных, не включают сами технологии хранилищ в понятие платформы хранилищ данных. Однако наиболее явная тенденция последнего времени – интеграция технологий BI и хранилищ данных в едином программно-аппаратном решении – позволяет нарушить чистоту определений и рассматривать понятие «платформа» в более широком контексте.

Так или иначе, от удачности выбора платформы хранилищ данных зависит глубина понимания бизнесом его перспектив, а ошибка может стоить слишком дорого. Требования, которые предъявляют текущие экономические условия и технологическое развитие, создают сегодня предпосылки к смене поколений платформ хранилищ данных и бизнес-аналитики.

Переход на новую платформу

По классификации аналитиков Forrester Research, корпоративные хранилища данных занимают промежуточное положение между базовыми технологиями интеграции данных и средствами бизнес-аналитики. На уровне интеграции данных обеспечивается выборка, преобразование и загрузка данных из различных источников в базы, хранилища данных или приложения. Инструментарий бизнес-аналитики отвечает за предоставление информации, полученной в результате аналитической обработки данных из баз и хранилищ, бизнес-пользователям для поддержки принятия управленческих решений. Между средствами интеграции данных и бизнес-аналитики находится уровень так называемого «продолжительного» (persistance) хранения данных, который и образуют корпоративные хранилища. Хранилище данных обеспечивает консолидацию структурированных данных в предметно-ориентированные, интегрированные, неизменяемые, но отражающие историю изменения данных репозитории и контролирует распределение этих данных в различные оперативные хранилища, витрины и среды бизнес-аналитики. Хранилище данных включает в себя метаданные, описывающие предметные области, модели данных и сами данные, а платформу хранилища образуют несколько функциональных компонентов (см. рисунок).

Согласно исследованиям TDWI, в большинстве компаний в ближайшие три года планируется либо полная замена, либо серьезная модернизация платформ хранилищ данных. Аналитики выделяют несколько технологических и бизнес-факторов, определяющих новый ландшафт платформ хранилищ данных и позволяющих говорить о приходе нового поколения технологий.

Традиционно хранилища данных рассматривались как платформа для выполнения базовых аналитических функций – отчетности и средств оперативной аналитической обработки (online analytic processing, OLAP). Однако сегодня у компаний все чаще возникает потребность в более «продвинутой» аналитике, которая базируется на технологиях углубленного исследования данных (data mining), статистических методах, средствах прогнозной (predictive) аналитики, сложных нерегламентированных (ad hoc) SQL-запросах. Новый инструментарий BI помогает компаниям в анализе постоянных изменений бизнес-среды и выявлении направлений сокращения расходов и расширения рынка, однако, по данным TDWI, текущие возможности платформ хранилищ данных часто не способны обеспечить адекватную поддержку «продвинутым» аналитическим средствам, прежде всего из-за низкой производительности. Так, BI-системы, использующие средства исследования данных или статистику, работающие не с базой данных, будут постоянно выгружать и загружать данные из хранилища, что может сильно ограничить скорость аналитической обработки. Технологии, связанные с нерегламентированными SQL-запросами, страдают от медленной реакции платформы. Кроме того, большинство текущих реализаций хранилищ данных настроены на поддержку стандартной отчетности и повторяющихся запросов на базе OLAP. Сегодня возрастает потребность в дополнении этих базовых возможностей менее регламентированными средствами аналитической обработки.

Одна из заметных тенденций последнего времени – интеграция хранилищ данных с транзакционными и другими приложениями для поддержки оперативных задач бизнеса. Сложность экономической ситуации, необходимость оптимизации и сокращения непроизводительных затрат, острая конкуренция на рынке заставляют бизнес исследовать различные пути достижения максимальной эффективности своей деятельности, в том числе прибегая к непосредственному включению данных из BI-систем и хранилищ в бизнес-приложения: ERP, CRM, SCM и др. Это становится стимулом к появлению новых технологий оперативной бизнес-аналитики, инструментальных панелей по требованию, систем управления эффективностью и др., в свою очередь использующих новые возможности хранилищ по предоставлению данных в реальном времени.

Новые хранилища фактически унифицируют операционные и аналитические процессы и позволяют обеспечить максимально возможное число бизнес-процессов в компаниях полномасштабной информационной поддержкой, причем в историческом контексте и со всеми аналитическими возможностями хранилища и BI-инфраструктуры. Новое поколение платформ хранилищ данных призвано стать своего рода информационным хабом, включенным в единую корпоративную среду посредством наиболее современных технологий интеграции, таких как, например, корпоративная сервисная шина ESB, и обеспечивающим сбор данных из различных источников, контроль их качества и управление правами доступа к ним. Среди фундаментальных характеристик таких хранилищ – высокая доступность, высокая скорость загрузки данных, поддержка Web-сервисов и архитектуры SOA.

Еще одно явление, характеризующее сегодня процессы управления информацией, – экспоненциальный рост данных, накапливаемых на современных предприятиях. Рост бизнеса, автоматизация все большего числа бизнес-процессов и усиливающаяся зависимость от ПО бизнес-аналитики и хранилищ данных приводят к созданию все больших объемов данных, напрямую влияющих на эффективность бизнеса. Тенденцией становится использование в аналитических целях как структурированных, так и неструктурированных данных, без которых оказывается практически невозможным высокое качество анализа в таких, например, областях, как здравоохранение, финансовые институты или розничная торговля. Новые BI-решения в дополнение к традиционным средствам обработки данных из реляционных СУБД поддерживают возможности анализа текстов, интеллектуального поиска, классификации и преобразования контента в структурированные данные.

Свой вклад в рост объемов данных, равно как и в ужесточение требований к скорости их обработки, вносит появление новых парадигм работы с бизнес-аналитикой, основанных на социальных инструментах взаимодействия. Как обнаружили аналитики TDWI, за последние три года процент компаний, обладающих большими (объемом свыше 3 Тбайт) хранилищами данных, заметно вырос, а в течение следующих трех лет удвоится число предприятий, которые накопят в хранилищах более 10 Тбайт данных. И это ставит на повестку дня вопрос о смене платформы хранилищ, поскольку текущие инсталляции в большинстве случаев неспособны принять такие объемы данных. Масштабируемость хранилища, не требующая больших затрат, становится одной из наиболее важных его характеристик.

Скорость аналитической обработки может быть значительно повышена, если разместить витрину или даже целое хранилище данных в памяти (in-memory). Различные технологии работы в памяти сегодня способны снабдить бизнес-процессы принципиально новыми интеллектуальными возможностями. Но для того чтобы совместить скорость с большими объемами, таким хранилищам необходим переход в новую аппаратную среду – 64-разрядные платформы.

Наконец, в TDWI отмечают, что переход к новой платформе, реализующей перечисленные технологические и бизнес-требования, неизбежно будет связан с новыми архитектурами как на аппаратном, так и на программном уровне. Преимущества новых технологий для бизнеса раскроются полностью, если будут поддержаны более современными подходами к организации программной и аппаратной базы, такими как обработка с массовым параллелизмом (massive parallel processing, MPP) вместо более распространенной на данный момент симметричной многопроцессорной обработки (Symmetrical Multiprocessing, SMP) с разделяемой памятью, виртуализация и сервис-ориентированная архитектура.

MPP-архитектура баз данных, поддержанная соответствующими серверными конфигурациями, активно вытесняет сегодня SMP. Архитектура с массовым параллелизмом строится на базе множества узлов, которые параллельно выполняют некоторую задачу, не разделяя при этом ресурсов. Около 68% из 400 ИТ-специалистов, опрошенных TDWI в июне 2009 года, считают архитектуру MPP наиболее предпочтительной для построения корпоративных платформ хранилищ данных.

Устройства хранилищ данных

Большинство существующих на данный момент в компаниях платформ хранилищ данных собраны силами их собственных ИТ-специалистов или с привлечением системных интеграторов, что, естественно, связано со значительными затратами ресурсов. Вместе с тем сегодня, как отмечают в Forrester, ключевым требованием к платформе хранилища данных наряду с производительностью, масштабируемостью и гибкостью становится ценовая доступность. Одним из оптимальных решений с этой точки зрения являются так называемые устройства хранилищ данных (data warehouse appliance, DWA) и их модификации в виде различных заранее интегрированных программно-аппаратных комплексов для хранилищ данных и BI-приложений. Неудивительно, что в TDWI отмечают рост интереса пользователей к таким системам: число желающих заменить свои «собранные вручную» платформы готовыми комплексами в два и более раз превышает количество уже существующих инсталляций подобных устройств.

По мнению аналитиков Forrester, сегодня DWA становятся доминирующим подходом на рынке корпоративных платформ хранилищ данных, и все ведущие его игроки, в список которых входят IBM, Oracle, Teradata, Microsoft, SAP, Sybase, Netezza, так или иначе выстраивают вокруг них свою стратегию. Интеграция программных и стандартных аппаратных компонентов платформы хранилища данных в единую систему позволяет снизить стоимость платформы до приемлемого в нынешних условиях уровня, а реализация в них современных технологий массового параллелизма, сжатия данных, оптимизации запросов, динамического выделения ресурсов и т.д. – обеспечить необходимые для корпоративного использования показатели производительности и масштабируемости.

Формально первое устройство хранилищ данных выпустила в 2002 компания Netezza, которая и ввела в обиход соответсвующий термин, а конфигурация Netezza Performance Server стала фактическим определением нового технологического решения как единого стека для реализации хранилища данных, интегрирующего базу данных, операционную систему, аппаратные серверы и системы хранения. Но на самом деле подобные интегрированные платформы хранилищ данных, не называясь устройствами, существуют на рынке уже тридцать лет. Основанная в 1979 году компания Britton-Lee выпустила первый специализированный компьютер для SQL-базы данных, основанный на исследовательском проекте Ingres Университета в Беркли. В том же году была создана компания Teradata, которая задолго до Netezza предложила специализированную машину баз данных с технологией параллельной обработки без разделения общих ресурсов. И лишь недавно в Teradata стала использовать слово appliance для обозначения своих платформ хранилищ данных.

В 2005 году компания DATAllegro выпустила полный интегрированный технологический стек для хранилища данных на базе проприетарной аппаратной платформы. Важным этапом эволюции устройств хранилищ данных стал переход на стандартные аппаратные архитектуры, который позволил значительно снизить стоимость этих решений и обеспечить их доступность массовому пользователю. Широко представленные на рынке платформы серверов и систем хранения сменили проприетарные в устройствах хранилищ данных DATAllegro, которая в 2008 году была куплена Microsoft. Аналогичная перестановка произошла и в системах компании Kognitio, выпускавшей подобные решения с 1989 года, и в ряде продуктов выпущенного в 2008 году нового семейства компании Teradata. Компания Netezza также в конце лета 2009 года перевела свои устройства хранилищ данных на стандартные архитектуры.

Всего несколько лет назад устройства хранилищ данных полностью соответствовали своему названию, если подразумевать под устройством специализированное оборудование, настроенное на выполнение конкретной задачи. Это были тактические решения с ограниченной функциональностью, направленной главным образом на ускорение оперативной аналитической обработки и быстрое развертывание высокопроизводительных витрин данных. Но в последние год-два с выходом на этот рынок традиционных производителей СУБД и систем бизнес-аналитики, чистоту определения для новых приложений уже довольно трудно соблюсти, хотя аналитики для простоты предлагают и их относить к категории DWA.

Программно-аппаратные комплексы IBM InfoSphere Balanced Warehouse, Oracle Exadata на платформах HP и Sun, Sybase Analytic Appliance, HP Neoview и др. строятся на стандартном оборудовании самих поставщиков или их партнеров, предоставляют необходимые технологии для реализации высокопроизводительных и масштабируемых хранилищ данных нового поколения, включая базы данных, настроенные на интенсивную аналитическую обработку, оптимизацию запросов, MPP-архитектуру и т.д. В силу универсальности платформы эти решения имеют потенциал для развертывания не только корпоративных хранилищ данных, но и приложений бизнес-аналитики. При этом они сохраняют за собой основные преимущества DWA: быстрый ввод в эксплуатацию за счет заранее сконфигурированного и интегрированного стека технологических решений, более низкую стоимость по сравнению с «вручную» собираемыми системами и удобство услуг поддержки, предоставляемой одним производителем для всех компонентов.

Устройства бизнес-аналитики

Анонсы осени 2009 года свидетельствуют о том, что комплексные решения, которые можно назвать уже не устройствами хранилищ данных, а полноценными BI-устройствами, могут стать реальностью.

Около двух лет назад компания HP присоединилась к клубу производителей BI-систем, выпустив программно-аппаратную систему Neoview, которая позиционируется как платформа корпоративных хранилищ данных, объединяющая в себе возможности традиционного хранилища для стратегического анализа, витрин данных и репозитория для оперативной аналитики. База данных Neoview с массовым параллелизмом, реализованная на базе серверов и систем хранения стандартной архитектуры HP Integrity и StorageWorks, поддерживает смешанную рабочую нагрузку, позволяющую одновременно работать с историческими и с оперативными данными в реальном времени.

Своим появлением HP Neoview обязана системе NonStop SQL, унаследованной HP от Tandem. Эта MPP-технология, существующая с 1987 года, перенесена с проприетарной аппаратной платформы на кластер серверов HP Integrity на базе процессоров Itanium и дисковые массивы HP корпоративного уровня. Сложные алгоритмы параллельной обработки запросов и технологии разбиения данных (data partitioning), созданные в свое время в Tandem, в сочетании с современными архитектурой процессорного кластера и возможностями хранения данных HP StorageWorks сегодня обеспечивают в Neoview эффективное решение корпоративных проблем управления данными для стратегического и оперативного анализа. Система поддерживает размещение больших объемов данных, параллельную работу большого числа пользователей, загрузку, модификацию и извлечение больших массивов информации практически в реальном времени, реализацию сложных комбинаций смешанной рабочей нагрузки, включая стандартную отчетность, аналитические запросы, нерегламентированные и тактические запросы транзакционных систем, динамическое выделение ресурсов хранилища под нужды бизнес-приложений и т.д.

В наследство от серверов Tandem NonStop платформа Neoview получила и высокие показатели отказоустойчивости, обеспечивающие доступность хранилища в режиме 24х7. При этом использование стандартных компонентов для построения аппаратной базы делает стоимость ее приобретения и поддержки приемлемой для достаточно широкого круга заказчиков. По данным HP, система Neoview в мире находит применение в таких областях, как розничная торговля, банки и телекоммуникации.

Neoview NonStop SQL/MX является транзакционной базой данных, оптимизированной для задач аналитической обработки. Тем самым обеспечивается поддержка как традиционных задач хранилища данных, так и аналитики нового типа, непосредственно включенной в бизнес-процессы предприятий и потому предъявляющей высокие требования к скорости доступа к данным. MPP-кластер Neoview управляется как единая система, обеспечивая полную виртуализацию всех объектов базы данных. Платформа легко масштабируется и может поддерживать от 16 до 256 процессоров, каждый со своей памятью и виртуальными внешними дисками.

Стандартные интерфейсы Open Database Connectivity (ODBC) и Java Darabase Connectivity (JDBC) обеспечивают интеграцию Neoview с широким спектром систем бизнес-аналитики, в том числе с решениями от компаний SAP, Business Objects, SAS и Microstrategy, а также приложениями на платформе .Net. Но в HP делают следующий шаг – в октябре 2009 года было сообщено, что SAP и HP планируют совместно работать над интеграцией HP Neoview с программной инфраструктурой корпоративного хранилища данных SAP NetWeaver Business Warehouse. Решение HP Neoview Foundation for SAP Netwaver BW позволит оснастить хранилище данных SAP наиболее важными для современных приложений бизнес-аналитики характеристиками, такими как масштабирумость по объемам данных и числу поддерживаемых пользователей, возможность работать на единой платформе с разными типами запросов и разными типами данных (агрегированными и транзакционными), гетерогенность собираемых данных. Интеграция фактически позволит превратить Neoview в устройство со встроенной поддержкой широкого перечня аналитических приложений, которые сегодня предоставляет SAP, среди них BI-системы самой компании, решения от Business Objects, а также встроенный аналитический инструментарий пакета бизнес-приложений SAP Business Suite.

Недавно компания HP анонсировала новую версию платформы Neoview – HP Neoview Advantage, построенную на базе серверов-лезвий HP Integrity BladeSystem и, как утверждают в компании, обеспечивающую повышение производительности программных компонентов платформы за счет значительного упрощения процедур управления корпоративной средой хранилища данных. Переход к модульной инфраструктуре серверов-лезвий поможет расширить объемы хранимых данных, сократить площади, которые занимает система, и оптимизировать энергопотребление. Выпуск HP Neoview Advantage запланирован на январь 2010 года.

IBM Smart Analytics System идет дальше – это, пожалуй, первое на рынке BI-решение, реализованное по принципу «все включено». Анонсированная летом 2009 года, система интегрирует не только серверы, системы хранения и СУБД, но и ПО хранилища данных Infosphere Warehouse, комплексную платформу средств бизнес-аналитики Cognos 8 BI, а также программные средства управления семейства Tivoli. Решение строится на базе серверов pSeries c процессорами IBM Power и систем хранения IBM System Storage, обеспечивая в максимальной конфигурации размещение до 200 Тбайт данных.

IBM продвигает на рынок семейство устройств хранилищ данных различной конфигурации Infosphere Balanced Warehouse, которое аналитики Forrester отнесли к лидерам рынка корпоративных платформ хранилищ данных. Однако в Smart Analytics System предложено комплексное, вертикально-интегрированное решение для задач бизнес-аналитики. В дополнение к возможностям оптимизации платформы базы данных DB2 для аналитической обработки больших объемов информации, среди которых поддержка смешанной рабочей нагрузки (отчетности, OLAP-запросов и нерегламентированных запросов), загрузка и обработка данных практически в реальном времени и т.д., благодаря интеграции Cognos платформа включает в себя еще широкий спектр BI-функций. Речь идет о средствах подготовки отчетов и инструментальных панелей, инструментарии построения многомерного представления данных (кубов) на базе реляционной модели для выполнения OLAP-запросов, функциях углубленного исследования данных и анализа текстов (text mining), интегрирующих обработку структурированной и неструктурированной информации и обеспечивающих оценку записей данных в реальном времени для включения результатов анализа в среду операционных приложений бизнеса. В платформе уделено специальное внимание настройке всех ее компонентов для совместной работы и обеспечению высокопроизводительного анализа, масштабируемости для поддержки растущих объемов данных и интенсивной аналитической обработки.

В перспективе IBM планирует дополнять платформу другими аналитическими возможностями, в частности, средствами прогнозной аналитики, полученными после приобретения компании SPSS.


 

Суперкластер для BI

По сложившейся традиции представления о массовом параллелизме обычно ассоциируются с вычислительными системами класса MPP, однако идеи параллелизма могут быть распространены и на системы хранения данных. Первый тому пример – специализированный сервер Netezza Performance Server.

Аппаратно-программные хранилища

В условиях, когда вся ценность компании оказывается в ее данных, их хранилища становятся главным ее стратегическим активом, однако системы, построенные на основе универсальных технологий, оказываются слишком жесткими и дорогостоящими. Выход – в специализированных аппаратно-программных решениях.

 

Поделитесь материалом с коллегами и друзьями