Компания IBM представила свою стратегию создания динамических информационных хранилищ Dynamic Warehousing, основанную на усовершенствованной версии DB2 Warehouse, вокруг которой с помощью других продуктов и сервисов будет создана система интегрированных функций, заставляющих пересмотреть современные взгляды на традиционные хранилища данных.

Первые реализации технологии хранилищ данных (date warehouse) были ориентированы на получение по запросу отчетов по определенным финансовым, торговым и другим показателям за некоторый период времени; такая историческая ретроспектива данных позволяла понять, что происходило в компании. Появившиеся затем средства оперативной аналитической обработки (OnLine Analytical Processing, OLAP) и добычи данных (data mining) добавили к отчетам анализ, что дало возможность выявлять причины произошедшего и давать рекомендации на будущее. Однако сегодня на повестку дня встают задачи совсем иного качества: многим организациям необходимо анализировать информацию не только в ее «историческом прошлом», но и в ее актуальном настоящем, получая точные оперативные данные из самых разных источников в контексте текущей бизнес-операции и извлекая из них глубинную для бизнеса суть. В компании IBM утверждают, что инструментами традиционных хранилищ данных эти задачи решить нельзя, и предлагают свой подход — динамическое информационное хранилище (Dynamic Warehousing), суть которого определяется следующими ключевыми компонентами:

  • встроенная аналитика, которая может использоваться в рамках бизнес-процесса;
  • возможность извлекать и использовать знания из неструктурированной информации;
  • поддержка доступа в реальном времени к агрегированной, очищенной информации;
  • широкий набор интегрированных средств реализации концепции Information on Demand («информация по требованию»).

Как видно из этого перечня, динамическое информационное хранилище вряд ли можно построить на базе одного программного продукта — речь идет о новой концепции хранилища, которая базируется на традиционных средствах, но дополняется рядом новых возможностей и поддерживается различными сервисными предложениями от IBM. В качестве примера преимуществ динамического хранилища можно взять, скажем, страховую компанию. Традиционное хранилище позволяет анализировать различные обращения, согласно которым осуществляются выплаты в определенный период времени, и сообщать о возможных случаях мошенничества. С помощью динамического хранилища можно агрегировать соответствующую данной задаче информацию из всех источников и встраивать аналитические средства непосредственно в приложение, поддерживающее бизнес-процесс рассмотрения обращений по страховому случаю. Это дает возможность выявлять потенциальные случаи мошенничества данного клиента еще до того, как обращения утверждены и оплачены. В задачах обслуживания клиентов в компаниях разного профиля динамическое хранилище позволит собирать всю информацию по клиенту, определять связанные с ним проблемы и выявлять подходящие для него предложения дополнительных товаров или услуг, причем все это — в ходе текущего сеанса работы с клиентом.

Информационные проблемы

Почему текущие реализации хранилищ данных ограничивают компании в их возможностях анализа информации? Во-первых, это распределенность информации по множеству различных репозитариев, включая транзакционные базы данных, хранилища, библиотеки документов, папки электронной почты и т.д., в которых данные хранятся в разных форматах и привязаны к определенным приложениям или бизнес-процессам. Во-вторых, рост объемов и разнообразия информации. Сегодня, помимо структурированных данных, компании постоянно работают с различными типами неструктированной информации: текстовыми документами, электронными письмами, аудиофайлами, Web-страницами, потоками данных радиочастотной идентификации (RFID) и т.д. В-третьих, сейчас, как никогда, возрастает значение своевременности предоставления информации. Временной лаг в несколько часов или дней для помещения оперативных данных в хранилище с целью их последующего анализа в определенных ситуациях уже считается недопустимым — полная и точная информационная картина сегодня нужна в реальном времени непосредственно в ходе выполнения бизнес-процесса.

Сохраняя традиционные функции агрегирования и очистки операционных данных для глубокого исторического анализа и выявления проблем, возможностей и тенденций, современные хранилища данных должны в реальном масштабе времени обеспечивать бизнес-приложения актуальной аналитической информацией и уметь работать с разными типами информации, в том числе неструктурированной. Фактически от современного хранилища требуется поддержка одновременно совершенно разных типов рабочих нагрузок, включая выполнение запросов критичных приложений, требующих немедленного отклика, формирование традиционных отчетов для решения тактических и стратегических задач, обработку эпизодически возникающих непредсказуемых запросов от приложений, поддерживающих различные этапы бизнес-процессов, а также сопровождение новых аналитических потребностей традиционных транзакционных систем. Это и означает, что хранилище данных должно стать по-настоящему динамичным, способным обеспечивать выполнение задач разных типов и различных требований к уровню обслуживания. При этом не снимаются с повестки дня и такие характеристики хранилища, как производительность, масштабируемость и доступность, поскольку объемы данных и количество пользователей информационных систем продолжают расти, равно как и их важность для бизнеса.

По мнению аналитиков Gartner (Gartner Quadrant for Data Warehouse Database Management Systems, 2006), в условиях смешанной рабочей нагрузки и постоянной потребности в функциональной аналитике со стороны транзакционных приложений хранилища данных, в основе которых лежат транзакционные базы данных, имеют определенные преимущества перед специализированными решениями, как, например, у компании Teradata.

Ядро динамического хранилища

Динамическое хранилище данных от IBM представляет собой интегрированную среду с ядром DB2 версии 9, вокруг которого создается инфраструктура дополнительных возможностей средствами других решений компании (рис. 1). Как полагают в IBM, преимуществом DB2 Warehouse является объединение в данном решении функциональности сервера баз данных, оптимизированного для оперативной обработки транзакций, и одновременно специализированных возможностей современного хранилища данных, в частности архитектуры Shared Nothing («без разделения»), в которой для выполнения запроса назначается выделенный пул виртуальных ресурсов, средств поддержки масштабируемости и высокой производительности, а также встроенной аналитики.

Рис. 1. Платформа IBM DB2 Warehouse
В систему интегрирован инструментарий перемещения и трансформации данных, предназначенный для загрузки данных в хранилище и их подготовки для дальнейшей аналитической обработки. Такая интеграция направлена на сокращение сложности и расходов, обычно связанных с выполнением этих операций.

Следующий уровень архитектуры DB2 Warehouse образуют средства оптимизации производительности хранилища: разбиение данных на разделы (data partitioning) в рамках одного сервера или кластера, обеспечивающее линейную масштабируемость хранилища; управление рабочей нагрузкой, гарантирующее высокий приоритет запросам наиболее критичных приложений; сжатие данных, позволяющее снизить затраты на хранение, оптимизировать использование дискового пространства и повысить скорость обработки запросов.

На верхнем уровне хранилища находится встроенный аналитический инструментарий, в том числе бизнес-аналитика, которая может использоваться как в составе приложений (in-line analytics), так и в качестве отдельного сервиса, и средства добычи данных и визуализации. Это означает не только то, что все операции бизнес-аналитики, добычи данных и визуализации выполняются непосредственно в хранилище, исключая необходимость в экспорте данных для анализа, но и то, что эти операции интегрированы в потоки процессов и данных хранилища, а потому могут выполняться как часть операций по перемещению и трансформации данных. Благодаря этому предоставляется возможность, например, отфильтровать данные, которые нужно проанализировать, непосредственно в хранилище (скажем, выделить подмножество продуктов, рассматриваемое при анализе рыночной корзины), а затем операциями буксировки включить процедуры добычи данных наподобие кластеризации, скоринга и т.д. в потоки данных в хранилище, при необходимости меняя атрибуты этих операций (например, уровень конфиденциальности).

Встроенные средства визуализации DB2 Warehouse позволяют выводить результаты добычи данных и аналитики непосредственно в бизнес-приложения или на Web-страницы. Это могут быть простые таблицы или графики или интерактивные средства, позволяющие переходить от полученных результатов к более глубокому анализу информации. Как подчеркивают в IBM, встроенные аналитические средства DB2 Warehouse не заменяют высокоуровневый BI-инструментарий, который может использоваться в компании, но дополняет его, предоставляя возможность выполнять операции по добыче и анализу данных непосредственно в контексте текущих бизнес-операций и приложений.

DB2 Warehouse также включает в себя общий инструментарий моделирования и проектирования на базе среды Eclipse и средства администрирования и контроля. Общий интерфейс интегрирует все операции встроенной аналитики, проектирования и администрирования хранилища данных.

Для упрощения развертывания хранилища данных и получения решения с оптимальными для определенных категорий заказчиков функциональностью и производительностью некоторые игроки рынка начали выпускать специализированные устройства, объединяющие предустановленное программное обеспечение хранилищ данных и бизнес-аналитики, высокопроизводительную серверную платформу и систему хранения нужного объема (HP NeoView, предложения компаний Teradata и Netazza). Корпорация IBM также представила систему такого класса — Balanced Configuration Unit (BCU) с программным обеспечением DB2 Warehouse, которая поддерживает работу от 500 до 1 тыс. пользователей, предоставляя им доступ к 2 Тбайт данных. Компании могли устанавливать такое количество модулей BCU, которое отвечало их требованиям к объемам и производительности хранилища данных. Весной этого года IBM сделала следующий шаг в развитии этой идеи, выпустив семейство решений Balanced Warehouse, в которое входят аппаратно-программные устройства хранилищ данных для разных категорий клиентов. Семейство включает в себя системы C-Class для поддержки аналитических потребностей приложений малых и средних компаний, D-Class для витрин данных уровня департаментов и растущих потребностей в хранилищах данных компаний SMB-рынка и E-Class для хранилищ данных в крупных корпорациях. В решениях C-Class помимо редакции DB2 Warehouse Starter Edition установлено программное обеспечение генерации аналитических отчетов Crystal Reports Server компании Business Objects. Все представители семейства Balanced Warehouse используют серверные платформы и системы хранения IBM разного уровня, например системы D-Class обеспечивают емкость памяти для хранилища от 1 Тбайт до 5 Тбайт, а E-Class — от 4 Тбайт и выше.

Инфраструктура динамического хранилища

Помимо расширенных возможностей непосредственно хранилища данных, инициатива динамического хранилища от IBM подразумевает создание вокруг DB2 Warehouse инфраструктуры интегрированных информационных сервисов, реализованных с помощью определенных продуктов и услуг IBM. В инфраструктуру входят:

  • текстовый поиск и анализ — средства для извлечения полезных знаний из неструктурированной информации (OmniFind Analytics Edition);
  • интеграция информации — средства агрегирования, очистки и преобразования информации из различных источников, а также предоставление этой информации в качестве сервиса (IBM Information Server);
  • управление процессами — средства извлечения информации в контексте выполняемых действий бизнес-процесса и ее анализ для совершенствования принятия решений и оптимизации процессов (программное обеспечение управления бизнес-процессами семейств IBM FileNet и WebSphere);
  • моделирование данных предприятия — средства обеспечения общих метаданных для работы со всей соответствующей информацией (Rational Data Architect);
  • управление мастер-данными — средства, гарантирующие общее представление о заказчиках, партнерах и продуктах для различных приложений и предоставляющие очищенные и авторизованные многомерные данные для хранилища (WebSphere Customer Center и Product Center);
  • специализированные по отраслям бизнес-модели для повышения эффективности аналитики в конкретных индустриях (IBM Industry Data Models).

Стоит остановить внимание на анонсированной одновременно со стратегией Dynamic Warehousing системе OmniFind Analytics Edition — платформе интеллектуальной обработки контента, позволяющей извлекать и анализировать неструктурированную информацию (электронная почта, комментарии и иллюстративный материал, голосовые и текстовые сообщения коммуникационных систем), предоставляя средства анализа тенденций и отклонений, автоматического уведомления о событиях, навигации по источникам данных для поиска детализированной информации, семантического поиска и поиска по ключевым словам. Эти возможности могут быть использованы для контроля за ситуацией в бизнесе, управления событиями и отслеживания изменений, которые имеют тенденцию к развитию во времени, как, например, неудовлетворенность клиентов качеством обслуживания.

OmniFind Analytics Edition предоставляет полнофункциональный интерфейс, который сочетает в себе средства поиска, текстового анализа и визуализации и позволяет выявлять значимые для бизнеса данные из взаимосвязанной структурированной и неструктурированной информации. Например, для определенных целей необходимо проанализировать запросы, поступавшие в центр обработки вызовов пользователей. Такой запрос включает в себя структурированные данные о клиенте (имя, дата обращения, длительность обращения, идентификационный номер клиента), а также неструктурированную информацию — текст запроса (рис. 2). Система интерпретирует текст с помощью лингвистического анализа и определяет нужные для дальнейшего анализа метаданные (в конкретном примере это тип запроса, тип необходимого сервиса и компоненты оборудования, для которых требуется обслуживание). Эта информация передается в DB2 Warehouse для проведения добычи данных и генерации отчетов, по результатам которых аналитические средства системы OmniFind Analytics Edition смогут выполнить необходимые операции поиска, интерактивной добычи данных и визуализации.

Программное обеспечение OmniFind Analytics Edition разрабатывается на базе активно продвигаемой корпорацией IBM архитектуры управления неструктурированной информацией (Unstructured Information Management Architecture, UIMA), которая предоставляет рамочную инфраструктуру для интеграции интеллектуальных систем поиска информации и анализа текстов.

Остальные программные решения, входящие в инфраструктуру динамического хранилища, также тесно интегрированы с ядром DB2 Warehouse. Например, пользователи хранилища могут не только импортировать модели данных, созданные с помощью инструментария Rational Data Architect, но и применять этот продукт для создания моделей корпоративных данных непосредственно в среде проектирования DB2 Warehouse. Аналогично процессы агрегации, обеспечения качества и трансформации данных, предоставляемые системой Information Server, встраиваются в потоки процессов хранилища данных, управляемые средствами администрирования DB2 Warehouse. Information Server решает ключевую для концепции динамических хранилищ задачу интеграции информации из всевозможных корпоративных источников.

В инфраструктуру динамического хранилища также входят готовые отраслевые модели данных: финансы, страховая деятельность, розничная торговля, телекоммуникации и медицина. Эти модели включают в себя глоссарии бизнес-концепций и терминов, специфичных для конкретной отрасли, общее представление проектов для решения определенных проблем бизнеса, например управления рисками, шаблоны с ключевыми показателями производительности (Key Performance Indicator, KPI), которые могут использоваться в различных «приборных панелях», оценочных листах и других средствах отчетности.


Преимущества — в динамике

Традиционное и динамическое хранилища данных отличаются следующими характеристиками.

Традиционное хранилище данных:

  • обеспечивает доступ к уже использованным оперативным данным для исторического анализа и генерации отчетов;
  • состоит из множества неинтегрированных систем;
  • использует для получения данных ограниченное число бизнес-процессов и систем;
  • поддерживает только структурированные данные;
  • требует специальных знаний и навыков для доступа и использования.

Динамическое хранилище данных:

  • обеспечивает доступ к оперативным и транзакционным данным почти в реальном времени для стратегического планирования и оперативных целей;
  • обеспечивает тесную интеграцию между корпоративными бизнес-системами;
  • использует структурированные, неструктурированные данные и метаданные;
  • предоставляет информацию всем пользователям в компании в контексте тех действий, которые они выполняют.

Поделитесь материалом с коллегами и друзьями