Устройство и назначение хранилищ данных

Наталья Дубова, osmag@osp.ru

Думайте сами, решайте сами

DSS в мире телекоммуникаций

Трудная дорога к складу данных

Конкретные решения

Со времен UNIVAC и МЭСМ мы используем компьютеры не только для сложных расчетов, но и как средство накопления данных. Теперь настало время превращать залежи электронной информации в реальную прибыль. Ведь ни для кого не секрет, что успех в бизнесе сейчас напрямую зависит от того, насколько эффективно компания использует свои же информационные системы - накопленные данные могут стать базой для принятия стратегических решений. Однако для этого необходимо извлечь из них полезную информацию, которую уже можно будет подвергнуть специальному анализу. Хранилища данных создают информационную базу, в частности, для работы систем поддержки принятия решений (DSS). Благодаря хранилищам данных компания может применять информационные технологии для совершенствования своих бизнес-процессов с тем, чтобы выбиться в лидеры в условиях жесткой конкуренции.

Писать статью о хранилище данных довольно трудно, поскольку это не программный продукт с определенной архитектурой и не некое единое аппаратное решение. Речь идет скорее о процессе организации и поддержки данных, для которого, как правило, требуется интеграция систем и услуг различных компаний. Поэтому для начала имеет смысл сформулировать общие принципы построения хранилищ данных.

Итак, хранилища данных - это прежде всего подмостки, где разворачивается действие пьесы под названием DSS. Здесь должна быть представлена информация, отражающая различные направления деятельности компании и пригодная для проведения всестороннего анализа. Хранилище данных выполняет следующие функции:

собирает информацию из различных источников, прежде всего из корпоративных оперативных приложений, а также от внешних источников, например, организаций по исследованию рынка, лабораторий по оценке качества, консалтинговых компаний и независимых аналитиков;
интегрирует данные в логические модели по определенным предметным областям;
хранит информацию таким образом, чтобы она была легко доступна и понятна различным категориям пользователей;
предоставляет данные разнообразным DSS-приложениям.

Хотя вариантов построения информационных хранилищ существует множество, все же можно выделить несколько базовых характеристик, присущих большинству складов данных. Их авторство приписывают одному из крупнейших специалистов в области хранилищ данных Биллу Инмону.

Следует подчеркнуть, что корпорация работает с двумя разными типами информации. Постоянно изменяемые базы данных систем оперативной обработки транзакций (OLTP) содержат детальную информацию по определенному бизнес-процессу. Пригодные для анализа данные информационного склада содержат обобщенные сведения по достаточно широкой предметной области, которая может охватывать различные направления бизнеса. Данные со склада не просто фиксируют события, но и отражают определенные тенденции, например, недельные продажи, выполненные различными филиалами фирмы за последние пять лет, сгруппированные по типу товаров. Возможность работы конечных пользователей с форматом оперативных данных не предусмотрена. Структура бизнес-данных сложнее, но их формат обычно специально организован в расчете на финансового менеджера или работника сервисной службы.

Основные характеристики хранилищ данных

Данные организованы по предметным областям. В предметной области собирается вся информация, которая имеет отношение к определенной теме, представляющей интерес для компании. Например, в информационном складе железнодорожной компании предметная область «Поезда» содержит все данные о движении составов, полученные из различных оперативных систем компании.
Данные интегрированы. Данные, поступающие в хранилище из оперативных приложений, необходимо привести к некоторому общему формату. Возможно, потребуется произвести «чистку» и «проверку» оперативной информации, полученной в режиме реального времени. Данные могут быть избыточными, храниться одновременно в нескольких местах, быть синхронизированными или несинхронизированными между собой и иметь противоречивое представление. Например, в отделениях международного банка в разных странах сведения о счетах могут храниться в совершенно различных базах данных и отражать, естественно, состояние дел в национальной валюте. Для проведения общего анализа эти данные необходимо привести к одной и той же валюте и представить единый обменный курс на определенный момент времени. Должны быть устранены такие аномалии, как повторение одного и того же имени у разных данных, использование разных имен для одних и тех же данных и т.д.
Информация в хранилище данных стабильна. Данные загружаются в хранилище и затем предоставляются системе поддержки принятия решений. Важно отметить существенную разницу между оперативными данными и данными, пригодными для анализа. Оперативные, или транзакционные данные - это детальная информация о сделанных заказах, выписанных счетах, денежных переводах. Они предназначены для приложений, которые выполняют повседневные задачи. Поэтому оперативные данные быстро и часто изменяются, существуют в реальном времени (каждое последующее значение заменяет предыдущее), тесно привязаны к конкретному приложению и, как правило, имеют сложный для понимания конечным пользователем формат. В отличие от оперативных данных информация в хранилище меняется тогда, когда этого захочет пользователь. Она загружается в хранилище через определенные промежутки времени и является непротиворечивой благодаря проведенным преобразованиям оперативных данных.
Информация отражает историю изменения данных. Хранилище данных представляет собой последовательность моментальных снимков корпоративной информации через определенные, заранее заданные промежутки времени. Хранилище может пополняться ежедневно, еженедельно или ежемесячно - это определяется в процессе его организации. Главное, что аналитик получает не только абсолютное значение величины, но и возможность проследить историю ее изменения за определенный период времени. Маркетинг-менеджер, например, сможет посмотреть, как шла реализация товара в течение трех лет, анализируя данные о продажах, которые накапливались в хранилище к концу каждой рабочей недели.

Исходные данные для хранилища поступают из БД, поддерживающих различные бизнес-процессы компании, а также из внешних источников. Исходные данные предварительно должны быть обработаны, чтобы противоречия реального времени не мешали использовать информацию. Помимо просто обработанных данных на информационном складе могут размещаться производные данные и данные об изменениях. Первые представляют собой данные реального времени или обработанные данные, обобщенные для простоты дальнейшего использования. Манипулирование большими объемами данных в исходном виде создает колоссальную нагрузку на процессоры. С другой стороны, конечным пользователям могут понадобиться не детальные отчеты, а обобщенная информация, для хранения которой необходима отдельная база данных. Использование обобщенных данных снижает нагрузку на вычислительные системы и сокращает время отклика приложений.

Данные об изменениях представляют собой запись всех модификаций некоторых данных реального времени. Эти записи накладываются на шкалу времени для отслеживания скорости изменений. Информация этого типа позволяет анализировать тенденции или состояние на определенный момент времени. Например, банк может проследить динамику вкладов в отделениях определенного региона и оценить ее влияние на организационную структуру и потоки наличных денег. Исторический взгляд на события имеет большое значение для принятия перспективных решений.

Важнейший компонент хранилища данных - метаданные, или данные о данных. Это информация о том, что представляют собой данные хранилища, их основные типы, элементы и структура, процессы преобразования, где хранятся данные, как получить доступ к ним и т.д. Доступ к метаданным должны иметь все программы, обслуживающие и использующие хранилище данных. Метаданные особенно важны для тех пользователей, которые разрабатывают собственные аналитические приложения, поскольку им необходима достоверная информация о том, какие данные доступны, что они из себя представляют, как давно обновлялись и т.д. По мере развития концепции хранилищ данных интерес к метаданным начинают проявлять не только профессиональные программисты, но и менее искушенные конечные пользователи. Поэтому возникает необходимость в специальных средствах, облегчающих поиск и использование метаданных. Над стандартизацией интерфейсов прикладного программирования для метаданных работает специальный Совет по метаданным (Metadata Council), организованный рядом компаний во главе c Meta Group.

Среда хранилища данных - это сложный конгломерат разнообразных инструментов и функций, реализующих непрерывный процесс создания, эксплуатации, постепенного расширения и изменения информационного склада. Основными компонентами такой среды являются программы доступа к источникам данных, инструменты преобразования оперативных и внешних данных, сервер базы данных хранилища, программа управления хранилищем (администратор) и склад метаданных. На рис. 1 приведена схема процесса перехода от необработанных данных к деловой информации, которую можно использовать в среде поддержки принятия решений.

Рис. 1. Переход от данных к деловой информации с помощью хранилища данных

Данные поступают в хранилище из внутренних оперативных приложений и внешних источников, затем обрабатываются и помещаются в разделы хранилища, соответствующие структуре предметной области. Деловые форматы представления данных разрабатываются как часть этой структуры и предоставляются конечным пользователям. Администратор хранилища создает и поддерживает склад метаданных, который является основой для всех процессов в хранилище и для обеспечения конечных пользователей доступом к информации в нем.

Думайте сами, решайте сами

Сегодня в сфере розничной торговли, в банковской системе, на рынке телекоммуникаций, в инвестиционных и страховых компаниях, в государственных структурах и во многих других областях успех организации часто напрямую зависит от того, насколько полную информацию она имеет о своей клиентуре и состоянии рынка и насколько эффективно способна использовать эту информацию для принятия решений. Поэтому системы поддержки принятия решений на основе хранилища данных сегодня уже перестают быть роскошью.

Необходимость в интеллектуальных DSS-системах продиктована ситуацией на рынке продуктов и услуг - компания должна сделать все для того, чтобы клиент, у которого теперь появилась возможность выбора, предпочел именно ее услуги. Предприятиям нужна полная информация о заказчиках, возможность анализировать причины «текучести» клиентуры, средства управления работой с клиентами. Кроме того, продолжается процесс глобализации и слияния компаний. Корпоративное руководство должно уметь справиться с ситуацией, когда число заказчиков внезапно увеличивается на порядок. При этом в организацию могут вливаться компании с иными принципами и правилами ведения бизнеса, и необходимо иметь средства адаптации информационной инфраструктуры к новым условиям работы.

Еще один важный фактор - значительное сокращение срока выпуска новых продуктов на рынок. Чтобы не проиграть, компании необходимо разумно планировать маркетинг, опираясь на анализ возрастающих объемов информации. В то же время многие компании переходят к такой организационной структуре, когда ответственность за принятие решений делегируется персоналу низового уровня. Для этого рядовым специалистам различных подразделений нужно предоставлять доступ к большим объемам информации в удобной для них форме. Например, если раньше работник отдела сервисного обслуживания просто отвечал на вопросы, а решения по поддержке клиентов принимало руководство, то теперь вполне реальна ситуация, когда тот же самый работник решает проблемы клиента сразу на месте. Чтобы справиться с этой задачей, он должен владеть максимально полной информацией о клиенте, его заказах, продуктах, оборудовании и т.д.

Все эти проблемы трудно решить, используя приложения оперативной обработки и множество разрозненных баз данных для разных типов информации. OLTP-системы оптимизированы для небольших дискретных транзакций, и запросы на некую комплексную информацию, характерные для аналитических приложений, породят сложные соединения таблиц и просмотр таблиц целиком. На один такой запрос уйдет масса времени и компьютерных ресурсов, что затормозит обработку текущих транзакций. Решать аналитические задачи в более или менее свободные для оперативных приложений часы вряд ли можно считать выходом из положения. Кроме того, компания обычно имеет разные транзакционные системы для разных направлений своей деятельности. Данные для этих приложений распределены по нескольким БД, и интегрировать их для обобщенного анализа и получения единого и точного представления о клиентах и рынке крайне сложно. Соответственно, будет нелегко выработать правильное решение в той или иной ситуации.

Что такое DSS? Это совокупность интеллектуальных информационных приложений и инструментальных средств, которые используются для манипулирования данными, их анализа и предоставления результатов такого анализа конечному пользователю. Современная DSS-система позволяет предсказывать степень влияния принятых решений на дальнейшее развитие бизнеса.

Известны два типа аналитических приложений DSS. Первый реализует так называемую модель проверки (verification model), в соответствии с которой пользователь формирует гипотезу, делает запрос на предоставление необходимых данных и затем пытается найти подтверждение своей гипотезе. К этому типу относятся приложения формулирования запросов и составления отчетов, средства многомерного анализа и информационные системы руководителя. Последние стояли у истоков анализа данных на основе информационных складов. Информационные системы руководителя используют заранее сформулированные вопросы и обобщенные данные. Однако вряд ли возможно предугадать все проблемы, которые могут возникнуть в процессе принятия решений. Поэтому в современных развитых DSS-системах предусмотрены методы обработки нерегламентированных (ad hoc) запросов.

Под многомерным анализом мы понимаем технику рассмотрения данных с различных точек зрения, или «измерений». Данные загружаются в хранилище в виде фактов, а «измерения» представляют собой индексы, которые обеспечивают простой и быстрый доступ к этим фактам с разных направлений. Для реализации многомерного анализа может потребоваться поддержка специализированной многoмерной БД, такой, например, как Essbase компании Arbor Software или LightShip компании Pilot Software. Однако средства многомерной обработки могут быть реализованы и в рамках традиционной реляционной технологии. Такие возможности предоставляют для своих баз данных компании IBM, Oracle и Sybase.

Сегодня активно развиваются системы добычи данных (data mining), cоответствующие другой модели - модели открытия (discovery model). Эти системы нацелены на выявление определенных закономерностей в данных, из которых пользователь может извлечь новую, практически полезную информацию.

DSS в мире телекоммуникаций

Возможности и преимущества системы DSS можно показать на примере телекоммуникационного рынка, который традиционно считается одним из самых высокотехнологичных и динамичных. Снятие ограничений на предоставление услуг связи в США и ряде европейских стран открыло этот рынок для новых участников. В условиях жесткой конкуренции, когда появляется возможность выбора провайдера, автоматизированная поддержка работы с клиентами и интеллектуальный маркетинг становятся основными задачами телекоммуникационных компаний.

Руководство компании, которая хочет добиться успеха, должно хорошо знать и уметь анализировать ситуацию на рынке, осуществлять стратегическое планирование новых услуг и развития старых опять же на основе анализа полученных фактов и, наконец, «обхаживать» своих клиентов, проявлять к ним максимальную заботу и внимание, строить свой бизнес, исходя из их интересов и потребностей. Кроме того, когда на свободном телекоммуникационном рынке наступит определенная стабилизация, здесь наверняка будут происходить все те же процессы слияния компаний, и понадобятся инструменты быстрой и эффективной интеграции различных бизнес-структур друг с другом.

DSS-система позволяет создавать центры по обслуживанию клиентов, которые будут реагировать на обращения заказчиков в режиме, приближенном к реальному времени. Здесь все решает консолидация информации о клиенте в одном месте и быстрый доступ ко всем необходимым данным о сделанных вызовах за определенный период времени. Такая оперативная поддержка не только позволит добиться высокого уровня обслуживания, но и может принести компании реальный доход.

Обслуживать старых клиентов всегда гораздо экономичнее, чем строить взаимоотношения с новыми. Текучесть заказчиков - одна из самых острых проблем телекоммуникационной индустрии. Как раз хранилище данных и аналитические приложения могут помочь ее решить. Современные средства моделирования анализируют поведение клиентов: подсоединение к сети оператора связи, отключение от нее, смена провайдера. Вкупе с программами анализа «текучести» эти средства позволяют выявлять группы высокого риска и предотвращать потерю клиентов.

Единый информационный склад позволяет проводить маркетинг базы данных, улавливая тончайшие нюансы в информации о клиентах, выполнять корреляцию и выявлять тенденции. Выделив определенные группы клиентов с теми или иными потребностями, компания может проводить целевой маркетинг новых услуг и тем самым добиваться быстрого получения прибыли. Например, оператор связи собирается ввести новые тарифы. С помощью маркетинга базы данных можно выбрать группу клиентов, для которой эти тарифы будут наиболее приемлемы. Система поддержки принятия решений позволит определять результаты использования новых тарифов для выбранной группы практически в режиме реального времени.

Еще один аспект совершенствования взаимоотношений с заказчиками - упрощение обслуживания клиентов. Многие телекоммуникационные компании сейчас стремятся предоставить единый пакет услуг, в который входят как традиционная локальная и международная связь, так и новые возможности: беспроводная связь, Internet, кабельное телевидение, video-on-demand. Причем все услуги оплачиваются по единому счету. Пример - программа MCI One компании MCI. Когда информация обо всех пользователях и предоставляемых услугах собрана в едином хранилище, решение задачи существенно упрощается.

С ростом конкуренции сроки выпуска на рынок новых услуг приобретают первостепенное значение. Здесь понадобятся такие процессы, как предварительное исследование ситуации на рынке и поведения клиентов, анализ тенденций, средства предсказания на время жизненного цикла планируемой услуги. Эффективная реализация этих процессов позволит быстро окупить затраты и в дальнейшем оперативно реагировать на изменения рыночной ситуации. А с помощью приложений анализа можно будет оценить прибыльность тех услуг, которые компания уже предлагает своим клиентам.

Для операторов связи также важен анализ использования пропускной способности сети и возможность увязать информацию о сети с данными о различных сетевых устройствах и их вкладе в общую прибыль. Для этого понадобится детальный анализ информации о сделанных вызовах с точки зрения сетевых устройств. Такой анализ поможет установить, например, какие сетевые элементы требуют срочной замены именно исходя из соображений получения прибыли. Телекомуникационные компании часто имеют значительный объем полосы пропускания сети в определенные периоды дня, недели и месяца и при этом должны обеспечивать необходимую полосу пропускания в часы пиковой загрузки. Анализ использования сети различными категориями клиентов и понимание причин простоев сети позволяет реализовать целевой маркетинг услуг связи и заполнить подобные пустоты.

В конечном итоге, объединив в хранилище все данные о рынке, клиентах, сделанных вызовах и внутренних ресурсах и построив на его основе эффективную среду поддержки бизнеса, телекоммуникационная компания может по-новому организовать три ключевых направления своей деятельности: реализацию вызовов, биллинг и обслуживание клиентов. Единое хранилище информации позволит полностью интегрировать все функции в рамках этих направлений и создать модель работы компании (рис. 2): единый вызов, единый счет, единый взгляд на клиента.

Рис. 2. Модель работы современной телекоммуникационной компании

Единый вызов. Современные DSS-приложения позволяют интегрировать системы поддержки различных видов сервиса, предоставляемого компанией. Один и тот же агент компании будет работать с разными вызовами и иметь целостное представление о вызовах одного и того же клиента. Он получит возможность обрабатывать больше вызовов, причем более качественно и с меньшими затратами. Такая система позволит дифференцировать клиентов по потребностям в тех или иных услугах и выделять приоритетных клиентов, приносящих компании наибольшую прибыль.

Единый счет. На телекоммуникационном рынке появляются все новые предложения. Клиенты будут только приветствовать возможность получить от одного провайдера не только весь спектр услуг связи, но и средство их оплаты по единому счету. Сама же телекоммуникационная компания благодаря такой интегрированной биллинговой системе получает тактическое оружие для встречных предложений разных услуг и предоставления совокупных скидок на них.

Единый взгляд на клиента. Разные подразделения компании - отделы продаж, маркетинга, финансов, обслуживания клиентов - получают единый источник информации о клиенте и рынке. Это снимает возможные противоречия между ними, значительно повышая эффективность работы всей компании. Решаются такие важные проблемы, как предотвращение потери клиентов, оптимизация трафика сети и т.д.

Трудная дорога к складу данных

Итак, если компания заинтересована в успехе, ей придется создавать систему поддержки принятия решений и хранилище данных в качестве информационной базы. Среда поддержки принятия решений настолько сложна, что для ее создания необходимо позаботиться не только о мощной вычислительной платформе и всех необходимых программных продуктах, но и о серьезной подготовке персонала компании.

Хранилища данных масштаба предприятия могут потребовать террабайтной емкости памяти, а сложные приложения работы с ними потребляют значительные компьютерные ресурсы. Поэтому для создания такой среды прежде всего нужно обеспечить достаточную аппаратную базу. Помимо традиционных мэйнфреймов, в эту область начинают активно проникать мощные многопроцессорные серверы со средствами параллельной обработки.

Далее, компании необходимо собрать воедино множество программных систем - сервер базы данных, управление метаданными, средства трансформации оперативных и внешних данных, средства формулирования запросов (в том числе нерегламентированных) приложения аналитической обработки и поддержки различных направлений бизнеса компании. Многие поставщики предлагают продукты, которые реализуют одну или несколько функций информационного склада и DSS-систем. Однако если организация выберет путь самостоятельного совмещения разнородных систем в единую среду, это потребует напряженной работы квалифицированных программистов. С помощью специалистов собственного информационного отдела или обратившись к системному интегратору, компания должна будет разработать и настроить ПО для поддержания совместного функционирования разных систем. В этом случае могут возникнуть сложности в будущем, когда появятся новые версии включенных в систему продуктов, и потребуется расширить и модифицировать общую среду. Возможно, стоит поискать производителя, предлагающего интегрированный пакет решений.

Так или иначе процесс создания хранилища данных будет стоить немалых денег и, как показывает практика, может потребовать не одного года напряженной работы. Компании, которые профессионально занимаются развертыванием систем поддержки принятия решений, настаивают на поэтапном подходе к реализации информационного хранилища. Традиционный метод «сверху вниз» подразумевает, что вначале осуществляется планирование и полная разработка склада, и лишь затем начинаются работы по его фактической реализации. И если это вполне логично с технической точки зрения, то с точки зрения бизнеса такой подход не очень рационален, поскольку срок окупаемости проекта оказывается чересчур растянутым. Поэтапный подход предполагает совмещение процесса общего планирования с процессом постепенного внедрения хранилища и аналитических систем. На каждом этапе вводится часть хранилища, способная обеспечить работу определенного бизнес-приложения. Таким образом, одно направление бизнеса получит полную информационную поддержку еще до того, как будет готов следующий раздел хранилища данных. Тем самым ускорится получение прибыли на инвестиции в проект.

На начальном этапе потребуется определенная организационная работа с руководством компании и персоналом, который будет реально пользоваться складом и DSS-системами. Обсуждение вопроса поможет выявить основные требования к системе поддержки принятия решений, определить приоритетные направления, с которых следует начать, и разработать план внедрения. На рынке сегодня имеются средства для создания не только масштабных корпоративных хранилищ, но и небольших складов, ориентированных на потребности отдела или рабочей группы. Так называемые киоски данных (data mart) настроены на определенную проблемную область и поэтому требуют значительно меньшей емкости памяти (до 50 Гбайт). Для их поддержки достаточно мощного ПК или рабочей станции. Например, отделу планирования продуктов нужна обобщенная информация о продажах за некоторый период времени по каждому региону. Данные по продажам есть в оперативных системах региональных отделений, но служащие отдела либо не имеют к ним доступа, либо не могут ими воспользоваться для своих аналитических задач из-за особенностей структуры этих данных. В такой ситуации может помочь создание локального хранилища отдела планирования.

Поскольку киоски данных используют более дешевую аппаратную платформу и программные средства, а реализуются быстрее, они быстрее и окупаются. Как показывают исследования IDC, процент возврата капиталовложений для локальных хранилищ (более 500%) выше, чем для полномасштабных информационных складов (в среднем порядка 400%).

Киоски данных могут не зависеть от общих корпоративных информационных ресурсов или иметь определенную связь с источниками данных, которые контролируются ИТ-отделом компании. Этими источниками являются как необработанные оперативные и внешние данные, так и данные из глобального хранилища, если таковое имеется. Но и в этом случае киоски данных могут существовать независимо от единого информационного склада корпорации и почти не оказывать влияния на корпоративные вычислительные ресурсы. С другой стороны, глобальное хранилище может поддерживать несколько локальных хранилищ отделов, которые разработаны в рамках общего проекта, являются частью корпоративного склада, получают из него информацию и служат поставщиками данных для него.

Конкретные решения

Компания IBM стала выпускать продукты для построения хранилищ данных. Помимо мощных аппаратных средств, она уже давно имеет в своем арсенале набор приложений для организации корпоративного информационного склада. IBM предлагает строить хранилище на основе СУБД DB2, серверы которой поддерживают различные операционные платформы. Системы DataPropagator и DataJoiner реализуют доступ к источникам данных. Первая, в частности, позволяет проводить выборочное обновление только тех данных, которые действительно изменились с момента предыдущего обновления, что дает значительную экономию времени и ресурсов. Административные функции реализованы в программе DataHub, которая управляет разнородной распределенной средой и различными процессами, связанными с переносом и преобразованием данных. Функции информационного каталога представляет система DataGuide. Это одновременно точка интеграции метаданных в деловом формате и окно, через которое пользователь получает доступ ко всем данным в хранилище.

Все системы для реализации хранилища данных поддерживают общие интерфейсы, определяемые архитектурой информационного хранилища IBM. Так что возможность взаимодействия заложена в них с самого начала. Естественно, использование продуктов одного поставщика сведет к минимуму расходы на их интеграцию. При этом, подчеркивая свою приверженность принципам открытых систем, компания готова реализовать среду информационного хранилища с приложениями других поставщиков, если это понадобится заказчику.

То же самое справедливо и для систем поддержки принятия решений на базе склада данных IBM. Имея достаточно богатый набор средств для формулирования запросов и составления отчетов, многомерного анализа и добычи данных как на базе мэйнфреймов, так и в распределенной архитектуре клиент/сервер, компания активно поддерживает интеграцию в свою среду систем других поставщиков.

Еще в 1996 г. IBM выпустила набор продуктов для построения хранилищ данных Visual Warehouse Solution. Основное достоинство этой системы в ее интегрированности - комплект поставки включает базовые компоненты хранилища: сервер базы данных DB2 на платформе NT, сервер управления хранилищем, программа-агент, которая выполняет перенос информации из источника данных в хранилище, драйверы ODBC для доступа к внешним источникам и программы конечного пользователя. К последним относятся Administrative Client для выполнения административных функций, информационный каталог DataGuide и средство для создания отчетов и экранных форм Lotus Approach. Как следует из названия системы, в ней задействованы визуально- графические средства с удобными пользовательскими интерфейсами.

Основное отличие Visual Warehouse в том, что этот продукт предназначен для создания локальных хранилищ и лучше всего подойдет для небольшой организации или подразделения крупного предприятия. По всей вероятности, именно поэтому он будет пользоваться спросом на отечественном рынке. Российским компаниям пока еще трудно решиться на затраты, которые подразумевает построение глобального хранилища. По сравнению с корпоративным вариантом, Visual Warehouse обойдется значительно дешевле, не потребует специального обучения персонала и окупится быстрее. Тем более что этот продукт интегрирован с системой добычи данных Polyanalyst для Windows NT российской компании Megaputer Intelligence . По мнению специалистов Megaputer, на нашем рынке пока больше никто профессионально не занимается системами класса data mining. Polyanalyst анализирует данные из хранилища и сохраняет построенные модели в среде Visual Warehouse. Таким образом, эти модели можно автоматически применять к новым данным, так что Visual Warehouse в каком-то смысле можно считать готовой системой принятия решений.

Компания Sequent известна как крупнейший поставщик мощных вычислительных Unix-систем со встроенными средствами параллельного процессирования . Поэтому в ее пакете предложений по реализации среды хранилища данных и DSS главный козырь - аппаратная платформа. Накопив определенный опыт в поддержке крупнейших хранилищ данных с помощью SMP-серверов Symmetry, компания Sequent предлагает пакет продуктов и услуг для создания открытой среды поддержки принятия решений корпоративного масштаба Decision Advantage на базе своей разработки - архитектуры NUMA-Q 2000, позволяющей осуществлять масштабирование до 252 процессоров в одном сервере с 32 Гбайт оперативной и до

100 Тбайт дисковой памяти. В одном кластере из 8 узлов можно объединить 2016 процессоров.

Новый тип межкомпонентных соединений обладает мощной пропускной способностью, обеспечивает высокую скорость загрузки и резервирования данных и обработки запросов. То, на что раньше уходили часы и дни, теперь выполняется за минуты. Архитектурные особенности NUMA-Q позволяют строить на основе этого сервера гигантские информационные склады и проводить операции по добыче и анализу данных, необходимые для сложных систем принятия решений. Кроме того, мощность и производительность системы позволит хранить и обрабатывать информацию не только в обобщенном виде, но и с любым уровнем детализации.

Decision Advantage - это комплексный портфель приложений и услуг на аппаратной платформе NUMA-Q. Установив партнерские отношения с ведущими поставщиками программного обеспечения, Sequent в рамках этой программы подбирает те приложения, которые оптимально удовлетворяют потребностям заказчика. В качестве сервера базы данных, например, предлагаются продукты компаний Informix и Oracle. Главное, что с помощью Decision Advantage можно последовательно выполнить все фазы процесса создания среды хранилища данных, от предварительной оценки ситуации и планирования и до окончательной реализации системы.

Прежде чем перейти к конкретной разработке и реализации проекта, компания может воспользоваться и другими услугами предварительного анализа в рамках Decision Advantage. Например, проверка концепции (Proof of Concept) позволит с помощью демонстрационной модели с использованием реальных данных показать, каким образом работает система и какие она может дать преимущества. На основе традиционных методов обоснования затрат разработаны процедуры, которые позволяют в цифрах выразить ценность этих преимуществ для хозяйственной деятельности конкретной компании - рассчитать отдачу от инвестиций и финансовые последствия доступа к более качественной информации. По мнению аналитиков Sequent, полная реализация проекта в соответствии с программой Decision Advantage займет не более полугода вместо традиционных для этой задачи 2-3 лет.

Нам остается только добавить, что удачно построенное хранилище данных будут использовать и аналитики, и инженеры, и торговые агенты, и менеджеры, и высший эшелон корпоративного руководства. Как показывают недавние исследования, эффективное хранилище данных способно с лихвой окупить вложенные в него немалые средства.

Литература:

М.Киселев, Е.Соломатин. Средства добычи знаний в бизнесе и финансах. //Открытые системы, № 4, 1997, с.41-44 Е.Коваленко. Система Sequent Extreme NUMA-Q. //Открытые системы, № 2,1997, с.6-13