Какой бы привлекательной ни казалась такая задача, но создание настоящего информационного склада может стать очень трудным делом


Мощный инструментарий
Основа
Транспортировка и очистка
А что же напоследок?
Подведем итоги
Совет по мета-данным
Виртуальный информационный склад, или быстрое решение

Идея создания информационного склада (data warehouse) звучит обезоруживающе просто. Это определенное место, выделенное в компьютерной сети предприятия, где любой пользователь может добыть самые свежие, эффективно организованные, удобно представленные и готовые к использованию данные.

Подобно товарам в гигантских супермаркетах, данные стекаются в информационный склад из различных баз данных на рабочих местах, сортируются, очищаются, объединяются с другими данными и раскладываются по предназначенным для них местам до тех пор, пока не подойдет покупатель-пользователь и не бросит в свою корзину нужную ему порцию информации.

Хотя такой принцип организации информации может показаться достаточно простым, на самом деле создание информационного склада - чрезвычайно сложная задача. Поэтому компании, пытающиеся решить ее, часто производят на свет нечто, сильно отличающееся от только что описанной модели. Вместо нее они зачастую создают, образно говоря, информационную времянку. Как говорит Гарри Циммер, руководитель отдела технологий компании AT&T Global Information Solutions, результат больше напоминает наскоро организованную кладовку с "грязными", неполными и устаревшими данными, плохо отвечающими реальным производственным потребностям. Или получившийся склад может быть похож на какой-нибудь чулан - в том случае, если низкий уровень финансирования и недостаточно серьезный подход при организации склада в сочетании с плохо определенными потребностями пользователей приводят в к появлению структуры, готовой рухнуть под собственной тяжестью. А возможно, получится и что-то вроде информационной западни, откуда, раз попав в нее в поисках данных, ни один пользователь не в состоянии будет выбраться без риска для собственного рассудка.

В отличие от реализации какой-либо из только что описанных возможностей, которые никак нельзя назвать привлекательными, задача построения действительно надежного информационного склада, мягко говоря, очень сложна. Специалисты считают, что на его создание придется затратить от двух до трех лет и два-три миллиона долларов.

Предчувствуя рост популярности информационных складов, а значит, и увеличение расходов на них со стороны корпоративных пользователей (согласно исследовательской компании Meta Group, расходы могут возрасти с 2,7 млрд. долл. в прошлом до 13 млрд. долл. в 1997 году), любая компания, продукция которой имеет отношение к хранению информации или к организации доступа к данным, стремится сегодня стать причастной и к производству информационных складов.

Как бы ни хотели администраторы корпоративных информационных систем подходить к решению вопроса о создании складов данных таким же образом, как они решают проблемы организации финансового или производственного планирования, а именно, покупая у одного производителя законченный программный пакет соответствующего назначения, но такой возможности для информационных складов сегодня не существует. Вместо этого, работа с информационной системой требует применения целого спектра рабочих программ.

Но еще до того, как воспользоваться ими, администратор информационной системы должен получить ответы на широкий круг вопросов относительно того, какой именно склад данных он собирается создать.

Например, что конкретно хранится в базах данных? Каким образом эти данные должны быть переданы в информационный склад и помещены там в нужное место? Как гарантировать точность информации, хотя бы на самых основных уровнях? Что, например, Джо Блоу, Дж. Блоу и Джозеф Блоу - это действительно один и тот же клиент? Что доход в 10 млн. долл. от продаж новым покупателям, о котором сообщает южноамериканское отделение, - это не то же самое, что суммарный доход в 5 млн. долл. от продаж новым покупателям и 5 млн. долл. от продаж ранее зарегистрированным клиентам, о которых сообщает североамериканское отделение? И как пользователи будут находить информацию на таком информационном складе и извлекать ее оттуда?

Мощный инструментарий

Роберт Шейер, старший аналитик консультативной компании Hurwitz Consulting Group (Ньютон, шт. Массачусетс), выделяет следующие семь групп рабочих программ, которые потребуются, чтобы найти ответ на все эти вопросы и построить эффективный информационный склад:

  1. Инструментальные программы моделирования данных;
  2. Хранилище мета-данных;
  3. Центральная база данных;
  4. Программы транспортировки данных;
  5. Инструменты извлечения, очистки и сортировки данных;
  6. Связующее ПО (middleware), обеспечивающие совместимость данных разных типов;
  7. Пользовательские программы доступа к данным.

Кроме этого, нужны еще программы управления информационным складом, программы тиражирования и синхронизации различных складов, программы для разработки приложений, использующих при работе склад данных, и много других.

Программы моделирования данных, составляющие первую группу в этом списке, позволяют создателям информационного склада определять, с какими данными им приходится иметь дело, что эти данные означают, как они соотносятся с другими данными и кто их использует. Инструменты моделирования данных обычно ассоциируются с системой автоматизированной разработки программ или с усовершенствованной системой разработки приложений, но их можно использовать и при создании информационного склада.

"Для того чтобы установить взаимосвязь между различными данными, нам пришлось создать карты связей между объектами, воспользовавшись для этого программой Visual Analyst Workbench компании Visible Systems, - рассказывает Лоретта Уоллес, старший аналитик в области бизнеса Зерновой комиссии Канады (Виннипег, пров. Манитоба). - Затем мы обсудили эти карты с пользователями, чтобы убедиться в том, что они получат именно ту информацию, которая им нужна".

С этапа моделирования данных началось построение информационного склада и в компании Digital Equipment, основанного на СУБД Rdb. Эта база данных предназначена для работы на системах VAX, а пользователи ПК могут подключаться к ней, применяя программный пакет BusinessObjects, созданный компанией с почти таким же названием, Business Objects, Inc.

Вторая группа, хранилище мета-данных, содержит информацию о данных: о том, где они хранятся, каков путь доступа к ним, их формат, тип и т.п. В идеальном случае, к такому хранилищу должен иметь доступ широкий спектр рабочих программ - от программ моделирования данных до программ доступа к данным конечного пользователя. "Мы использовали программу компании Visible Systems в качестве словаря мета-данных", - говорит Вернон Чин, администратор базы данных компании Tokio Marine Management в Нью-Йорке, которая занимается страхованием имущества и жизни от несчастных случаев. Эта компания сейчас находится на одной из начальных стадий создания своего информационного склада, базирующегося на принципе исчерпывающего моделирования данных, который разработан этой же компанией. Теперь Tokio Marine Management переходит к анализу и рассмотрению других рабочих программ из приведенного выше списка.

Однако все эти программы определяют мета-данные каждая на свой лад. Поэтому в информационной системе приходится предусматривать интеграцию различных специфических вариантов мета-данных или обеспечивать возможность управления различными их версиями. К сожалению, на сегодняшний день не существует универсального формата мета-данных. (Для решения этой задачи сейчас образована специальная промышленная группа, называющаяся Советом по мета-данным, Metadata Council. Подробнее о ней см. врезку на этой странице). "Было бы прекрасно, если бы инструменты могли осуществлять параллельный доступ к мета-данным, но это не так. Поэтому мы вынуждены мириться с необходимостью поддерживать несколько наборов мета-данных, относящихся к одной и той же информации", - поясняет Чин.

Большинство пользователей, однако, не вникали пока столь глубоко в вопрос о мета-данных, чтобы осознать его как серьезную проблему. "Мы только начали заниматься мета-данными, - говорит Марк Зозуля, руководитель отдела по управлению информационными ресурсами компании Moen (г. Норт-Ольмстед, шт. Огайо), являющейся ведущим производителем водопроводных кранов. - Мы пока обсуждаем, каким образом мы будем решать этот вопрос, но еще не занялись им вплотную". Компания Moen уже завершила первый этап создания своего информационного склада, в результате чего пользователям стала доступна информация по сбыту продукции компании.

Основа

Вопрос о базе данных, лежащей в основе информационного склада, тоже часто вызывает споры, поскольку разные разработчики предлагают использовать разные типы баз данных. На самом деле центральная база данных может быть любой: реляционной, нестандартной или содержащей плоские файлы, считает Шейер. В принципе, идея склада данных не связана жестко с каким-то одним типом базы данных.

Некоторые производители, например, компания Red Brick Systems, широко рекламируют свои базы данных как оптимизированные для информационных складов. Есть, однако, разные мнения по поводу того, необходима ли такая оптимизация. "Специализированная база данных не нужна", - считает Уэйн Экерсон, старший консультант компании Patricia Seybold Group (г. Бостон, шт. Массачусетс). Но, добавляет он, такие производители действительно обладают значительным опытом в создании складов данных, и это может оказаться полезным в случае, когда какой-нибудь компании требуется создать особенно большой и сложный информационный склад.

Разработчики многомерных баз данных тоже включаются в разработку информационных складов, так как считают, что такое приложение привлечет покупателей и к другой их продукции. И хотя серьезность роли баз данных с многомерным анализом в информационном складе ни у кого не вызывает сомнения, аналитики все больше сомневаются в целесообразности использовать многомерную базу данных как основу информационного склада.

Экерсон считает, что многомерный анализ может выполняться в рамках реляционного механизма, как это сделала, например, компания Oracle, приобретя компанию IRI Software, или же быть внешним по отношению к базе данных информационного склада. "Мы используем Oracle в качестве основы нашего склада данных", - говорит Зозуля. "После того, как мы выбрали Oracle, для проведения многомерного анализа мы стали использовать базу данных PowerPlay компании Cognos, отдав ей предпочтение перед многомерными базами данных. Проблема с ними в том, что все они нестандартные. Oracle более открыта в том смысле, что ее структуру поддерживает очень много готовых приложений и рабочих программ", - поясняет он. Поскольку в их складе данных хранится всего около 10 Мбайт информации, Зозуля не видит необходимости в специализированной базе данных.

Транспортировка и очистка

Четвертая группа в списке, программы транспортировки данных, предлагаются компаниями Platinum Technology, Legend и другими. Задача этих программ - перемещение копий данных с рабочих мест в склад данных и распределение их там в соответствующем порядке. Они также осуществляют предварительное преобразование информации, переводя ее из расширенного двоично-десятичного кода, который используется в компьютерных системах на рабочих местах, в формат ASCII.

Пятая группа, инструменты очистки и стандартизации данных, помогают привести к единому виду информацию, поступающую из разных источников. Под этим понимаются такие операции как идентификация и объединение повторных записей одних и тех же данных, стандартизация сокращений и коррекция полей записи данных, имеющих разные длины. В некоторых случаях эти операции могут быть объединены.

Грэг Дзивечинский, администратор информационной системы штата Миннесота (г. Сент-Пол), считает, что "этапа подготовки данных избежать невозможно". Информационный склад штата предоставляет различным агентствам и законодателям Миннесоты информацию из компьютерных систем государственных учреждений, которые используются в таких сферах как ведение бухгалтерского учета, выдача заработной платы, снабжение и кадровый учет. В основу склада данных штата положена база данных IBM DB2.

Группа, работавшая над созданием этого информационного склада, использовала программу Passport компании Software AG. С ее помощью информация извлекалась из баз данных на рабочих местах и подготавливалась к использованию в информационном складе.

Компания GERS Retail Systems, расположенная в Сан-Диего (шт. Калифорния) и предоставляющая магазинам розничной торговли сопутствующую информацию о товарах, при построении своего информационного склада, основанного на базе данных Oracle, надеется обойтись без трудоемкой фазы очистки и стандартизации данных. Но это может стать возможным лишь потому, что компания дала себе труд позаботиться о соответствующей подготовке данных на более ранних этапах, еще до того, как они попадут в информационный склад. "Мы производим эти операции еще на рабочих местах, - говорит Дин Уорра, специалист по системам управления базами данных компании GERS. - Мы работаем только с Oracle и сделали ее нашим внутренним стандартом".

Как рассказывает Марк Зозуля, в компании Moen подготовка данных связана с расшифровкой огромного количества кодов, обозначающих различные аспекты информации о сбыте товаров. Эти коды накопились в складе данных в результате реализации первого этапа его построения. Зозуля отмечает, что необходимо предусмотреть и возможность произведения операции, обратной стандартизации данных. Это нужно для того, чтобы сделать информацию более удобочитаемой для конечного потребителя. Базы данных с высокой степенью стандартизации могут способствовать повышению эффективности работы систем на рабочих местах, но вместе с тем стандартизация вынуждает широко использовать соединения в типичных запросах к базам данных.

Необходимость в программах шестой группы, то есть в связующем ПО, призванном обеспечить совместимость данных, возникает на том этапе, когда части исходной информации стекаются из разных источников, например, из баз данных, входящих в систему IMS и установленных на рабочих компьютерах, и из различных реляционных баз данных на серверах.

Связующее ПО, часто в форме шлюзов, соединяет различные по своему характеру источники информации со складом данных и обеспечивают трехуровневый подход, при котором информация из многочисленных баз данных может быть предварительно собрана на сервере и только после этого передана клиенту.

Среди компаний, занимающихся разработкой программ класса middleware, можно упомянуть следующие: Information Builders (программа EDA/SQL), Sybase (поставляет программу MDI), TechGnosis (программа SequeLink; недавно права на нее были приобретены компанией Intersolv), Trinzic (выпускает программу InterHub). Нужно отметить, что почти все ведущие производители баз данных тоже выпускают нечто подобное.

А что же напоследок?

Наконец, седьмая группа программ призвана удовлетворить потребность конечных пользователей быстро находить в складе данных и получать доступ к нужной информации, поскольку те дни, когда пользователи довольствовались получением от информационной системы десятка разрозненных ответов на свои запросы, теперь ушли в прошлое.

Идея информационного склада в том и состоит, чтобы пользователи могли исследовать хранящиеся в нем данные настолько подробно, насколько им это требуется, и имели возможность посылать в ходе работы новые запросы, получая дополнительную информацию по мере необходимости. Для решения этих задач производители предлагают все больше и больше соответствующих программ: это, например, электронные таблицы Lotus 1-2-3 компании Lotus Development и Excel компании Microsoft, базы данных для настольных ПК, внешние программы доступа к данным типа BusinessObjects, Impromptu, Forest&Trees компании Platinum, а также компоненты довольно сложных систем вроде SAS и Software AG. Трудности при реализации таких программ связаны прежде всего с проблемами стандартизации данных.

Лучшими программами можно считать те, которые скрывают от пользователя за понятными ему названиями структуру базы данных, с которой эти программы взаимодействуют, и избавляют его от необходимости разбираться в языке структурированных запросов. При отсутствии какого-либо стандарта для интерфейсных программ информационная система будет работать как бы "за сценой", создавая и поддерживая многочисленные абстракционные уровни, которые упростят конечным пользователям доступ к интересующим их данным.

Способ доступа конечных пользователей к данным является одним из ключевых различий между складом данных старого типа и таким, который создает компания Moen. Раньше лишь горстка профессионалов с обширными познаниями и некоторые программисты могли пользоваться программой Focus компании Information Builders, предназначенной для генерации отчетов на основе данных, извлеченных из информационного склада старого типа, построенного на СУБД IDMS компании Computer Associates International. "Поскольку лишь считанное число людей могло работать с программой Focus, у обычного пользователя могло уйти несколько дней на получение отчета", - говорит М. Зозуля. И при этом отчет получался статичным: если пользователь хотел уточнить какой-либо аспект данных, то это требовало генерации нового отчета, что вело к новой задержке.

В новой системе в качестве инструмента доступа к данным используется программа Impromptu, разработанная компанией Cognos. Конечные пользователи могут самостоятельно применять ее для доступа к данным, хранящимся в информационном складе, и для этого им не требуется знать структуру данных или владеть программированием на языке структурированных запросов. С помощью этой программы они могут вести поиск данных, уточнять интересующие их подробности и, если нужно, копировать информацию в электронные таблицы на своих настольных системах для ее дальнейшего анализа.

Подведем итоги

Поскольку информационный склад состоит из такого большого числа разных компонентов, то вполне естественно, что "пользователи проявляют растущий интерес к возможности покупки законченного решения", отмечает Билл Гэннон-мл., заместитель руководителя отдела исследований компании Sentry Market Research (г. Вестборо, шт. Массачусетс). Поэтому одни компании-производители программного обеспечения, работающие в этой области, стараются либо слиться с другими, либо организовать различных форм союзы, чтобы совместными усилиями обеспечить появление большинства программных компонентов, которые составляют информационный склад и о которых шла речь выше.

Например, компания Pyramid Technology начала разработку программы, названной Smart Warehouse, которая включает в себя программы и услуги целого ряда других производящих и консультативных фирм: Business Objects, Carleton, Computer Associates, Information Builders, Platinum, Stanford Technology Group, Information Harvesters, American Management Systems, Coopers & Lybrand и других.

Аналогичным образом IBM привлекла к сотрудничеству большую группу компаний, создающих программы аналитической обработки в реальном масштабе времени. Цель этого союза - интегрировать продукцию его членов с информационным складом IBM, основанном на СУБД DB2 компании IBM, называемой также Visual Warehouse Solution. В союз входят компании Arbor Software, Business Objects, Pilot Software, Information Advantage и Vality Technology.

Тем временем пользователи пытаются сдержать рост цен на информационные склады, создавая небольшие, узкоспециализированные склады данных, которые называются центрами данных. "Можете мне поверить, что мы не потратили на нашу систему двух миллионов долларов и двух лет работы, - говорит Дзивечинский, рассказывая о выбранной его организацией политике экономии средств. - Мы имеем дело только с небольшой частью всего информационного массива, которая поддается управлению - бухгалтерский учет, выдача зарплаты, снабжение и учет кадров". Если бы администратор информационной системы штата попытался втиснуть в склад данных всю информацию, используемую федеральными агентствами, его стоимость заведомо превысила бы несколько миллионов долларов, добавляет Дзивечинский.

Компания Moen тоже избрала тактику постепенного наращивания объемов. "Мы реализовали первую фазу создания склада за шесть месяцев, и это обошлось почти в 350 тысяч долларов, - говорит Зозуля. - Наша тактика состоит в том, что мы делаем работу поэтапно. Если попытаться сразу собрать всю имеющуюся информацию, это будет стоить намного дороже".

На первом этапе компания Moen занялась сохранением данных о сбыте своей продукции. На втором этапе будут сохраняться более подробные данные о покупателях и продаваемой продукции, а также некоторая финансовая информация, что позволит администрации компании анализировать доходность различных видов продаж. На третьем этапе очередь дойдет до сохранения служебной информации, например, о том, насколько хорошо компания выполняет заказы.

Чем глубже компании осознают важность информации как стратегического оружия, тем более важную роль в их деятельности начинает играть информационный склад. Однако создать его не так-то просто. Администраторы информационных систем, пытающиеся решить эту задачу, должны браться за нее с большой осторожностью. Иначе вместо информационного склада у них может получиться какое-нибудь информационное недоразумение.


Алан Рэддинг - независимый журналист (Ньютон, шт. Массачусетс).

Совет по мета-данным

Мета-данные - то есть данные о данных - это тот цемент, который скрепляет отдельные блоки здания информационного склада и превращает его в одно работоспособное целое. Это информация об исходных данных: что они собой представляют, где они хранятся, что они означают и как их можно разыскать и обновить.

Практически любая рабочая программа информационного склада использует мета-данные при соей работе. Моделирующие программы используют их для того, чтобы установить взаимосвязи между данными. Программы извлечения и транспортировки информации тоже используют их, чтобы найти правильную информацию, преобразовать ее и поместить на предназначенное ей место в информационном складе.

Инструменты очистки, стандартизации и объединения данных тоже не могут работать без мета-данных. И только благодаря семантическому уровню, который построен из мета-данных, инструменты доступа к исходной информации позволяют скрыть от конечного пользователя всю сложность ее структуры. Благодаря этим программам пользователь может осуществлять доступ к данным и работать с ними, не испытывая затруднений.

Но есть одна проблема. "Все форматы представления мета-данных жестко связаны с конкретной рабочей программой, которая их использует, - говорит Карен Рубенстранк, руководитель отдела разработки прикладных программ компании Meta Group (г. Уэстпорт, шт. Коннектикут). - С ростом объема информационного склада растет и серьезность проблемы синхронизации мета-данных".

Поэтому несколько компаний во главе с компанией Meta Group объединились в консорциум, названный Советом по мета-данным (Metadata Council), с целью создать интерфейс прикладного программирования для мета-данных, который был бы общим для всех производителей и характеристики которого определялись бы промышленностью и поддерживались ею. При наличии такого стандарта однажды определенный формат мета-данных использовался бы всеми инструментами.

Первоначально основанный компаниями Arbor Software, Business Objects, Cognos, Evolutionary Technologies, Platinum Technology и Texas Instruments, Совет по мета-данным уже пополнился новыми членами. В официальной публикации Совета были очерчены предполагаемые направления действий и предложен стандарт обмена мета-данными. Первая версия спецификации была завершена к концу 1995 года. Появления инструментальных средств, поддерживающих этот стандарт, следует ожидать в текущем году.


Виртуальный информационный склад, или быстрое решение

Возможно, ваша фирма еще не готова к созданию настоящего полномасштабного информационного склада. В этом случае вас может заинтересовать разработка компании Intersolv: она предлагает виртуальный склад данных - некое подобие информационного универсама, которое можно реализовать, затратив лишь небольшую долю времени и средств, требующихся для создания настоящего информационного склада.

Если присмотреться более внимательно, то окажется, что виртуальный склад данных, предлагаемый компанией Intersolv, довольно сильно напоминает программу доступа к данным, использующую метод запроса по образцу, то есть несколько усовершенствованную и переименованную программу Explorer. На самом же деле никакого информационного склада нет. Исходная информация остается в базах данных на рабочих местах.

Виртуальный склад данных всего лишь более удобно организует и упрощает для конечного пользователя процесс доступа к данным. Этот подход похож на тот, который организован в рабочих программах доступа к данным BusinessObjects компании Business Objects и CrossTarget компании Dimentional Insight. "Intersolv создает открытый семантический уровень соответствий", - поясняет Уэйн Экерсон, сотрудник компании Patricia Seybold Group. Именно этот уровень соответствий, который Intersolv называет SmartData, скрывает от пользователя сложную структуру многочисленных внутренних источников данных и позволяет ему осуществлять доступ к информации, например, в разделе "Сбыт", не имея представления о том, откуда на самом деле поступает интересующая его информация.

Другие программы тоже создают уровень соответствий, но реализуют его нестандартными способами. Компания Intersolv, являясь разработчиком драйверов ODBC (Open DataBase Connectivity), использует этот интерфейс, ставший промышленным стандартом для организации доступа к данным.

Виртуальный склад данных не решает проблемы замедления работы баз данных на рабочих местах, когда к ним обращается с запросами интерактивная система поддержки принятия решений. Таким образом, виртуальный склад может быть наиболее полезен в случае хранения относительно небольших объемов информации, когда информационная система может обеспечить быстрый доступ пользователей к интересующим их данным. В этом случае виртуальный склад данных можно рассматривать как промежуточный этап на пути к созданию настоящего информационного склада. Даже сама компания Intersolv признает, что виртуальный склад данных не может заменить настоящего информационного склада.

Боб Пристли, консультант компании Clearview Software International (г. Даллас, шт. Техас), создал для Американской ассоциации по проблемам болезней сердца (American Heart Assocation) виртуальный склад данных, использовав программы, предлагаемые фирмой Intersolv. Этот склад позволяет финансовым руководителям ассоциации осуществлять доступ к данным, хранящимся в базе данных Solomon Financials, которая разработана компанией Solomon Software. "Я использую SmartData при создании наборов данных для пользователей, - говорит Пристли. - Я произвожу все соединения. Пользователи же видят в полях записи лишь те названия, которые им уже знакомы".

Пристли рассказывает, что составление одного отчета, для генерации которого программе Solomon Financials потребовалось 8 часов работы, заняло всего лишь 7 минут рабочего времени у программы, состоящей из серии микрозапросов и которая была создана с помощью SmartData. Но несмотря на успешную работу виртуального склада данных Ассоциация по проблемам болезней сердца, вероятнее всего, все же займется созданием полноценного информационного склада.

Поделитесь материалом с коллегами и друзьями