White Papers

Настоящая статья посвящена принципам новой коммерчески распространяемой архитектуры, которая может быть реализована уже сегодня и обеспечивает значительное повышение эффективности центра обработки данных.

Внесение ясности в процесс разработки встраиваемых систем и приложений реального времени с целью повышения продуктивности и качества продуктов

Открытые системы

Устройство и назначение хранилищ данныхВерсия для печати

Наталья Дубова, osmag@osp.ru




Думайте сами, решайте сами

DSS в мире телекоммуникаций

Трудная дорога к складу данных

Конкретные решения

Со времен UNIVAC и МЭСМ мы используем компьютеры не только для сложных расчетов, но и как средство накопления данных. Теперь настало время превращать залежи электронной информации в реальную прибыль. Ведь ни для кого не секрет, что успех в бизнесе сейчас напрямую зависит от того, насколько эффективно компания использует свои же информационные системы - накопленные данные могут стать базой для принятия стратегических решений. Однако для этого необходимо извлечь из них полезную информацию, которую уже можно будет подвергнуть специальному анализу. Хранилища данных создают информационную базу, в частности, для работы систем поддержки принятия решений (DSS). Благодаря хранилищам данных компания может применять информационные технологии для совершенствования своих бизнес-процессов с тем, чтобы выбиться в лидеры в условиях жесткой конкуренции.

Писать статью о хранилище данных довольно трудно, поскольку это не программный продукт с определенной архитектурой и не некое единое аппаратное решение. Речь идет скорее о процессе организации и поддержки данных, для которого, как правило, требуется интеграция систем и услуг различных компаний. Поэтому для начала имеет смысл сформулировать общие принципы построения хранилищ данных.

Итак, хранилища данных - это прежде всего подмостки, где разворачивается действие пьесы под названием DSS. Здесь должна быть представлена информация, отражающая различные направления деятельности компании и пригодная для проведения всестороннего анализа. Хранилище данных выполняет следующие функции:

  • собирает информацию из различных источников, прежде всего из корпоративных оперативных приложений, а также от внешних источников, например, организаций по исследованию рынка, лабораторий по оценке качества, консалтинговых компаний и независимых аналитиков;
  • интегрирует данные в логические модели по определенным предметным областям;
  • хранит информацию таким образом, чтобы она была легко доступна и понятна различным категориям пользователей;
  • предоставляет данные разнообразным DSS-приложениям.

Хотя вариантов построения информационных хранилищ существует множество, все же можно выделить несколько базовых характеристик, присущих большинству складов данных. Их авторство приписывают одному из крупнейших специалистов в области хранилищ данных Биллу Инмону.

Следует подчеркнуть, что корпорация работает с двумя разными типами информации. Постоянно изменяемые базы данных систем оперативной обработки транзакций (OLTP) содержат детальную информацию по определенному бизнес-процессу. Пригодные для анализа данные информационного склада содержат обобщенные сведения по достаточно широкой предметной области, которая может охватывать различные направления бизнеса. Данные со склада не просто фиксируют события, но и отражают определенные тенденции, например, недельные продажи, выполненные различными филиалами фирмы за последние пять лет, сгруппированные по типу товаров. Возможность работы конечных пользователей с форматом оперативных данных не предусмотрена. Структура бизнес-данных сложнее, но их формат обычно специально организован в расчете на финансового менеджера или работника сервисной службы.

Основные характеристики хранилищ данных
  1. Данные организованы по предметным областям. В предметной области собирается вся информация, которая имеет отношение к определенной теме, представляющей интерес для компании. Например, в информационном складе железнодорожной компании предметная область «Поезда» содержит все данные о движении составов, полученные из различных оперативных систем компании.
  2. Данные интегрированы. Данные, поступающие в хранилище из оперативных приложений, необходимо привести к некоторому общему формату. Возможно, потребуется произвести «чистку» и «проверку» оперативной информации, полученной в режиме реального времени. Данные могут быть избыточными, храниться одновременно в нескольких местах, быть синхронизированными или несинхронизированными между собой и иметь противоречивое представление. Например, в отделениях международного банка в разных странах сведения о счетах могут храниться в совершенно различных базах данных и отражать, естественно, состояние дел в национальной валюте. Для проведения общего анализа эти данные необходимо привести к одной и той же валюте и представить единый обменный курс на определенный момент времени. Должны быть устранены такие аномалии, как повторение одного и того же имени у разных данных, использование разных имен для одних и тех же данных и т.д.
  3. Информация в хранилище данных стабильна. Данные загружаются в хранилище и затем предоставляются системе поддержки принятия решений. Важно отметить существенную разницу между оперативными данными и данными, пригодными для анализа. Оперативные, или транзакционные данные - это детальная информация о сделанных заказах, выписанных счетах, денежных переводах. Они предназначены для приложений, которые выполняют повседневные задачи. Поэтому оперативные данные быстро и часто изменяются, существуют в реальном времени (каждое последующее значение заменяет предыдущее), тесно привязаны к конкретному приложению и, как правило, имеют сложный для понимания конечным пользователем формат. В отличие от оперативных данных информация в хранилище меняется тогда, когда этого захочет пользователь. Она загружается в хранилище через определенные промежутки времени и является непротиворечивой благодаря проведенным преобразованиям оперативных данных.
  4. Информация отражает историю изменения данных. Хранилище данных представляет собой последовательность моментальных снимков корпоративной информации через определенные, заранее заданные промежутки времени. Хранилище может пополняться ежедневно, еженедельно или ежемесячно - это определяется в процессе его организации. Главное, что аналитик получает не только абсолютное значение величины, но и возможность проследить историю ее изменения за определенный период времени. Маркетинг-менеджер, например, сможет посмотреть, как шла реализация товара в течение трех лет, анализируя данные о продажах, которые накапливались в хранилище к концу каждой рабочей недели.

Исходные данные для хранилища поступают из БД, поддерживающих различные бизнес-процессы компании, а также из внешних источников. Исходные данные предварительно должны быть обработаны, чтобы противоречия реального времени не мешали использовать информацию. Помимо просто обработанных данных на информационном складе могут размещаться производные данные и данные об изменениях. Первые представляют собой данные реального времени или обработанные данные, обобщенные для простоты дальнейшего использования. Манипулирование большими объемами данных в исходном виде создает колоссальную нагрузку на процессоры. С другой стороны, конечным пользователям могут понадобиться не детальные отчеты, а обобщенная информация, для хранения которой необходима отдельная база данных. Использование обобщенных данных снижает нагрузку на вычислительные системы и сокращает время отклика приложений.

Данные об изменениях представляют собой запись всех модификаций некоторых данных реального времени. Эти записи накладываются на шкалу времени для отслеживания скорости изменений. Информация этого типа позволяет анализировать тенденции или состояние на определенный момент времени. Например, банк может проследить динамику вкладов в отделениях определенного региона и оценить ее влияние на организационную структуру и потоки наличных денег. Исторический взгляд на события имеет большое значение для принятия перспективных решений.

Важнейший компонент хранилища данных - метаданные, или данные о данных. Это информация о том, что представляют собой данные хранилища, их основные типы, элементы и структура, процессы преобразования, где хранятся данные, как получить доступ к ним и т.д. Доступ к метаданным должны иметь все программы, обслуживающие и использующие хранилище данных. Метаданные особенно важны для тех пользователей, которые разрабатывают собственные аналитические приложения, поскольку им необходима достоверная информация о том, какие данные доступны, что они из себя представляют, как давно обновлялись и т.д. По мере развития концепции хранилищ данных интерес к метаданным начинают проявлять не только профессиональные программисты, но и менее искушенные конечные пользователи. Поэтому возникает необходимость в специальных средствах, облегчающих поиск и использование метаданных. Над стандартизацией интерфейсов прикладного программирования для метаданных работает специальный Совет по метаданным (Metadata Council), организованный рядом компаний во главе c Meta Group.

Среда хранилища данных - это сложный конгломерат разнообразных инструментов и функций, реализующих непрерывный процесс создания, эксплуатации, постепенного расширения и изменения информационного склада. Основными компонентами такой среды являются программы доступа к источникам данных, инструменты преобразования оперативных и внешних данных, сервер базы данных хранилища, программа управления хранилищем (администратор) и склад метаданных. На рис. 1 приведена схема процесса перехода от необработанных данных к деловой информации, которую можно использовать в среде поддержки принятия решений.



Рис. 1. Переход от данных к деловой информации с помощью хранилища данных

Данные поступают в хранилище из внутренних оперативных приложений и внешних источников, затем обрабатываются и помещаются в разделы хранилища, соответствующие структуре предметной области. Деловые форматы представления данных разрабатываются как часть этой структуры и предоставляются конечным пользователям. Администратор хранилища создает и поддерживает склад метаданных, который является основой для всех процессов в хранилище и для обеспечения конечных пользователей доступом к информации в нем.

 Думайте сами, решайте сами

Сегодня в сфере розничной торговли, в банковской системе, на рынке телекоммуникаций, в инвестиционных и страховых компаниях, в государственных структурах и во многих других областях успех организации часто напрямую зависит от того, насколько полную информацию она имеет о своей клиентуре и состоянии рынка и насколько эффективно способна использовать эту информацию для принятия решений. Поэтому системы поддержки принятия решений на основе хранилища данных сегодня уже перестают быть роскошью.


1 2 3 4

17.04.1998г


Также в разделе:

Новости ОСП-ТВ - 19.03.10


17/04/1998 №04

НОВОСТИ

Пятая версия 64-разрядной ОС IRIX Триумф консалтинга в России Alpha 21264 живее всех живых Unicenter TNG в МДМ-Банке ... а Tivoli на международном рынке VISA по Internet SCO на подъеме Мода



Эта рубрика в архиве
Список номеров за



OSP.RU :: Написать письмо.