«Открытые системы»

Конференция «Многомерное моделирование для BI-систем», организованная Sybase, оказалась интересной не только программой, но и персоналиями

Ральф Кимбалл: «Конечная цель создания хранилищ данных вполне земная; она заключается в том, чтобы показать, куда уходят деньги, откуда они приходят, где источник прибыли и как ее повысить»Нашу страну все чаще посещают признанные компьютерные авторитеты — это могут быть как руководители крупнейших компаний, так и выдающиеся ученые-эксперты (последнее, увы, случается заметно реже). Одним из таких посетителей стал Ральф Кимбалл, чей визит в столицу состоялся в связи с участием в одном из серии семинаров, проводимых компанией Sybase в разных странах. В некоторых случаях, как например в данном, Sybase проводит их самостоятельно, а иногда совместно с другими компаниями, которые входят в группу лидеров бизнеса, связанного с Business Intelligence и управлением данными.

Кимбалл, менее известный в России, чем за рубежом, относится к первому поколению специалистов, прошедших специальное компьютерное обучение. Этому поколению удалось совместить хорошее общее системное образование с профессиональным. После окончания в 1972 году Стэндфордского университета по специальности «человеко-машинные системы» Кимбалл попал на работу в Xerox PARC. Начало 70-х — период расцвета этого исследовательского центра, здесь он участвовал в разработке программного обеспечения для рабочей станции Star Workstation, ставшей, как известно, прототипом для персонального компьютера. На долю Кимбалла выпали задачи, связанные с проблемами интерфейса человека с компьютером, он стал одним из тех, кто сформировал нынешнее представление об интерфейсе, кто связал вместе на одном экране окна, пиктограммы и мышь. В 1982 году Кимбалл перешел в компанию Metaphor Computer Systems на должность руководителя разработки программного обеспечения. Создание и развитие графического пакета Capsule Facility привели его к работам, связанным с системами поддержки приятия решений (Decision Support Systems, DSS); до создания хранилищ оставался один шаг.

Говоря о Кимбалле, нельзя не упомянуть его вечного оппонента и коллегу Билла Инмона, который увлекся проблематикой DSS параллельно с Кимбаллом. Независимо друг от друга Кимбалл и Инмон пришли к идее создания хранилищ данных, с тех пор то одного, то другого называют «отцом Data Warehousing». Их судьбы тесно переплетаются в явной или неявной конкуренции. Благодаря Кимбаллу и Инмону мир хранилищ данных заметно отличается от других направлений; он стал явно двухполюсным, в нем подходы Кимбалла и Инмона взаимно дополняют друг друга.

Результаты деятельности Кимбалла оценены ИТ-общественностью, его имя высечено на скрижалях виртуального «зала славы СУБД» (Excellence in Database Technology), в котором отмечено всего около двух десятков человек.

Характерной для Кимбалла чертой, отличающей его от Инмона, является открыто демонстрируемое уважение к пользователям, стремление удовлетворить пользовательские интересы. Наверняка он сформировал в себе это профессиональное качество, разрабатывая пользовательские интерфейсы. В отличие от него Инмон сугубо формален и «математичен». В личном общении, насколько можно судить по разовым встречам, Кимбалл, условно говоря, экстраверт, а Инмон — интроверт. Может быть, по причине своей математической строгости до какого-то времени именно Инмон, побывавший в России полтора года назад, был ближе отечественному сообществу специалистов по хранению данных, отличающихся приверженностью к строгим математическим методам. Кимбалл же идет другим путем, он называет себя инженером, а не ученым. По его мнению, ученый может себе позволить бесконечно долго искать истину, а от инженера требуется создание готового работающего продукта. Кимбалл явно ближе практикам и прагматикам, он издал несколько книг, среди них особой популярностью пользуются Data Warehouse Lifecycle Toolkit и Data Webhouse Toolkit. Сегодня Кимбалл возглавляет образовательную компанию Kimball Group, где, помимо сотен публикаций, есть еще и заочный университет Kimball University.

Московский семинар был рассчитан на подготовленную аудиторию и состоял из двух основных выступлений. В первом докладе Кимбалл представил разработанную им многомерную модель данных (Dimension Model, DM), продемонстрировал ее отличия от других моделей, показал, как она может быть использована при создании хранилищ данных и систем бизнес-аналитики. А второе выступление построено в форме советов от практика практикам. Эти советы основываются на опыте создания более 30 крупных хранилищ данных.

Оба доклада были пронизаны сопоставлением работы по созданию хранилищ данных с издательской деятельностью. Кимбалл считает, что на протяжении всей многолетней истории ИТ специалисты были заняты одной стороной проблемы — они учились накапливать данные, теперь же, когда эта задача так или иначе решена, выяснилось, что надо понять, как представлять эти данные пользователям. Общность между теми, кто работает с хранилищами данных, и издателями состоит в том, что нужно не только собрать данные, но отредактировать и выдать «наружу». Поэтому критичны такие факторы, как качество данных, их актуальность, доверие к данным со стороны потребителей и удовлетворенность данными тех, кому они предназначены. Кимбалл особо акцентировал внимание на этом. Он считает, что, если заботиться только о формальных вопросах, если свести построение хранилищ только к сбору и агрегированию данных, когда усилия проектировщиков окажутся сведенными к технической стороне, пользователь окажется забыт, а цель, ради которой и создается хранилище данных, достигнута не будет.

Оба выступления Кимбалла на семинаре можно рассматривать как введение в обещанный им цикл занятий, который он намеревается провести в будущем, когда вновь приедет в Россию. Этот цикл он читает по всему миру, в программу включены три курса: «Жизненный цикл хранилищ данных» (Data Warehouse Lifecycle), «Многомерная модель» (Dimensional Modeling in Depth) и «Выделение, преобразование и загрузка данных в хранилища» (Data Warehouse ETL).

Заместитель генерального директора офиса Sybase Алена Еникеева в своем выступлении представила реляционную СУБД Sybase IQ, специально предназначенную для использования в хранилищах данных и для решения задач бизнес-аналитики. Исторически сложилось так, что все известные СУБД проектировались для оперативной обработки транзакций, и только в последующем, когда появились хранилища данных, они так или иначе адаптировались к ним. Этот класс приложений не является для подавляющего большинства СУБД «органичным». А вот СУБД Sybase IQ, созданная на основе технологии, купленной вместе с компанией Expressway в 1995 году, напротив, создавалась под хранилища (под названием Sybase IQ этот продукт существует с 1999 года). От конкурентов эту СУБД Sybase IQ отличает организация хранения данных не по строкам, как это делается во всех известных реляционных СУБД, а по колонкам. Это отличие позволяет автоматически индексировать все таблицы без избыточных расходов на хранение, управление и настройку и делает эту базу более удобной в приложении к задачам аналитической обработки, когда требуется обрабатывать сложные запросы или сканировать большие таблицы. Дополнительный плюс — снижение требований к серверному оборудованию и, следовательно, стоимости. В итоге общая стоимость владения хранилищ данных существенно понижается. Достоинства Sybase IQ оценены рынком, в 2004 году рост продаж составил 29%, в 2006-м — 34%.

С многомерным моделированием Sybase IQ роднит то, что в ней, наряду с нормализованными схемами хранения, традиционно используемыми в реляционных СУБД, есть аналоги схем «звезда», «снежинка» и «созвездие», применяемых в Dimension Model. Сочетание техники поколоночного хранения с идеями DM позволяет на практике строить структуры Rcubes (Relational Data Cubes), сочетающие лучшее из двух миров хранилищ данных.