Хранилища и карты данных

«Открытые cистемы»

Билл Инмон — 35 лет на службе одной идее

Билл Инмон: «Мы можем построить своего рода топографическую карту информационных ресурсов»

Представитель элитного круга всемирно признанных экспертов в области информационных технологий Билл Инмон в 1990 году предложил концепцию хранилища данных. В общей сложности за 35 лет своей профессиональной деятельности Инмон написал около 650 статей, 46 книг, переведенных на девять языков и изданных более чем полумиллионом экземпляров. Сегодня Инмон активно продолжает свою деятельность в качестве пропагандиста собственных взглядов и консультанта, чему посвящен сайт www.inmoncif.com, а также возглавляет небольшую компанию Inmon Data Systems.

Инмон сохраняет верность однажды избранным принципам. Много лет назад он определил, что хранилища данных представляют собой «предметно-ориентированные, интегрированные, стабильные, поддерживающие хронологию наборы данных, организованные для целей поддержки управления, оперативного анализа и принятия решений». И новые тенденции компьютерной отрасли, и технологии он рассматривает исключительно сквозь призму своих представлений.

Инмон стал гостем недавней конференции «Business Intelligence: результативность использования технологий и приложений», проведенной в конце ноября аналитической компанией IDC и издательством «Открытые системы». По ее окончании Инмон ответил на несколько вопросов нашего еженедельника, посвященных современному состоянию рынка хранилищ данных.

Как вы пришли к идее создания хранилищ данных?

Когда-то, очень давно, я был вашим коллегой, даже вел колонку в Computerworld. В конце 80-х годов в сфере моего внимания оказались реляционные базы данных. Сегодня интерес к реляционным СУБД упал, они становятся объектом критики, но тогда они находились на пике славы; естественно, я немало писал о них. Переосмыслить происходящее меня заставили письма читателей, в которых они утверждали, что в чистом виде реляционные технологии не в состоянии удовлетворить многие из их потребностей. Сила обратной связи оказалась такова, что она привела меня к идее создать средства для хранения исторических данных и перейти далее к хранилищам.

Позже вы предложили еще одну идею, которую назвали «корпоративной информационной фабрикой» (Corporate Information Factory, CIF). Скажите несколько слов о ней.

Создание хранилищ данных — важный шаг, но не единственный. Необходимость в следующем возникает вместе с осознанием, что собственно хранилище всего лишь фундамент. Для получения реального экономического эффекта необходимо построить на этом фундаменте специализированные приложения. В моей интерпретации CIF — это набор компонентов, обеспечивающих эффективное использование хранилища данных.Такие новые технологические направления, как Business Intelligence, Business Performance Management и Business Activity Monitoring, служат для создания CIF, причем, как мне кажется, особую роль играет последнее направление.

Какие тенденции в современных информационных технологиях вы считаете наиболее важными?

На первое место я ставлю системы поддержки для принятия решений, построенные на основе анализа неструктурированной информации. На второе — то, что удалось сделать для поддержки принятия решений производителями ERP-систем, особенно компанией PeopleSoft. Далеко не случаен интерес к ней со стороны корпорации Oracle.

А что вы скажете относительно grid, Web-сервисов, Semantic Web и т. д.?

Все это шумиха, просто очередные модные слова.

Несколько лет назад вы создали очередную, уже третью свою компанию, Inmon Data Systems. Какого рода программное обеспечение она разрабатывает?

Существует несколько наиболее важных областей применения хранилищ данных, но, пожалуй, на первом месте — медицина. Если в бизнесе вплоть до последнего времени данные имели по большей части транзакционное происхождение, то в медицине данные, за редким исключением, представляют собой текстовые документы, подготавливаемые вручную. Мы разработали средства для интегрированного хранения медицинских данных. Увеличение объемов неструктурированных данных в бизнесе, прежде всего электронных писем и текстовых документов, открыло для нас еще одно поле деятельности. Интегрированное хранение, скажем, писем вместе с необходимой вспомогательной информацией о времени их поступления и сведениями о корреспондентах позволяет эффективно работать с архивом писем.

Существует несколько компаний, которые объявляют о своей способности работать с неструктурированными данными. Что отличает ваши подходы и как они соотносятся с другими?

Мы работаем с разными партнерами, в том числе с компанией Documentum, дополняя ее возможности. Технологии Documentum позволяют организовывать хранение документов и доступ к ним, а мы можем построить своего рода топографическую карту информационных ресурсов. На карте мы можем распределить документы, собрав близкие по смыслу в общие «географические области», а используя раскраску, принятую на географических картах, представить информационную плотность этих документов. Голубой цвет соответствует минимальной информационной плотности, коричневый — максимальной.

А какой метрикой вы пользуетесь, измеряя плотность данных? На какое определение информации вы опираетесь?

С информацией сложности нет, информация — это данные плюс метаданные. Что касается плотности, то действительно могут быть большие, но пустые документы, а могут быть небольшие, но насыщенные, для оценки мы применяем собственные эвристические алгоритмы.

Упрощенное представление об информации может сыграть злую шутку. Допустим, у вас имеется сложный медицинский документ, в котором есть всего один простой значок, указывающий на то, жив пациент или нет…

Для большинства исследовательских целей это не имеет значения. Например, мы работаем с клиниками, которые архивируют данные за 40 лет, естественно, что большинства больных уже нет в живых. Но с индивидуальной точки зрения, конечно, этот пункт немаловажен.

Чем отличается ваша работа от того, что сейчас принято называть корпоративным поиском?

Поиск заканчивается предоставлением требуемого документа, а мы идем дальше. Прежде, чем документ попадет в хранилище, над ним выполняется ряд технологических операций, то есть мы пытаемся выделить метаданные из документов. Наш инструмент достаточно просто настраивается на любой язык, поскольку мы в основном работаем не со словами, а с символьными строками. В этом главное отличие нашего продукта от большинства аналогичных систем.

Вы исключаете значение семантики документов?

Мне трудно ответить на этот вопрос, давайте я объясню, как мы обрабатываем документы, может быть, тогда станет понятнее. Мы берем документ на естественном языке, убираем из него служебные слова, затем сводим все к корням слов, убираем синонимы и омонимы, исключаем различные написания, осуществляем внутреннюю систематизацию, то есть распределяем слова по предметным зонам, после чего выполняем внешнюю систематизацию по так называемым «онтологиям». Полученный результат мы помещаем в хранилище данных, в реляционном формате, в любую стандартную СУБД. К результатам можно применять логику вероятностного совпадения и таким образом анализировать данные.

Мы разрабатывали эту технологи три года, получили 27 патентов и сейчас выходим с ней на рынок.