Данных - больше, доступ - лучше | Computerworld Россия | Издательство «Открытые системы»

Пользователи получают улучшенные средства доступа к массивам данных

Джефф Рейкес: «XML революционным образом изменит порядок прохождения данных внутри организации»

Корпорации IBM и Microsoft реализуют стратегии интеграции программных средств бизнес-интеллекта (business intelligence — BI) и инструментов управления знаниями, ставя своей целью создание нового поколения программного обеспечения, которое будет обрабатывать как структурированные, так и неструктурированные данные.

В случае успешного завершения этих проектов пользователи получат улучшенные средства доступа к большим объемам данных.

«Цель нашего проекта заключается в том, чтобы предоставить заказчикам программное обеспечение, с помощью которого можно будет единообразно обращаться ко всей корпоративной информации, — пояснил научный руководитель лаборатории IBM Research Анан Джингран. — Новая модель поддерживает структурированные и неструктурированные данные, позволяет анализировать их и выявлять имеющиеся между ними связи».

По словам Джинграна, необходимо ликвидировать пропасть между островами неструктурированными и структурированными данными: «Для того чтобы эффективно использовать имеющиеся знания, их следует объединить в одно целое. В перспективе ни один из источников или типов информации не будет обрабатываться автономно».

Джингран называет свою инициативу «браком» между традиционным образом структурированными данными систем бизнес-интеллекта и системами управления знаниями, в которых большая часть информации представлена в неструктурированной форме. К примеру, любой пользователь ПК привык иметь дело с неструктурированной информацией в популярных приложениях Word и Excel. Объединение этих неструктурированных данных со структурированной информацией, хранящейся в базах данных, повышает удобство работы с корпоративными знаниями в целом.

Другой составной частью стратегии IBM является использование Internet в качестве ключевого источника данных. Для решения этой задачи нужен механизм обработки естественного языка, позволяющий программному обеспечению выявлять нечто большее, чем просто набор ключевых слов. Компьютеры должны понимать разницу между словосочетаниями «сильное интервью» и «интервью сильно разочаровало».

«Данные, хранящиеся в корпоративных сетях intranet, имеют исключительную и очевидную ценность, — заметил Джингран. — То же самое можно сказать и об информации, размещенной в Internet. Однако сложность состоит в том, что Internet общедоступна и там содержится много мусора. Необходимо отсеять все ненужное и сосредоточиться на том, что действительно важно. IBM намерена добиться этого путем применения масштабируемых алгоритмов, в частности алгоритмов обработки текста».

Пэт Селинджер, один из руководителей данного проекта IBM, сообщила, что к концу текущего года планируется начать тестирование бета-версии программного обеспечения. Окончательный его вариант должен появиться в начале, а вторая версия станет доступна в конце будущего года.

К настоящему моменту в IBM еще не определили, сохранится ли новая технология в автономном виде или же она войдет в состав какого-то другого программного продукта.

Со своей стороны вице-президент корпорации Microsoft Джефф Рейкес сообщил о проекте Organizational Intelligence, который разрабатывается сотрудниками подразделения Microsoft Research. Основная цель этой инициативы — повысить эффективность взаимодействия различных приложений и увеличить объем информации, доступной пользователю.

В соответствии с планами Microsoft язык XML должен стать основной технологией обработки информационных потоков. «XML революционным образом изменит порядок прохождения данных внутри организации», — добавил Рэйкс.

Такое применение XML как раз и лежит в основе концепции Organizational Intelligence. Она ориентирована на повышение эффективности взаимодействия, мобильности, удобства совместного использования информации и бизнес-процессов, а также на обеспечение обращения как к структурированным, так и к неструктурированным данным посредством механизмов, которые Microsoft называет порталами знаний.

Представитель Oracle заявил, что его корпорация уже имеет в своем распоряжении технологии, позволяющие объединять структурированные и неструктурированные данные.

К примеру, файловая система Oracle iFS (Internet File System) предназначена для работы с самыми различными типами данных, в том числе с плоскими файлами, аудио- и видеоинформацией. Кроме того, у Oracle имеются инструменты создания отчетов для средств бизнес-интеллекта, механизм interMedia для синтаксического анализа неструктурированных данных, а также компоненты Ultra Search, обеспечивающие поиск информации независимо от ее текущего местонахождения. Точно так же, как IBM и Microsoft, корпорация Oracle намерена предоставлять доступ к данным через портал с унифицированным интерфейсом.