Рост числа разнородных хранилищ информации как внутри предприятия, так и за его пределами повышает сложность поиска и доступа к ней. Информация может храниться в бесконечном количестве мест, включая хранилища данных, базы данных, приложения коллективной работы, Web-сайты, электронная почта, корпоративные приложения и многое другое.

Корпоративные хранилища неструктурированной информации появились вместе с первыми носителями данных. Однако на протяжении многих лет единственной основой корпоративных хранилищ, доступ к которым имели конечные пользователи, оставалась файловая система. С появлением корпоративных систем управления содержанием (их создатели предложили такие функции работы с информацией, как управление версиями и правами доступа, бизнес-правила, рассылка и т.д.) понадобилось соответствующим образом адаптировать модель хранилищ, устанавливая типы содержания, атрибуты, жизненные циклы и т.д. Чтобы обеспечить возможность подобной адаптации, корпоративные системы стали предлагать свои собственные модели, которые в отличие от файловых систем обладали куда большим спектром параметров для настройки. Наиболее популярной моделью хранилища содержания стала объектно-ориентированная модель, в которой любая информационная единица представляется самостоятельным объектом определенного типа и имеет уникальный набор атрибутов (классификаторов). Объектно-ориентированная модель имеет определенные преимущества перед традиционной реляционной моделью, поддерживая наследование признаков типов объектов, таких как состав атрибутов и операций. Благодаря этому при развитии структуры хранилища, а также при появлении новых функциональных задач не требуется вносить исправления в текущие настройки; достаточно создать потомков уже готовых типов объектов, добавив к ним новые функции.

С увеличением числа внешних пользователей корпоративных хранилищ информации появилась необходимость в обеспечении удаленного доступа к хранилищам и возможности построения распределенных федеративных хранилищ. Ответом на эти требования стало создание технологий, которые позволили строить распределенные корпоративные информационные среды.

Виртуальные хранилища

В компании Documentum видят направление дальнейшей эволюции корпоративных хранилищ содержания в формировании виртуальных хранилищ. Концепция таких хранилищ состоит в том, что конечный пользователь, работая в привычных для себя приложениях, получает одновременный доступ к неструктурированной информации из разных источников. Виртуальное хранилище содержания составляют несколько механизмов.

Интеграция корпоративного содержания. Обеспечивает универсальный доступ ко всем источникам информации — как внутри предприятия, так и за его пределами. Необходимость в таком механизме обусловлена тем, что с ростом числа возможных источников информации пользователю приходится работать с множеством документов и Web-страниц. Механизм интеграции корпоративного содержания призван сформировать универсальную программную и пользовательскую среду для доступа ко всем возможным источникам информации. Такая программная среда должна быть максимально открытой, поддерживать все актуальные стандарты, интерфейсы и протоколы обмена данными.

Управление бизнес-процессами. Предоставляет единый доступ пользователей к задачам бизнес-процессов из разных информационных систем и обеспечивает их интеграцию. В управлении бизнес-процессами предприятия, как правило, задействовано несколько информационных систем (скажем, ERP и ECM); кроме того, в них могут принимать участие внешние пользователи и системы. Это требует обеспечить прозрачность взаимодействия между системами и универсальность доступа конечных пользователей к функциям бизнес-процессов. Обеспечение единого пользовательского интерфейса к потоку работ для всех информационных систем, возможность обмена данными через разнообразные интерфейсы и протоколы, интеграция со средствами анализа и моделирования бизнес-процессов, формирование отчетов — вот лишь основные требования концепции управления бизнес-процессами.

Обмен содержанием. Позволяет передавать информацию из одной информационной системы в другую, а также за пределы корпоративной информационной среды. Информационные потоки любого предприятия не ограничиваются внутренним информационным пространством. Существует масса разнородных путей поступления информации, которую требуется поместить в корпоративное хранилище (факс, сканер, электронная почта, Web и др.). С другой стороны, существует и множество разнородных получателей информации, каждый из которых имеет свои каналы передачи данных и требует уникального формата представления (например, вывод на печать, отправка по электронной почте, запись на диск). Виртуальное хранилище должно обеспечивать поддержку всех современных каналов коммуникаций и позволять преобразовывать информацию в те формат и представление, которые требуются получателю.

Классификация и категоризация. Делает возможным создание единой базы предметных классификаторов для распределенных объектов виртуального хранилища. Для возможности оперативного доступа к объектам виртуального хранилища, быстрого поиска, запуска бизнес-процессов, определения назначения той или иной информации виртуальное хранилище должно поддерживать единую систему их классификации.

Платформа Documentum обеспечивает управление бизнес-процессами, поддерживает обмен содержанием и классификацию содержания. Расширив линейку своих продуктов инструментарием интеграции содержания, компания сделала возможным построение виртуальных хранилищ содержания (рис. 1).

Рис. 1. Архитектура виртуального хранилища неструктурированного содержания

Важно подчеркнуть, что Documentum не предоставляет решения класса EAI (enterprise applications integration — «интеграция приложений предприятия»), основная цель которых состоит в том, чтобы интегрировать функции и транзакционные данные различных информационных систем. Компания ориентируется на интеграцию и классификацию неструктурированных типов содержания (традиционные документы, чертежи, отчеты, Web-ресурсы, отсканированные документы, мультимедийные данные и др.), расширяет возможности по предоставлению унифицированного доступа к таким ресурсам пользователей и приложений.

Enterprise Content Integration

Ключевой элемент формирования виртуального хранилища — это механизм интеграции корпоративного содержания. Решение этой задачи в Documentum возложили на программный продукт Enterprise Content Integration (ECI), основанный на технологии askOnce. Технология askOnce была разработана в европейском центре Xerox Research Centre Europe, одном из пяти исследовательских центров корпорации Xerox, известной своими инновационными решениями в области управления и обмена информацией.

ECI представляет собой программную среду, через которую пользователь или приложения могут формировать универсальные запросы на поиск информации. Доступ к внешним источникам информации осуществляется через набор адаптеров, транслирующих запрос в воспринимаемый источником формат и возвращающих полученный результат программной среде (рис. 2).

Рис. 2. Интеграция корпоративного содержания при помощи Enterprise Content Integration

Пользовательское приложение ECI позволяет конечным пользователям оперативно находить информацию из всех источников, к которым через специализированные адаптеры подключена серверная часть системы. Полученная информация будет отсортирована и представлена пользователю в универсальном виде с возможностью доступа к первоисточнику и с возможностью сохранения содержания в платформе Documentum (рис. 3).

Рис. 3. Унифицированное предоставление информации из различных источников с настраиваемым выделением категорий

Благодаря поддержке J2EE, элементы сервисов ECI могут быть встроены в другие приложения, пользовательские интерфейсы или порталы. Встраивание осуществляется либо через компоненты интерфейса ECI, доступные в виде JSP-модулей или портлетов, либо через прямой доступ к функциям ECI API. Скажем, в корпоративном портале можно предусмотреть унифицированное поисковое окно, через которое пользователи смогут искать информацию сразу по всем корпоративным и Internet-ресурсам, указывая требуемые параметры поиска.

Получив результаты поиска, пользователь может просматривать краткое содержание документов, настраивая параметры его отображения на странице («заголовок+фрагмент», «заголовок+метаданные» и т.д.). ECI позволяет просматривать динамический сформированный «снимок» документа. Открыв страницу со «снимком», пользователь может увидеть ключевые слова документа, наиболее значимые предложения и ссылки на оригинальный документ (рис. 4).

Рис. 4. «Снимок» документа с ключевыми словами, фразами и ссылками на найденное содержание

Для динамической категоризации найденной информации с использованием лингвистического анализа в ECI используется механизм Xelda, который на основе общих и специализированных словарей различных языков позволяет создавать тематические категории для больших объемов найденной информации, облегчая ее просмотр. Если поиск осуществляется по информации на разных языках, система производит автоматическое распознавание языка документа и транслирует на соответствующий язык сам запрос. Благодаря Xelda поддерживается также морфологический поиск на всех основных языках.

Пользовательские запросы могут быть сохранены и настроены для запуска по расписанию, чтобы постоянно контролировать обновление информации во внешних источниках. Обнаружив изменение соответствующей информации, система может направить пользователю уведомление по электронной почте.

Архитектура Documentum ECI основана на технологии адаптеров — «шлюзов» к внешним системам. Адаптеры транслируют запросы клиентских приложений ECI в «родные» запросы источника информации, позволяя извлекать как само неструктурированное содержание, так и требуемые метаданные (рис. 5).

Рис. 5. Адаптер оптимизирует запрос, помогая распознавать его источнику информации

Вместе с ECI поставляется обширная база готовых адаптеров для корпоративных приложений и хранилищ содержания (Documentum 5, Lotus Notes/Domino, Microsoft Site Server, Oracle), для поисковых серверов и популярных Web-сайтов, для новостных серверов, для публичных электронных библиотек и т.д. Планируется выпуск адаптеров к системам SAP, FileNet, PeopleSoft и др.

Благодаря открытой архитектуре, ECI позволяет пользователям разрабатывать собственные адаптеры, используя платформу J2EE. Для разработки адаптеров предоставляются эффективные визуальные средства.

Однако сервисы ECI нельзя рассматривать лишь как универсальный поисковый механизм по внешним источникам информации. Судя по названию, которое прямо указывает на интеграцию содержания, основная цель этих сервисов — сделать распределенное содержание доступным всем корпоративным системам и приложениям. Соответствующий механизм, используемый в ECI, скоро станет частью ядра платформы Documentum; любые работающие с ней приложения смогут, отправляя стандартный запрос к хранилищу, получать доступ сразу ко всем подключенным источникам информации. В таком случае к внешнему содержанию можно будет применять все базовые функции, включая права доступа, версии, управление бизнес-процессами и жизненными циклами и т.д. Например, пользователь сможет производить навигацию по структуре хранилища, элементами которой будут являться объекты из различных информационных систем и ресурсов. Станет возможным динамически формировать «подшивки» содержания, которые относятся к какому-либо проекту или делу, и предоставлять конечным пользователям прямой доступ ко всей требуемой информации, где бы она ни находилась.

Вместе с SOA

Documentum планирует обеспечить доступ своих сервисов управления содержанием для объектов из всех источников виртуального хранилища, что даст пользователям возможность работать, создавать и регистрировать новое содержание, вносить в него исправления, заполнять атрибутивную карточку, устанавливать права доступа, отправлять по маршрутам, вне зависимости от того, где это содержание будет располагаться. При помощи же настраиваемой бизнес-логики можно будет помещать или перемещать объекты содержания в хранилища, соответствующие его назначению.

Создание технологий виртуальных хранилищ — закономерная тенденция, связанная с нынешней информационной перегруженностью предприятий. Данную тенденцию можно соотнести с развитием сервисно-ориентированных архитектур (service-oriented architecture, SOA) при построении корпоративных систем, которые подразумевают унифицированный доступ к бизнес-логике и функциям управления. Более того, SOA уже сейчас является составляющей виртуальных хранилищ, а унифицированный доступ к информации означает доступ к унифицированным функциям управления ей. Примером может служить задача внесения исправления в документ; при этом для пользователя не имеет значения, в каком хранилище физически он располагается. Без SOA и поддерживающих данную архитектуру Web-сервисов реализация подобной функциональности была бы крайне дорогостоящей и сложной: пришлось бы использовать доступ к уникальному интерфейсу API каждой системы в отдельности. Унификация доступа к функциям управления и доступа к информации — основная тенденция развития информационных систем на ближайшие годы.

Андрей Николаев (andrei.nikolaev@documentum.ru) — менеджер по маркетингу продуктов и технологий компании «Документум Сервисиз» (Санкт-Петербург).


Сценарии использования сервисов ECI

Области применения механизма интеграции неструктурированного содержания можно разделить на три типа.

  • Задачи, связанные с построением аналитических хранилищ информации на этапах исследования и разработки, проведением статистических исследований, планированием маркетинговых программ. Задачи, где требуется постоянное обращение к большому числу внешних и внутренних источников информации для ее последующего анализа.
  • Задачи по снижению затрат на модернизацию корпоративной инфраструктуры. В крупных компаниях на протяжении многих лет накапливается масса данных, устаревших информационных систем, файловых хранилищ и т.д. Зачастую процесс миграции всех накопленных данных на новую платформу может быть мало эффективен и крайне дорог. В таких случаях сервисы ECI позволяют организовать единый доступ ко всем существующим на предприятии ресурсам.
  • Комплексные бизнес-задачи, в которых задействовано несколько корпоративных информационных систем. Сервисы ECI выступают универсальным интеграционным модулем, который позволяет динамически связывать информационные объекты различных систем, предоставляя пользователю унифицированный доступ ко всей информации. Предположим, по созданному в среде Documentum договору были произведены оплаты в SAP R/3. При использовании сервисов ECI пользователю, которому требуется просмотреть договор и увидеть все оплаты, будет доступна динамическая папка, откуда он сможет открыть и сам договор, и информацию о платежах; при этом ему не понадобится никакое специализированное клиентское приложение SAP или Documentum.

Например, компании France Telecom потребовалось предоставить трем тысячам исследователей и инженеров доступ к источникам информации, сформированным в прикладных системах Documentum, Oracle, Notes, Fulcrum и др. Была создана единая точка входа через Internet-портал, предоставляющая доступ к внутренним и внешним источникам информации, базам данных, библиотекам мультимедийных данных, проектной документации и т.д.

Концерну Airbus потребовалось оптимизировать доступ и организовать рассылку операционных инструкций и документации. В концерне имеется десяти различных систем управления документами для 10 тыс. пользователей — миграция данных в одну систему заняла бы слишком много ресурсов. Сервисы Documentum ECI были интегрированы в корпоративный портал Airbus, сделавшие доступ к документации достаточно прозрачным.