Объем накопленной в корпоративных сетях разнотипной информации стремительно растет, однако порой воспользоваться ею оказывается достаточно трудно. Для решения таких задач предназначены системы централизованного управления созданием, хранением и получением цифровых данных любого типа, позволяющие активно использовать ранее собранные сведения.

Для управления разнотипной информацией предлагаются специализированные менеджеры данных (content manager), по сути, являющиеся комплексными системами управления информацией (рис. 1). Универсальные менеджеры данных умеют работать с любыми типами информации. Разберем особенности работы подобного инструментария на примере IBM Content Manager; к данной категории программных средств можно отнести также продукты Documentum и набор решений от компании Hummingbird.

Рис. 1. Схема доступа к ресурсам при помощи менеджера данных

Управление данными

Основной функцией менеджера данных является организация доступа к неструктурированной информации с возможностью предварительного анализа, а также управление хранением данных с обеспечением оптимального использования различных типов накопителей. Для любых типов данных менеджер данных четыре основных действия: ввод, классификация, хранение и обработка. При этом менеджер данных не обязан все эти операции выполнять самостоятельно, но должен как минимум ими управлять. Важным требованием является независимость от типа данных, объема поступающей информации и числа пользователей. Возможно также использование системы управления данными для интеграции приложений, а также для организации документооборота.

Ввод

Система управления данными должна предусматривать ввод данных с любого носителя, (в том числе, с бумажных оригиналов, из видео- и аудиофайлов). Поэтому менеджер данных содержит систему управления сканированием и распознаванием бумажных документов, управления факсами, обработку электронной почты, получение информации из Web и через другие каналы. Скажем, для работы с бумажными документами, в IBM интегрировали Content Manager с продуктом компании Kofax, который предназначен для управления процессом сканирования и распознавания бумажных документов на промышленных сканерах. Для работы с русским языком Kofax использует технологию компании ABBYY Software. В состав продуктов Kofax входят инструменты для так называемого «формооборота», т.е. работы с заранее определенным набором формализованных документов. Средства формооборота позволяют не просто распознать бумажный документ, но и определить его тип, найти и автоматически заполнить предопределенные для данного типа документов поля. Такие инструменты содержат средства разработки форм, их публикации в различных форматах и последующей обработке. Сейчас практически все компании, разрабатывающие программные инструменты распознавания текстов, выпустили инструменты для организации формооборота.

Одним из популярных на сегодняшний день форматов представления цифровых данных является XML, который сейчас используется в основном для интеграции приложений, позволяя сохранять структуру данных и преобразовывать их практически в любое другое представление без потери структуры. XML также является основой Web-службы, поэтому его поддержка для менеджера данных фактически обязательна: она обеспечивает наиболее простой путь получения структурированной информации. IBM Content Manager может работать с XML-данными, но преобразует их в реляционное представление.

Еще один способ получения документов, предложенный Microsoft — интерфейс управления объектными документами ODMA (Object Document Management), который используется в случае, когда информация передается на хранение не в файловую систему, а в специальное хранилище. Поддержка этого интерфейса системой управления данными позволяет интегрироваться с Windows-приложениями.

Немаловажно обеспечить работу с форматами PDF, PostScript и AFP, предназначенными для распечатки документов с хорошим полиграфическим качеством и представляющими собой смесь информации различных типов, поэтому выделить из них текстовые данные достаточно сложно. Еще одним источником информации для системы управления данными является Internet, поэтому в составе системы могут быть автоматические агенты, которые получают информацию с выбранных узлов Сети, обрабатывают ее и размещают в хранилище.

Для ввода аудио- и видеофайлов обычно используются отдельные средства, которые должны быть оптимизированы для передачи мультимедийных данных по компьютерным сетям. Для менеджера данных они выступают в качестве внешних хранилищ информации, которые, тем не менее, также необходимо как-то систематизировать. Сегодня активно развиваются технологии извлечения определенной смысловой информации из файлов и потоков мультимедиа, однако наиболее надежным методом систематизации по-прежнему остается описание вручную.

Систематизация

Важное место в системе управления данными занимает средство учета и систематизации (индексации) поступающей информации. Менеджер данных должен снабдить полученные сведения описанием — метаданными, которое будет использоваться в дальнейшем для поиска информации на этапе доступа и обработки. Метаданные можно составить для любого типа цифровых данных, даже не предусмотренных заранее.

В некоторых случаях описание поступивших данных можно извлечь автоматически, например, использование средств формооборота или XML позволяет еще на этапе ввода документа автоматически заполнить максимум его полей. Внутренние документы систем учета и документооборота, сообщения электронной почты и информация, полученная из Internet, имеют определенные реквизиты, которые обычно помещаются в описание. Например, при распознавании документа в системе формооборота указываются ключевые поля, по которым система и выполняет индексацию.

Объекты хранения разбиваются системой управления данными на группы, категории по значениям атрибутов. Поэтому учитывается сочетание нескольких атрибутов. Так, клиент Content Manager позволяет учитывать одновременно по девяти параметрам. Сочетание этих параметров определяет модель данных, которую менеджер данных использует для определения того, к какой категории следует отнести тот или иной объект. Эту модель можно использовать для поиска объектов или использовать в других приложениях, например, в портале предприятия для выдачи служащему только текущих документов.

Для автоматической систематизации администратору менеджера данных нужно определить типы документов. Это делается с помощью описания модели документа, т.е. сочетания полей, по которым менеджер будет выполнять индексацию. Для сообщений электронной почты определены такие реквизиты, как адреса отправителя и получателей, тема, дата отправки и даже маршрут. Тип документа описывает связи между значениями полей, легко проверив которые менеджер данных может установить тип сообщения. Скажем, если адрес электронной почты отправителя письма содержится в списке спамеров, то полученное сообщение помечается как спам. Аналогично выполняется обработка Web-страниц, бумажных форм, факсов и всех других типов поступающей информации. Сложно описать мультимедийные потоки: это часто приходиться делать вручную, хотя у компаний производителей менеджеров данных есть определенные решения для работы с видео- и аудиоинформацией.

Использование моделей данных позволяет управлять переводом объекта из одной категории в другую простым редактированием атрибутов. Причем служащий, вносящий изменения в описание объекта, не должен заботиться о перемещении его из одной категории в другую: это сделает система управления данными.

Следует отметить, что создание моделей документов и определение правил работы для каждого типа — задача достаточно трудоемкая и сильно зависящая от предметной области и методов ведения бизнеса. В свою очередь, от правильного описания типов данных зависит удобство и эффективность управления данными. Общих правил для этого нет, поэтому компаниям приходиться прибегать к услугам консультантов. Впрочем, в некоторых случаях для этого можно использовать уже существующие и утвержденные бизнес-процессы.

Хранение

Поскольку менеджер данных рассчитан на работу с большими объемами информации, то он обязан расположить данные так, чтобы минимизировать расходы на их хранение. Отсюда — условие возможности работы менеджера с накопителями разной природы.

Достаточно широко распространена иерархическая модель хранения информации. Используемый документ располагается в наиболее оперативном, но и самом дорогом накопителе, например, на жестком диске, а затем в соответствии с определенными правилами переносится на более медленные накопители и в конце концов либо удаляется, либо записывается на архив на магнитных лентах. Иерархическая система хранения самостоятельно переводит файлы с одного уровня на другой. Менеджер хранения в соответствии с установленными системным администратором правилами осуществляет перенос информации, оптимизируя время доступа к наиболее актуальным данным. В состав Content Manager входит продукт Tivoli Storage Manager, который поддерживает иерархическую систему хранения.

Следует отметить, что сам менеджер данных собственно информацию не хранит, но «знает», где она располагается и как ее получить. С этой целью в составе менеджера предусмотрено центральное хранилище метаданных, которое по стандартным протоколам общается с различными хранилищами, где физически располагаются данные. Когда клиент запрашивает у менеджера определенную информацию, тот либо перенаправляет его запрос в хранилище, либо сам извлекает нужную информацию и возвращает ее клиенту. Подобная архитектура позволяет хранить данные различных типов в оптимизированных для этого системах, а также легко перемещать данные из одного хранилища в другое без потери их доступности.

Менеджер данных получает возможность выбирать тип носителя для информации, что можно использовать для оптимизации расходов на хранение, однако когда клиент запросит-таки архивированный документ, менеджер данных должен восстановить его в исходном виде. Кроме того, менеджер хранения управляет процедурой резервного копирования оперативной информации, что повышает надежность системы хранения в целом. Часто существующая база данных или файловая система уже имеет свои средства архивирования и резервного копирования; менеджер хранения должен уметь взаимодействовать с такими инструментами.

В некоторых прикладных системах, где часто выполняется поиск по большому числу записей, производительность сильно зависит от объема хранимой информации. В частности, это характерно для таких систем, как SAP R/3, Lotus Notes или MS Exchange. Для них целесообразно написать шлюз в систему управления данными, который обеспечивал бы архивирование и резервное копирование информации. IBM разработала для таких систем надстройки к Content Manager, которые позволяют редко используемую часть пользовательских данных переносить в архивы на дешевых носителях. К примеру, из почтовых систем на базе MS Exchange можно перенести в Content Manager присоединенные файлы.

Доступ

Часто задачу обеспечения доступа сводят к поиску нужных сведений, однако сюда надо отнести и различные типы обработки информации: анализ данных, подготовку отчетов, консолидацию сведений и т.п. Поскольку система управления данными «знает», где находятся практически все оцифрованные сведения, то с ее помощью можно реализовать наиболее глобальные службы, учитывающие весь багаж накопленных на предприятии знаний. Удобно, когда менеджер данных имеет не только средства для их визуализации, но и механизмы интеграции с другими приложениями. Наиболее популярным средством такой горизонтальной интеграции является технология Web-служб, а поддержка XML является необходимым условием для современных систем управления данными.

Менеджер данных, как правило, имеет уже несколько готовых решений для интеграции с некоторыми широко используемыми приложениями. Достаточно большой набор таких продуктов предлагается для Content Manager, в частности, имеется ряд дополнений, расширяющих возможности этого менеджера по обработке хранимой информации; например, есть решения по индексированию видеофайлов. Возможности Content Manager существенно расширяет платформа IBM WebSphere, обеспечивающая работу через Web со всеми данными, хранящимися в Content Manager. Собственно, сам Content Manager имеет определенные средства по предоставлению информации по протоколу HTTP, однако для WebSphere накоплен большой багаж приложений, расширяющих возможности доступа через Web. Для WebSphere есть набор средств разработки, которые позволяют создавать Web-приложения любой сложности, используя в качестве источника данных Content Manager.

Еще одним продуктом, расширяющим интеграционные возможности Content Manager, является монитор транзакций MQSeries (на его основе, кстати, построена полнофункциональная система документооборота MQSeries Workflow). Кроме того, сам MQSeries можно эффективно использовать совместно с Content Manager: распределенными транзакциями будет заниматься MQSerias, а управлением данных — Content Manager.

Стоит упомянуть также инструментарий интеграции Content Manager и решений от SAP. Шлюз между R/3 или MySAP.com и Content Manager изымает из модулей SAP редко используемые данные, оставляя там только указатели на истинное местоположение информации. Оказывается, такой трюк в состоянии значительно ускорить работу ERP-системы.

IBM разработала для Content Manager также два шлюза к серверам Lotus Domuno и MS Exchange. В результате, администраторы этих систем получают инструмент для управления хранением и архивации редко используемых данных. Content Manager занимается размещением данных из внешних приложений, оставаясь незаметным для пользователей, но расширяя возможности по масштабируемости. Кроме интеграции сам менеджер данных может выполнять функции обработки накопленных в нем сведений, например, анализ больших текстовых массивов (text mining).

Применение

Потребность в подобном инструментарии может возникнуть у любого предприятия — все зависит от количества данных, накопленных в его информационных закромах, числа пользователей, которые работают с этими данными, а также от типа информации, модели бизнеса компании и объема поступающих и обрабатываемых на предприятии данных. Иногда один человек может работать с миллионом файлов, а в другом случае миллион человек будут трудиться всего над несколькими документами. В каждом случае следует отдельно анализировать потребность в менеджере данных.

Менеджеры данных являются инфраструктурной платформой для построения масштабируемой системы получения, сохранения и обработки больших потоков информации. Менеджер данных может пригодиться практически в любой системе массового обслуживания, даже если входящий поток информации структурирован и хорошо подходит для обработки реляционной СУБД. В такой системе могут быть востребованы аналитические и управленческие возможности менеджера данных, которые позволяют работать с оперативными данными и готовить нестандартные отчеты. Так, есть решения по внедрению менеджера данных в системе выставления счетов для операторов сотовой связи. Традиционно такие системы строились на реляционных СУБД, однако оперативный анализ данных для технической поддержки и маркетинга при достаточно большой базе клиентов требует использования менеджера, который позволяет снять непрофильную нагрузку с биллинговой системы.

В системах документооборота менеджеры данных могут играть роль архива, куда складываются уже обработанные документы, хотя простую и строго фиксированную систему делопроизводства можно реализовать и силами самого менеджера. Кроме того, в целях документооборота можно использовать возможности этого программного обеспечения для обработки входных потоков данных. Если же предприятие пользуется различными типами мультимедийных данных, то ему также придется создавать для них соответствующие хранилища и интегрировать их в единую систему. В этом случае используются интеграционные возможности менеджера данных, который в состоянии управлять хранением мультимедийных файлов.