Платформа обработки неструктурированных данных

Данные, с которыми работают информационные системы, можно разделить на структурированные и неструктурированные. В первую категорию попадают числа, строки символов, даты. Для работы с ними создано множество программных средств; в частности, все СУБД ориентированы на работу со структурированными данными. Другие же типы данных не имеют четкой структуры. Книги, фильмы, печатные документы, файлы, простые и электронные письма, презентации, электронные таблицы, рисунки, рентгеновские снимки, отпечатки пальцев, фотографии, музыкальные клипы, новости, контракты, видеоролики, архивы камер наблюдения — вот лишь малая часть примеров неструктурированных данных.

Неструктурированные данные нам хорошо знакомы, мы работаем с ними ежедневно, и их объемы огромны. Лавина документов, фильмов, рисунков и другой информации нарастает ежедневно; работать вручную с ними становится невозможно. Бумажные и видеоархивы занимают в организациях огромное пространство. Найти нужный документ часто становится невозможно.

Для работы с неструктурированными данными предприятия появился новый класс информационных систем, называемый ECM (enterprise content management — «управление содержанием предприятия»). Следует обратить внимание на слово «предприятие»: системы данного класса предназначены не только для решения одной локальной задачи работы с документами, не только для небольших объемов информации. Они могут быть платформой для автоматизации всех задач обработки содержания в рамках и мелких, и огромных территориально распределенных организаций.

Неструктурированные данные есть у всех; вот почему продажи систем ECM непрерывно растут. Помимо стремительного роста объемов неструктурированных данных потребность в ECM стимулируется и новыми требованиями бизнеса. Предприятиям важно обеспечить долговременное хранение и своевременное предоставление корпоративной отчетности: увеличивается ответственность за преждевременное уничтожение или потерю документов, появились строгие регламенты, управляющие сроками хранения документов, активно развиваются технологии порталов, основанные на работе с содержанием. Игроков на рынке серьезных систем ECM сегодня не так уж много (Таблица 1).

Когда нужна система ECM

В России, говоря о работе с неструктурированными данными, в первую очередь обычно подразумевают систему документооборота. Действительно, на основе ECM можно построить такую систему, но сегодня есть масса самых разных готовых, коробочных систем документооборота. Однако, если в организации надо создать сразу несколько систем для работы с неструктурированными данными — если, к примеру, нужна система документооборота, электронная библиотека, архив документов, порталы, система долгосрочного хранения электронной почты и документов пакетных приложений, система «видео по требованию», система совместной работы с документами и т.д., — то разумнее не внедрять множество разнородных, не связанных между собой систем, а построить их на единой платформе управления содержанием.

Когда-то каждый программист создавал свою собственную информационную систему с нуля, придумывал структуру файлов, пытался встроить средства обеспечения мультидоступа и защиты данных, оптимизировал работу системы и т.д. Каждый делал это заново, по-своему; качество реализации, как правило, было невысоким. Со временем стало ясно, что любой информационной системе нужны стандартные функции для работы с данными. Были разработаны коммерческие СУБД, которые реализовали этот функционал. Системы для работы с неструктурированными данными сейчас проходят тот же путь — от множества доморощенных разнородных систем к единой коммерческой платформе.

IBM Content Manager

Программное обеспечение IBM Content Manager выполняет основные функции работы с неструктурированными данными — ввод или захват данных, хранение, поиск и предоставление. В качестве данных могут выступать:

типичные документы, используемые для совместной работы: файлы, подготовленные в Microsoft Office, текстовые файлы, письма Lotus Notes и Microsoft Exchange, переговоры в системах мгновенного обмена сообщениями и другие файлы;
изображения различных форматов (фотографии, картинки, рентгеновские снимки и т.д.), аудио и видео, с которыми можно работать и как с файлами, и как с потоком, беря непосредственно с устройств ввода (например, с видеокамер) и потоком перенаправляя в IBM Content Manager;
стандартные документы, в большом количестве выводимые на печать (чеки, накладные, счета, отчеты и т. д.);
Web-содержание.

Для простоты все эти виды неструктурированных данных будем называть документами.

Прежде чем вводить информацию в систему, надо спроектировать типы документов. В типе документа описывается сам документ (он может быть и составным) и его атрибуты, которые используются при поиске. Структура атрибутов может быть достаточно сложной; можно создавать групповые атрибуты, отношения атрибутов «один ко многим», атрибуты со многими значениями и т.д. Проектирование типа документа осуществляется с использованием визуального инструментария и не представляет большого труда.

Ввод/захват документов зависит от их типа, операционной системы и формата. Так, файлы Microsoft Office можно сохранить в IBM Content Manager, не выходя из приложения. Распечатки, факсимильные сообщения, электронные письма, журналы систем мгновенного обмена сообщениями могут перехватываться и загружаться в IBM Content Manager. Отдельные письма или прикрепленные к ним файлы пользователь может помещать в систему нажатием кнопки в панели инструментов почты. Любые файлы могут загружаться через Web-интерфейс или посредством Windows; при этом атрибуты можно задавать вручную.

IBM Content Manager работает практически со всеми промышленными сканерами. Можно выполнять индивидуальное и потоковое сканирование документов, подключать программы распознавания текстов, извлекать из текста атрибуты. Используя систему Kofax, можно на отсканированном изображении типового документа выделить отдельные поля и поставить их в соответствие с атрибутами документа. После этого при сканировании документов система сама определит тип документа, автоматически выберет, преобразует и сформирует значения атрибутов, распознает текст и загрузит все это в IBM Content Manager. Загружаться может изображение документа, распознанный текст или документ в формате pdf. При вводе распознанных текстов они индексируются, поэтому поиск можно осуществлять не только по значениям атрибутов, но и по содержанию документа.

Помимо хранения введенных документов, IBM Content Manager обеспечивает поддержку их блокировки (если кто-то запросил документ для изменений, остальные смогут только его только читать). Поддерживается контроль версий документов и их частей (если требуется хранить пять версий документа, то только при вводе шестой модификации система удалит первую версию; всегда можно запросить любую из этих пяти версий). Обеспечивается аудит действий, выполняемых с документом и возможность репликации данных в другие системы управления содержанием.

Важная особенность решения от IBM — встроенная поддержка системы иерархического хранения на основе Tivoli Storage Manager. Дело в том, что неструктурированных данных всегда очень много — особенно, если это видео, аудио, изображения или архив большой организации. Как правило, ни при создании СУБД, ни при создании систем для работы с неструктурированными данными никто не задумывается о том, как хранить эти данные и сколько это будет стоить — просто создаются файлы на дисках, где и хранятся данные. Встроенная в IBM Content Manager система иерархического хранения позволяет решить эту задачу.

Допустим, требуется, чтобы введенные в IBM Content Manager документы первоначально были легко доступны и хранились на дорогих и быстрых дисках. Через некоторое время, когда отпадет потребность в частом использовании этих данных или когда частота их использования упадет ниже установленного значения, следует автоматически переместить эти документы на более дешевые устройства хранения. Перемещение производится в соответствии с политиками хранения; при этом IBM Content Manager сам взаимодействует с Tivoli Storage Manager для реализации этих политик. В состав IBM Content Manager входят драйверы к самым разным устройствам хранения (дисковым, ленточным, оптическим и т.д.) и можно подобрать подходящее.

В IBM Content Manager реализован механизм WorkFlow, позволяющий описать путь движения документа, которого в дальнейшем будет придерживаться система. К примеру, отсканированный документ сначала поступает на узел проверки качества сканирования; если качество плохое, он уходит на повторное сканирование, а если хорошее, то на утверждение, затем документ публикуется и т.д. Это удобно, в частности, при построении систем документооборота. Каждый пользователь системы, регистрируясь в ней, указывая свое имя и пароль, видит документы, которые он должен обработать, и, обработав, отправляет их по одному из доступных в этой точке путей. Можно задать точки сбора информации; например, пока сюда не попадет один документ типа А и три документа типа Б, пачка дальше не пойдет.

Предусмотрено два варианта реализации WorkFlow — простой и сложный. В простом варианте маршрут описывается в виде таблицы переходов (куда из данного узла могут направляться документы и по каким условиям); более сложный предусматривает использование MQ WorkFlow. В этом случае при проектировании потоков документов используется графический интерфейс, описываются точки принятия решения, точки сбора и подпотоки. Доступны С++ и Java.

Сегодня актуальность приобретает задача хранения и уничтожения документов в соответствии с заданными регламентами; одни документы должны храниться вечно, другие десять лет, третьи уничтожаются каждый год. Средства управления жизненным циклом информации (information lifecycle management, ILM) описывают правила построения таких систем. IBM Content Manager вместе с компонентом Records Manager позволяют реализовать поддержку жизненного цикла информации. Можно разделить документы на классы, для каждого описав политику их хранения и уничтожения. Система будет ее реализовывать, не позволяя удалять документы с действующим сроком хранения, и наоборот, предлагая избавиться от устаревших документов, чтобы освободить место хранения; однако, решение об уничтожении документов в любом случае должен принимать человек.

Предусмотрен комплекс мер защиты документов от несанкционированного доступа: каждый пользователь должен указать имя и пароль для входа в систему; права доступа и возможность выполнения операций с документами регламентируются списками контроля доступа (access control list, ACL), которые можно задавать для пользователей, для типов документов и даже для отдельных узлов потока документов. В конечном счете, действует суперпозиция этих списков, и каждый пользователь с конкретным документом может сделать только то, что ему позволено в данном узле потока.

Все документы передаются только по защищенному протоколу HTTPS. Если в результате поиска была получена ссылка на найденный документ, то она будет одноразовой — благодаря специальному жетону, действительному в течение короткого времени, что затруднит передачу или перехват ссылки.

В состав IBM Content Manager входит три типа клиентских мест: толстый (Windows-клиент), тонкий (Java-программа) и портлеты. Толстый и тонкий клиенты реализуют большую часть функций системы, но имеют стандартный интерфейс. Специальный API позволяет писать любые программы, работающие с IBM Content Manager. В системе есть точки подключения дополнительной обработки, используя которые можно расширять ее функциональность. Портлеты позволяют вставить окна для работы с IBM Content Manager в портал.

Архитектура IBM Content Manager

IBM Content Manager состоит из двух основных компонентов, библиотечного сервера и менеджера ресурсов (рис. 1). Они могут размещаться на одном или на разных компьютерах. Метаданные, которые описывают созданные типы документов, папки, связи и т.д., хранятся в библиотечном сервере. Там же хранятся значения атрибутов документов и индексы для полнотекстового поиска.

Рис. 1. Архитектура IBM Content Manager

Библиотечный сервер — это сервер баз данных DB2 с набором дополнительных хранимых процедур. Все запросы на поиск документов преобразуются в SQL-операторы и выполняются на библиотечном сервере.

Менеджер ресурсов служит для хранения тел документов. В его состав входит сервер приложений WebSphere Application Server, Tivoli Storage Manager и HTTP-сервер. Документы могут храниться как в файловой системе, так и в базе данных. Компонент Video Charger, входящий в состав менеджера ресурсов, позволяет работать с потоковыми данными. После ввода критериев поиска на клиенте формируется SQL-запрос к библиотечному серверу. Результаты поиска оформляются в виде списка ссылок на найденные документы, который возвращается клиенту. После того как пользователь укажет на ссылку требуемого документа, этот документ по защищенному протоколу HTTPS передается клиенту с менеджера ресурсов (библиотечный сервер в этом уже не участвует). Полученный документ может открываться на клиенте в «родном» приложении или во встроенном редакторе IBM Content Manager, поддерживающем множество типов документов. Использование встроенного редактора удобно, если желательно лишить пользователя возможности скопировать документ на свой компьютер или изменить его. Во встроенном редакторе можно добавить замечания к документу, пометить его части, поставить на него «печать». При работе с аудио или видео найденные документы (ролики) можно выводить в режимах Streaming (как видеомагнитофон — прокрутил, остановил, запустил и т.д.) и Multicasting (непрерывный поток на несколько мониторов).

IBM Content Manager позволяет работать с несколькими менеджерами ресурсов, которые могут располагаться на компьютерах с разными операционными системами. Данные, запрашиваемые с менеджера ресурсов, кэшируются, поэтому повторные обращения выполняются быстрее. Можно настроить систему так, чтобы при сбое одного менеджера она автоматически обращалась к резервному менеджеру, что обеспечивает повышенную надежность.

IBM Content Manager — ядро системы для работы с неструктурированными данными. При необходимости к ядру можно добавить ряд дополнений (Таблица 2). Records Manager обеспечивает соблюдение сроков хранения документов. Content Manager On Demand служит для захвата стандартных документов (чеки, накладные, счета и т.д.). Для работы со сложными составными документами, извещениями пользователей по электронной почте и с чертежами используется DB2 Document Manager, который, в частности, поддерживает документы в форматах AutoCAD, MicroStation, AutoVue, Myriad. Компонент CommonStore, существующий в трех видах (для Lotus Domino, для Microsoft Exchange, для SAP R/3), позволяет автоматически (в соответствии с указанной политикой) или вручную помещать письма, присоединенные файлы, документы на хранение в IBM Content Manager. После этого они становятся доступными для поиска, а размер базы данных в приложении значительно уменьшается. Открыв письмо, пользователь видит ссылку на месте текста или присоединенного файла; нажав на нее, он может открыть текст или присоединенный файл. При архивировании писем атрибуты документа могут браться из полей заголовка письма («от кого», «кому», «тема» и т.д.). Можно настроить систему таким образом, чтобы в IBM Content Manager уходили только старые письма, письма от конкретных адресатов и т.д. Использование CommonStore не только превращает письма в корпоративное имущество, но и упрощает администрирование архива, повышает надежность системы и ее быстродействие. Lotus WorkPlace Web Content Manager позволяет без помощи Web-мастера разрабатывать Web-страницы, описывать потоки документов для создания и публикации Web-содержания.

Марк Ривкин (Mark.Rivkin@ru.ibm.com) — представитель по продажам систем управления данными компании IBM Россия.

Типичные области применения ECM

I. В центре обработки телефонных звонков заказчиков для ответа на вопросы заказчика надо найти необходимые документы, которых под рукой нет; в таких случаях оператор просит перезвонить. В большинстве случаев заказчик больше не перезванивает; клиент потерян, убытки налицо.

II. Коллектив авторов составлял сложный документ, готовил несколько версий различных частей документа. Наконец, работа закончена, документ передан начальству. Один из авторов уехал (уволился, заболел и т.д.). Неожиданно, понадобилась предыдущая редакция документа. Вряд ли без ECM ее удастся восстановить.

III. В американской компании Enron документы, для которых по закону был установлен срок хранения в несколько лет, были случайно (или намеренно) уничтожены. В результате руководство компании попало под суд. Если бы использовались средства ECM с системой обеспечения регламентов хранения/уничтожения документов, то случайное удаление документов было бы невозможно.

IV. Сегодня все работают с системами электронной почты. Почтовые ящики регулярно переполняются и их надо чистить; из-за этого система часто становится недоступной, а при большом объеме писем она работает медленно. Кроме того, у нас зачастую считается, что корпоративная электронная почта — это собственность и личное дело владельца почтового ящика. Между тем, в переписке содержится много информации, полезной для разных сотрудников компании, которая может пригодиться в будущем. Вот почему во многих западных компаниях электронная почта — это корпоративное имущество. Вся корреспонденция (или, по крайней мере, ее часть) автоматически помещается на хранение в систему ECM, и в будущем при поиске информации на определенную тему будут найдены и документы, и письма, и — возможно — даже результаты телеконференций.

V. В организации создается несколько порталов — внутренний, внешний, тематический и т.д. Часть информации они разделяют. Если нет единой системы управления содержанием, то у каждого портала будет свое хранилище неструктурированных данных, следствием чего станет дублирование информации, ее несогласованность, несвоевременная корректировка и т.д. ECM решает эту проблему.

Таблица 1. Рынок систем управления содержанием и документами в 2003 году

Компания	Оборот (продажи лицензий, млн. долл.)	Доля рынка (%)
IBM	183,5	17,9
FileNet	119,4	11,6
Documentum/EMC	111,4	10,8
OpenText	80,0	7,8
Interwoven/iManage	62,7	6,1
Hummingbird	58,1	5,7
Другие	411,8	40,1
Всего	1026,9	100,0

Источник: Gartner Dataquest, июнь 2004.

Таблица 2. IBM Content Manager и дополнительные компоненты

Компонент	Назначение
Content Manager (+VideoCharger)	Управление документами, изображениями, видео и аудио
DB2 Document Manager	Управление составными документами для Content Manager и Domino Document Manager
Content Manager OnDemand	Автоматический захват компьютерных документов
CommonStore for Lotus Domino/Exchange, SAP	Архивирование почты Lotus Notes, Microsoft Exchange и баз данных SAP R/3
Records Manager	Управление сроком хранения записей, документов, почты
Lotus Workplace Web Content Management	Простое создание и поддержка Web-сайтов