Концепция корпоративного электронного архива
Компоненты корпоративного электронного архива
Техническая реализация - проблема выбора
Технологии индексирования и поиска
Сканеры поточного ввода
Устройства хранения данных
Заключение

Сегодня наблюдается необычайный подъем в вопросах комплексной компьютеризации корпораций и целых отраслей. Первостепенная роль здесь отводится построению автоматизированных систем документооборота и делопроизводства. Однако, внедрив мощные системы управления электронными документами, многие корпорации почему-то не получают ожидаемого эффекта. В чем причина? До 80% информации еще остаются на бумажных носителях и складируются в пыльных библиотеках или архивах. Ручная обработка таких бумажных хранилищ становится узким звеном функционирования многих крупных корпораций. Решением может быть внедрение технологии построения корпоративного электронного архива (КЭА). Но сама технология еще достаточно нова, а ее воплощение в жизнь требует от заказчика определенной смелости и ставит непростые задачи перед системными интеграторами.

Стоит отметить, что речь идет не о традиционной автоматизации каталогов библиотек, а о построении мощной промышленной системы масштаба корпорации или отрасли, обеспечивающей эффективный доступ и хранение огромных объемов документов в электронном виде. Потребность в такой системе появилась еще в давние времена и подхлестывалась возросшим интересом к ведомственным и государственным архивам, содержащим уникальные запасы исторической и справочной информации. Уже давно архивы, работающие по старинке с библиотечными каталогами, перестали удовлетворять возросшим требованиям к оперативности, полноте и достоверности выполнения запросов к постоянно разрастающимся фондам документов. Более того, бумажные ценности, как известно, со временем приходят в негодность и безвозвратно исчезают. О масштабности проблемы говорит тот факт, что только сеть государственных архивов России насчитывает сегодня более 2000 "мертвых" бумажных хранилищ, содержащих более 140 млн. дел. К этому следует добавить сумасшедший поток информационных материалов крупных коммерческих структур, что придает новый импульс внедрению технологий построения архивов электронных документов. А это уже касается не только компактного, безопасного хранения и быстрого поиска документов, но и вопросов оперативного анализа с целью прогнозирования ситуаций на рынке и выявления закономерностей.

Если потребность назрела уже много лет назад, то техническая возможность представилась совсем недавно, что во многом связано со следующими обстоятельствами:

  • появились дешевые носители данных сверхбольшого объема;
  • резко снизился показатель стоимость/производительность для высокоскоростных вычислительных систем и устройств;
  • появились технологии индексирования сверхбольших массивов данных;
  • разработаны и развиваются отечественные технологии и программные средства распознавания и анализа русскоязычных текстов.

Первые системы, автоматизирующие федеральные и промышленные архивы, появились за рубежом около 5 лет назад - в России о проектах русифицированных технологий электронного архивирования заговорили в конце 1995 года.

Концепция корпоративного электронного архива

Корпоративный электронный архив формально можно определить как комплекс аппаратно-программных средств и технологий для создания архива (масштаба корпорации или отрасли) документов в электронном виде и обеспечения эффективного доступа к ним. Цель создания КЭА - в обеспечении оперативного и полного доступа ко всем хранящимся и поступающим документам. Для реализации данной цели КЭА решает две основные задачи:

  1. поточный ввод имеющихся в архиве документов;
  2. обеспечение оперативного полнотекстового доступа к электронным документам.

Общую идею можно обрисовать следующим образом. Организуется развертывание высокопроизводительной сети, включающей графические рабочие станции и мощные серверы ввода и обработки информации. Для ввода документов, находящихся на бумажных носителях низкого качества, используются промышленные сканеры поточного ввода и соответствующие русифицированные программные средства. Система обеспечивает эффективное индексирование и полнотекстовый поиск неструктурированной информации сверхбольшого объема. Данные, необходимые для поиска документов, хранятся в высокопроизводительной и отказоустойчивой системе памяти, а графические образы документов - в виде изображений на носителях, отличающихся длительным временем хранения и дешевизной. Основные функции и подсистемы КЭА представлены в таблице 1.

Определение КЭА лежит на стыке понятий современных автоматизированных систем управления документооборотом (СУД) и информационных хранилищ - DataWarehouse. Специфика реализации КЭА состоит в том, что прежде всего нужно решить, как ввести полный объем документов в базу данных. Так как это чрезвычайно длительный и трудоемкий процесс, он требует максимальной автоматизации - отстранения оператора от любого участия в процессе поточного ввода документов. Этим обусловлена необходимость обеспечения в КЭА полнотекстового поиска. Поддержка системы атрибутивного поиска - характерная для СУД - по временным ограничениям недопустима.

Для иллюстрации приведем следующий расчет. Допустим, бумажный архив насчитывает 50 млн. документов. На проверку одного распознанного документа, классификацию-рубрикацию, ввод атрибутов оператор в среднем тратит две минуты. Следовательно, для ввода всех документов в режиме стандартной рабочей недели понадобится тысячелетие... С другой стороны, при автоматическом вводе документов самым слабым звеном системы будет производительность сканеров и мощность сервера, выполняющего распознавание и индексирование. С учетом оптимизации потоков подсистемы ввода можно ожидать, что аналогичный объем будет полностью введен за 5-15 лет.

Что касается информационных хранилищ, то в КЭА также обрабатываются колоссальные объемы данных (несколько терабайт), структура базы данных системы ориентирована на объекты (а не на процессы), архивные данные инвариантны (их истинность не зависит от времени) и стабильны (не удаляются и не модифицируются). Отличие состоит в том, что в хранилищах данные имеют интегральный вид, т.е. получены из множества разнотипных СУБД и файловых систем. В КЭА, как правило, утверждается единая технология ввода документов. Однако следует оговориться: на практике ряд архивов уже имеют определенные наработки в организации документооборота или в автоматизации каталогов, описей и специфичных картотек. Естественно, на первом этапе имеющиеся базы данных интегрируются в КЭА.

Другой важной особенностью является то, что КЭА включает в себя как средства оперативного поиска информации (OLTP), так и средства оперативного анализа информации (OLAP), которые составляют основу информационных хранилищ.

Компоненты корпоративного электронного архива

После рассмотрения основных функций КЭА можно определить его ключевые программно-аппаратные компоненты. Основными аппаратными средствами являются:

  • поточные сканеры, обеспечивающие высокопроизводительный ввод бумажных материалов низкого качества;
  • высокопроизводительные многопроцессорные серверы, обеспечивающие параллельную обработку запросов и позволяющие осуществить масштабирование вычислительной системы;
  • высокопроизводительная вычислительная сеть;
  • RAID-массивы, поддерживающие сверхнадежный доступ к поисковым данным системы;
  • автоматические библиотеки (jukebox) компакт- или МО-дисков, обеспечивающих долговременное хранение огромных массивов информации.

Системные программные средства включают:

  • операционную сетевую среду (традиционно: Unix-сервер, ОС клиента: NT 4.х или Unix), ориентированную на мультипоточную обработку в сети и сертифицированную по безопасности;
  • СУБД, ориентированную на обработку сверхбольших массивов данных.

Специальные программные средства:

  • распознавания русскоязычных текстов;
  • полнотекстового индексирования и поиска информации;
  • анализа информации.

Техническая реализация - проблема выбора

Сегодня нет продуктов СУД и информационных хранилищ, интегрально позволяющих обеспечить все основные функции электронного документооборота и архивирования. С другой стороны, большинство компонентов КЭА являются уникальными и настраиваемыми образцами. Поэтому при проектировании КЭА возникают две взаимосвязанные проблемы:

  • оценка и выбор компонентов,
  • интегрирование технологий, программных продуктов и технических средств.

Выбор некоторых компонентов, например высокопроизводительной сети, конкретных серверов или RAID-массива, совпадает с современными технологическими решениями построения традиционных автоматизированных информационных систем. В то же время ряд компонентов имеет уникальную ориентацию именно на электронное архивирование. Особый интерес вызывает выбор специфических компонентов КЭА.

Технологии индексирования и поиска

Ядром КЭА по праву можно считать используемые технологии индексирования и поиска. На российском рынке обозначились несколько таких технологий, используемых для построения электронных архивов.

Первое направление относится к классу традиционных информационно-поисковых систем, основанных на атрибутном поиске структурированных данных: DOCS Open (PC DOCS), XDOC (Rank Xerox), SoftSolution (Novell), PaperWise (PaperWise) и др. Строго говоря, данное направление не является технологией корпоративного электронного архивирования. Дело в том, что визуальный контроль и полуавтоматизированное заполнение атрибутов практически не реализуемы в основной массе документов крупного архива, содержащего десятки миллионов документов.

Альтернативное направление электронного архивирования базируется на принципе полнотекстового индексирования неструктурированных данных и включает два вида индексирования:

  • контекстно-независимое индексирование, не зависящее от естественного языка по причине бинарной или словарной индексации;
  • контекстно-зависимое индексирование, позволяющее оптимизировать индексацию и поиск с учетом специфики морфологии и семантики естественного языка.

Известно несколько методов контекстно-независимого индексирования. Наиболее распространенный - это индексация на базе инвертированной матрицы, где словам или нормализованным словоформам приводятся в соответствие адреса документов (индексы). Другой метод - бинарное индексирование. Используя теорию распознавания образов, реализуется нечеткий поиск или поиск подобных, с точки зрения бинарных единиц, слов.

Средства контекстно-зависимого индексирования, ориентированные на русский язык, пока находятся в стадии планируемой локализации.

В целом технология полнотекстового электронного архива представлена двумя магистральными направлениями:

  1. технологией электронного архивирования, использующей возможности современных промышленных СУБД;
  2. технологией, основанной на специализированных системах индексирования и поиска.

Первый подход основан на использовании средств SQL - это полнотекстовая индексация типа инвертированной матрицы, поэтому объем индекса может занимать 30-35% от общего объема БД. К достоинствам данного метода можно отнести следующие моменты:

  • помимо функций индексирования, в СУБД присутствует большинство необходимых функциональных, сервисных и технологических функций поддержки качественной архивной деятельности и документооборота. Эти средства существенно упрощают задачи интегрирования средств и функций, защиты информации и др.;
  • СУБД широко распространены - нет необходимости осваивать новые продукты;
  • эти средства имеют многолетнюю апробацию и будут поддерживаться и развиваться еще много лет.

К основным недостаткам следует отнести то, что СУБД изначально не ориентированы на интенсивную обработку сверхбольшого объема разнородной информации. Поэтому ряд функций по построению запросов и скорости поиска менее эффектны и изящны, чем в специализированных пакетах. Например, большинство СУБД пока не имеют средств поддержки нечеткого поиска. Поэтому необходим этап верификации введенного текста с целью исправления возможных ошибок сканирования и распознавания. Однако сейчас наблюдается тенденция к выпуску новых версий программных продуктов, ориентированных на обработку сверхбольших объемов данных.

Второй подход, включающий полнотекстовое индексирование и поиск, основан на использовании специализированных пакетов. Многие считают, что традиционные системы не годятся для решения задач КЭА, где требуются исключительно мощные процессоры данных, оптимизированные по критерию скорости доступа. Примером указанных систем служат программные продукты компании Excalibur Technologies, которые обладают следующими достоинствами:

  • системы имеют более качественные возможности по индексированию и поиску, в частности они реализуют нечеткий поиск;
  • системы характеризуются высокой скоростью доступа;
  • объем индекса не превышает 30% объема текстовых данных;
  • системы, кроме неструктурируемых данных, обычно поддерживают различные данные мультимедиа.

Какие при этом возникают сопутствующие проблемы? Во-первых, результаты нечеткого поиска существенно зависят от качества задания запроса, и пользователи сталкиваются с проблемой шума - получения не тех документов. Во-вторых, эти системы в большинстве своем рассчитаны на мощные параллельные вычислительные системы, имеющие весьма высокую стоимость. Но главный недостаток заключается в том, что данные системы ориентированы исключительно на индексирование и поиск, и существенно ограничены в функциях управления документами. У пользователей возникают далеко непростые задачи создания собственных технологических и сервисных функций, интегрирования технологий и программно-аппаратных средств и т.п.

Сканеры поточного ввода

Одной из самых слабых сторон КЭА являются сканеры, которые должны обеспечить безотказный высокопроизводительный ввод документов на бумажных носителях низкого качества. Практика показала, что офисные сканеры с автоподатчиками непригодны для поточного ввода документов, хранящихся в отечественных архивах. Возможной альтернативой является использование специализированных промышленных сканеров, ориентированных на поточный ввод архивных документов. Отличительная особенность таких сканеров - ротационный механизм перемещения документов, позволяющий вводить данные с бумажных носителей плохого качества. На российском рынке наиболее известны три типа промышленных сканеров: Bell&Howell, Fujitsu и Kodak (см. таблицу 2). Самыми эффективными, с точки зрения поточного ввода, считаются сканеры фирмы Kodak, которые включают в себя процессор распознавания текста, систему диагностики и управления. Они имеют технологическую поддержку системы архивирования (запись на компакт-диски, микрофильмирование, стыковку с автоматическими библиотеками и др.). Здесь следует отметить, что функция микрофильмирования все еще часто используется в ряде электронных архивов по причине того, что электронная копия документа в России, в отличие от микрофильма, пока не имеет юридической силы. Основногй недостаток указанных сканеров - их высокая стоимость: полная поставка с программными средствами и офисными стойками достигает 100-300 тыс. долл.

Устройства хранения данных

Все данные в системе находятся в двух видах: поисковом текстовом образе и графическом образе собственно документа.

Использование магнитных дисковых носителей для хранения графического образа документов не представляется возможным вследствие их высокой стоимости. Наиболее подходящими носителями могут быть магнитооптические, фазоинверсные (PD/CD), компакт- (CD-R) и WORM-диски (таблица 3). Для автоматизации поиска дисков, их извлечения и установки используются автоматические библиотеки (jukebox). Сегодня наиболее распространенными являются библиотеки магнитооптических и компакт-дисков. Предпочтительность использования магнитооптических дисков перед компакт-дисками основана на том, что первые позволяют перезаписывать информацию. Указанные диски более устойчивы к ошибкам записи, имеют более высокую скорость чтения, однако уступают компакт-дискам по гарантийным срокам хранения информации и стоимости. Если магнитооптические диски, в лучшем случае, декларируют сохранность информации в течение 30 лет, то гарантия на компакт-диски может составлять 100 и более лет. Что касается стоимости систем хранения на базе магнитооптических и компакт-дисков, то она может отличаться в 4 раза. С учетом того, что большинство архивных документов, практически, не подлежат модификации и удалению, библиотеки на компакт-дисках могут оказаться более предпочтительными.

Заключение

Каковы же основные инженерно-технические трудности создания КЭА? Как уже отмечалось, указанная технология предполагает решение двух крупных задач: наполнение электронного архива и обеспечение эффективного поиска. Первая захватывает ряд инженерно-технических проблем, решение которых может потребовать существенных временных затрат. Это обусловливает важность эффективной организации процесса разработки. При решении второй задачи наиболее актуальными являются вопросы оптимизации запросов по критерию скорости выполнения. Очевидно, что эта технология весьма дорогостоящая, и по плечу она только крупным организациям. Поэтому, учитывая определенные затраты на создание системы, перечислим основные достоинства КЭА.

Во-первых, повышение полноты и оперативности отработки запросов к архиву. Особенно это эффективно смотрится при выполнении нерегламентированного срочного запроса. То, что раньше ждали месяцами, причем без всякой уверенности в положительном ответе, теперь можно получить за секунды и в совершенно ином качестве.

Во-вторых, компактность и надежность хранения. Здесь можно ожидать сокращение персонала, помещений и затрат на гарантированное хранение. Сужение круга допущенных лиц, контроль доступа к системе позволят повысить не только сохранность, но и безопасность информации. Хранение документов в электронном виде приводит к тому, что ряд архивных функций, таких как ксерокопирование, микрофильмирование, ведение автоматизированных картотек, будут сокращены за ненадобностью.

В-третьих, создается возможность проведения оперативного анализа имеющейся информации, что повысит обоснованность принимаемых решений высшим и средним звеньями руководителей.

Кроме того, автоматизация архива как информационного центра корпорации или отрасли позволит наметить новейшие локомотивные подходы к интеграции различных автоматизированных систем от офисной СУД до WWW.

Несомненно, создание корпоративного электронного архива будет способствовать улучшению имиджа и престижа организации, а следовательно, принесет стратегические прибыли.


С Алексеем Марковым можно связаться по тел.: (095)195-7534.

Таблица 1. Основные функции и подсистемы электронного архива.

Функции
  • сканирования,
  • распознавания и корректирования ошибок,
  • создания и миграции электронных документов и образов,
  • индексирования документов,
  • оперативного поиска и отображения документов,
  • анализа документов,
  • управления функционированием системы
Подсистемы
  • ввода,
  • хранения,
  • индексирования,
  • поиска и отображения,
  • анализа,
  • управления потоками,
  • администрирования и научно-технического сопровождения.

Таблица 2. Сканеры поточного ввода.

Тип сканера
Скорость сканирования A4/260 dpi, лист/мин
Разрешение, dpi
Формат документа, тип сканирования
Ориентировочная цена, тыс. долл.
Bell&Howell 2135
36
200
А4, одноосторонний
8
Bell&Howell 2138А
72
200
А4, односторонний
26
Bell&Howell 6338
42
200-300
А3, двусторонний
29
Fujisu 3099G
55
200-400
A3, двусторонний
34
KODAK IMAGELINK Scanner 500S
144
66-300
А3, односторонний
62
KODAK IMAGELINK Scanner 923D
144
67-300
А3, двусторонний
104
KODAK IMAGELINK Scanner/Microimager 990
120
67-200
А3, двусторонний
107

Таблица 3. Оптические и магнитооптические накопители.

Тип диска
Емкость, Мбайт
Число циклов перезаписи
Ориентировочная цена, долл.
5,25" MD диски
650, 1300,2600
1000000
60-180
PD/CD-диски фазоинверсной записи
650
100000
50
WORM-диски
1000-10000
однократно
20-400
Компакт-диски CD-R
650
однократно
10