Предлагается подход к построению открытых информационных систем для небольших организаций на основе продукта ODB-Text.


Основные положения
Открытая полнотекстовая ИПС ODB-Text
Области применения

Характеристики программного комплекса ODB-Text


Основные положения

Проблема хранения документов в электронном виде все еще представляется актуальной. Для ее решения научно-производственным центром "Интелтек Плюс" предлагается использовать информационно-поисковую систему (ИПС), ядро которой - оригинальная объектно-ориентированная база данных. При проектировании продукта ODB-Text, позволяющего создавать такие ИПС, был выбран объектно-ориентированный подход, отвечающий современной тенденции к усложнению документов, включаемых в базу, а также необходимости гибкого управления документооборотом. Таким образом достигается наглядное представление сложных данных, в свою очередь приводящее к эффективной работе конечного пользователя в ходе эксплуатации создаваемой по данной технологии ИПС. Кроме того, преодолевается недостаток многих популярных СУБД, изначально не предназначаемых для хранения записей переменного размера.

Остановимся несколько подробнее на проблемах, традиционно встающих перед разработчиками ИПС. В большинстве организаций электронные копии документов хранятся в архивах на файл-сервере, и в этом случае поиск информации затруднен. Важным шагом в решении проблемы поиска документов стало появление информационно-поисковых систем, к которым следует отнести правовые системы "КонсультантПлюс", разработанную НПО "Вычислительная математика и информатика", "Гарант" - НП "Гарант-Сервис" и "Кодекс" от "Центра компьютерных разработок".

Научно-производственный центр "Интелтек Плюс" также накопил большой опыт разработки юридических баз данных. Акцент был сделан на разработке юридических ИПС, учитывающих специфику требований конкретного заказчика. Такова, например, система "Празис", разработанная по заказу Центра изобретений России для Министерства общего и профессионального образования РФ. Практика показывает, что несмотря на наличие ограниченного количества видов документов, находящихся в документообороте любой организации, и тех функций, которые должна выполнять информационная система по отношению к этим документам, их заранее очень сложно учесть. Здесь приходится считаться и с несовершенством законодательства РФ, и с постоянными изменениями в структуре и названиях органов исполнительной власти, издающих огромное количество подзаконных нормативных актов, которые становятся, как правило, важнее и актуальнее для конечных пользователей подобного рода информационных систем, чем сами законы. Очень часто после таких изменений в той или иной степени трансформируются и внутренние документы предприятий. Таким образом, у информационно-правовых систем с жестко задаваемыми типами документов всегда будут существовать проблемы оперативного изменения информации в базах данных, в том числе модификации структуры документов, удаления, добавления и изменения названий поисковых ключей и т. д. Путем привлечения большого числа юристов, программистов и операторов эту проблему можно решить, если речь идет о внесении оперативных изменений в базы данных нормативных актов, хотя при этом всегда будет существовать вероятность того, что какие-то изменения не удалось отследить или оперативно сообщить о них пользователю. В таком случае большие нарекания со стороны пользователя неизбежны.

Проблема, о которой идет речь, становится практически неразрешимой, если пользователь желает, чтобы вслед за изменениями в законодательстве или ведомственных инструкциях оперативно корректировались его собственные документы. В этом случае самое незначительное изменение в документообороте может приводить к необходимости переработки всей информационной системы, т. е. к работе, сопоставимой по сложности и затратам с новым проектом, который далеко не каждый заказчик будет финансировать. Напрашивается единственно возможный вариант снятия проблемы: предоставить пользователю возможность самому вносить изменения в информационные базы данных, тем более что предметную область, с которой он работает, лучше него никто не знает. В таком случае речь может идти о том, чтобы дать ему в руки достаточно мощный, но в то же время и понятный инструментарий для создания и поддержания открытых полнотекстовых информационных систем. Кроме соблюдения принципа открытости, подобного рода информационная система должна сохранить и расширить возможности современных полнотекстовых и гипертекстовых систем, которые, безусловно, нравятся пользователям. Такие, например, как мощный механизм навигации по текстам документов, реализуемый в результате выделения понятий, разметки оглавлений документов, установки прямых и обратных гипертекстовых ссылок между документами и внутри одного документа, а также ведение баз данных реквизитов документов или широкие возможности поиска и печати документов и т. д. Именно таким инструментальным средством является программный комплекс ODB-Text.

С его помощью пользователь не только в состоянии оперативно отслеживать изменения законодательства и заносить в базу нормативных актов ведомственные инструкции, но и корректировать свои собственные документы, которые он может хранить в той же самой базе данных. При таком подходе, используя ODB-Text версии 2.0, можно построить свою работу таким образом, что любое изменение базы данных будет приводить к изменениям и во внутренних документах. При необходимости ODB-Text позволяет связать документ пользователя гипертекстовыми ссылками с другими документами базы, разметить в нем смысловые понятия, создать оглавление.

Эффективная многопользовательская работа с документами, в том числе и нескольких пользователей с одним документом, достигается в локальной вычислительной сети, по этой причине программный комплекс ODB-Text изначально предполагает поддержку сетевой организации работы.

Однако вряд ли следует рассчитывать на то, что в самое ближайшее время все бумажные носители информации будут заменены на электронные. Такой прогноз годится разве что для научно-фантастического романа. Другое дело - предложить использовать ПК для упорядочения и ускорения поиска нужного документа в папке или книги на книжной полке в архиве. Для этого в информационной базе, которая хранит соответствующий документ в электронном виде, достаточно указать номера хранилища, шкафа, полки и номер, под которым значится оригинал документа в архиве, и, если необходимо, предоставить пользователю дополнительную информацию (например, что кто-то в данный момент взял документ из хранилища или переложил его в другую папку). При такой организации хранения документов преимущества, связанные с их электронной формой, главным из которых является быстрый поиск, сохранятся и для обычных документов. Чтобы достичь этого, достаточно потребовать от информационной системы, хранящей электронные документы, обеспечения возможности создавать дополнительные поля, в которые и будет заноситься информация о местоположении твердых копий документов. Очевидно, что эти поля будут различными в зависимости от размеров таких хранилищ и организации работы.

Таким образом, программный продукт ODB-Text поддерживает комплексное решение проблемы современного информационного хранилища для небольших и средних государственных учреждений, коммерческих фирм, отделов крупных предприятий, каталогов библиотек, наконец, для ведения домашних архивов.

Открытая полнотекстовая ИПС ODB-Text

Центральное понятие в ODB-Text - документ, причем это не файл (как, например, в системе "Евфрат" фирмы Cognitive Technologies), а собственно документ в базе данных, снабженный регистрационной карточкой. Для конкретного вида документа пользователь создает регистрационную форму, в которой указывается, какая информация будет сопутствовать каждому экземпляру документа. Форма представляет собой набор полей различных типов. Например, для договора наверняка будут указаны название организации-контрагента, дата подписания, общая сумма, количество и сроки выполнения этапов и т. п. Подчеркнем, что каждый пользователь может сформировать наиболее подходящий для себя и для своей фирмы вариант. В дальнейшем в регистрационной форме можно легко переименовать, добавить, удалить поля. После перемен система будет отображать новые поля, сохраняя содержимое старых, в том числе переименованных.

Новые документы вводятся во встроенном редакторе документов. Если какие-то документы есть в виде файла на диске, то их можно загрузить в базу данных. Главная особенность ODB-Text версии 2.0 - поддержка протокола OLE2. Напомним, что этот механизм обеспечивает интеграцию объектов OLE-сервера в документы других программ. Программа-клиент ODB-Text позволяет сохранять в базе данных документы, в которые вставлены объекты OLE. Текстовые документы MS Word, таблицы MS Excel, презентации PowerPoint, иллюстрации, подготовленные в программах CorelDRAW!, Adobe Photoshop, чертежи Autocad for Windows - вот далеко не полный перечень объектов, хранимых в базе данных ODB-Text.

Документы заносятся в базу офиса, чтобы впоследствии их можно было найти, просмотреть и изменить, поэтому, например, целесообразно существенную информацию вынести из текста в регистрационную форму. Представленные таким образом документы значительно удобнее для восприятия при работе с ними. Редактор, упомянутый выше, представляет собой инструмент формирования дополнительной информации о документе - смысловых понятий, оглавления, гипертекстовых ссылок на другие документы или на строки в тексте этого же документа. После разметки дополнительная информация выделяется непосредственно в тексте и для удобства пользователя может быть выведена отдельными списками. Таким образом, изначальный "бумажный" документ превращается в свой электронный двойник, с которым гораздо удобнее работать. Время, потраченное на обработку текста, расстановку ссылок, оглавление, выделение понятий, с лихвой окупится впоследствии удобством работы с документом. Как и любая ИПС, ODB-Text предлагает каталог-рубрикатор, куда можно записать названия всех документов в системе, сгруппировав их по специфическим признакам и разнеся по рубрикам.

Поиск в системе ведется как по полям регистрационной карточки, так и по тексту документа. Изюминка ODB-Text - полнотекстовый поиск по запросам на естественном языке. Пользователю нет нужды вручную конструировать поисковые запросы: достаточно ввести фразу на разговорном языке (разумеется, чем ближе лексика запроса будет к предметной области, тем выше релевантность ответа). Далее система сама интерпретирует запрос, учитывая морфологические правила русского языка и расстояние между словами. С учетом этих факторов выполняется также полнотекстовый поиск. Наряду с этим в ODB-Text поддерживается и традиционный контекстный поиск с использованием логических отношений ("и", "или") между словами и запросов с маскированием окончаний слов.

Программный продукт ODB-Text проектировался как средство коллективной работы с документами. Если клиент обращается за документом, то ему передается только копия из информационного хранилища. Пользователи имеют возможность одновременной работы с одним и тем же документом, причем клиент, который просматривает документ, редактируемый кем-нибудь другим, получает все изменения по мере их совершения. Разумеется, отслеживаются попытки удаления документа, находящегося в работе. Наконец, в момент, когда последний пользователь завершает редактирование, документ сохраняется в базе данных, изменения индексируются и становятся доступными для каждого клиента.

Система ODB-Text реализована с применением технологии объектного программирования. Поскольку программный комплекс написан для одноранговой сети под управлением Windows 3.1 или Windows 95, то на его основе можно строить масштабируемые решения, например варианты с несколькими серверами в сети или когда сервер размещен на любом компьютере сети. Поскольку в программном комплексе ODB-Text используется стандартный для Windows высокоуровневый протокол обмена данными, то система успешно функционирует в сетях различного типа. Удаленный доступ реализуется средствами Windows 95. Таким образом, возможности программного комплекса будут расти по мере появления новых версий этой ОС.

Области применения

Информационное хранилище в ODB-Text - объектная база данных. Тем самым преодолевается недостаток многих популярных СУБД, которые изначально не были предназначены для хранения записей переменного размера. Объектная архитектура базы данных открывает перспективы использования ODB-Text для наполнения графическими изображениями, мультимедийной информацией и удовлетворения потребностей в хранении специальных данных.

Основной областью применения программного продукта ODB-Text версии 2.0 является создание и поддержка специализированных открытых информационно-поисковых правовых систем, максимально учитывающих требования заказчика. При этом система, построенная с использованием предлагаемой технологии, может в случае необходимости интегрировать в себе весь документооборот, начиная с договоров и бухгалтерской документации и кончая рекламными буклетами.

Определились и другие области использования системы, к которым можно отнести следующие:

  • создание информационных систем для издательств (в этом случае очевидны такие преимущества, как возможность хранения и поиска текстовой информации больших объемов, многопользовательская сетевая работа с документами, хранение оригинал-макетов изданий, рекламной информации как OLE-объектов);
  • создание электронных систем учета кадров для малых и средних предприятий;
  • разработка электронных учебников и электронных учебных пособий (успех подобного использования программного продукта определяется сочетанием функций открытой полнотекстовой системы, в первую очередь широких возможностей поиска информации, и способностью хранить OLE-объекты);
  • создание разного рода библиотечных систем, в которых, кроме справочной информации, хранятся электронные копии книг;
  • организация специализированных хранилищ информации (например, медицинских карт, содержащих наряду с текстовой информацией и результаты различных анализов и обследований, если они представимы в виде OLE-объектов; баз данных о лекарствах, баз данных видеофильмов и слайдов).
  • Кроме того, области использования системы без особого труда расширяются также на те сферы деятельности, в которых существует объемный документооборот, при этом число типов документов значительно и заказчик предъявляет высокие требования к времени поиска документа. Именно так обстоят дела в налоговой службе, на таможне, в адвокатуре и нотариате, в банковской и аудиторской деятельности.

    Имея в виду подобные перспективы, важно заметить, что все они могут быть реализованы либо в базе одного пользователя, либо в виде нескольких баз данных, либо даже в одной базе данных, содержащей большое число различных типов документов. В качестве примера можно указать на информационную систему новосибирской газеты "Молодость Сибири", используемую в издательском процессе, которая создана средствами ODB-Text.

    Завершая статью, следует отметить, что в НПЦ "Интелтек Плюс", основываясь на предложенном подходе к построению открытых ИПС, наряду с работой над текущей версией ODB-Text, ведутся активные поиски подходов к анализу содержимого документов. В частности, этому посвящен проект "Минерва" - инструментарий интеллектуального анализа, который позволяет работать не только с текстом, но и с некоторыми аспектами смыслового содержания документа. Например, проанализировать, противоречит ли проект контракта действующему законодательству или другим заключенным ранее договорам, получить временные срезы нормативных актов и т. п.


    А.М. Андреев - канд. техн. наук, доцент МГТУ им. Н.Э. Баумана, Д.В. Березкин - канд. техн. наук, Ю.А. Кантонистов - сотрудники НПЦ "Интелтек Плюс"

    ODB-Text


    Коротко о продукте: инструмент для быстрого создания информационно-поисковых систем, ведения сетевых баз данных, архивов, работающих в среде Windows 3.1 и Windows 95.
    Цена: 495 долл.
    НПЦ "Интелтек Плюс", тел.: (095) 177-80-28

    Характеристики программного комплекса ODB-Text

    Комплекс ODB-Text поддерживает архитектуру клиент - сервер. "Программа-сервер" размещается, как правило, на мощном компьютере, на котором располагаются базы данных, выполняются поисковые запросы, ведется журнал транзакций.

    Конечные пользователи работают с "Программой-клиентом", с ее помощью в ИПС вводятся новые документы, обрабатываются уже занесенные, формируются поисковые запросы. Можно вводить поисковые запросы на естественном языке и получать ответы, в которых документы будут располагаться по степени близости к запросу. Реализована возможность включения в текст документа OLE-объектов, и тем самым базы могут содержать документы сложной структуры.

    Специальная утилита "Дизайнер форм" служит для конструирования пользовательских видов документов, которые будут храниться в базе. "Дизайнер форм" обеспечивает гибкую настройку системы на виды документов, используемые на данном предприятии, и позволяет создать практически неограниченное количество видов документов в пределах одной и той же базы.

    В сетевом режиме работы несколько пользователей ИПС имеют возможность обрабатывать один документ, при этом каждый оперативно получает изменения, внесенные остальными пользователями.