PCBIRS и традиционные СУБД

Работа с крупными информационными массивами на персональном компьютере связана с необходимостью решать целый ряд проблем. Если хранение информации осуществляется благодаря возможностям аппаратных средств и операционной системы, то поиск информации, манипулирование ею, а также включение в алгоритм и принятие решений целиком ложатся на соответствующее ПО.

Положение можно существенно упростить, если информация будет поступать и в дальнейшем храниться в виде структурированных данных. В таком случае удается формализовать большинство операций обработки информации, поскольку манипулирование самими данными можно заменить манипулированием их именами.

Возможность формализации процедур обработки информации для структурированных данных во многом определяет направления развития соответствующего ПО. Многочисленные СУБД, представленные на рынке программных продуктов, отличаются друг от друга организацией хранения информации, методами доступа, сервисом для конечного пользователя, а объединяет их общее - работа со структурами данных. Но при этом часто открытым остается один чрезвычайно важный вопрос: каким образом исходные сообщения, поступающие в виде свободных текстов, образуют собственно базу, т. е. хранилище информации в виде структур связанных данных?

К сожалению, общего подхода к подобной проблеме не существует, и проектировщику баз данных приходится полагаться в основном на интуицию и практический опыт. Создавая структуру для хранения данных, он должен быть заранее уверен, что меняться будут сами данные, а структура останется неизменной. Достичь этого удается при сложившихся и достаточно четких стереотипах обработки. Но следует помнить, что такая база данных - вторичный продукт предварительной обработки и анализа первичной информации, а процедура формализации и абстрагирования при структурировании может привести не только к упрощению, но и к потере смысла информации, вырванной из контекста исходных сообщений. С данным обстоятельством особо приходится считаться тем, кто выступает на рынке в качестве поставщика информации. Естественное стремление к расширению круга потребителей приводит не только к избыточности поставляемых информационных массивов, но и к желанию избежать жесткой структуризации самой информации. Следует также учитывать, что большая часть информации (письма, протоколы, нормативные акты, указы, законы и т. п.) вообще не поддается какому-либо априорному структурированию и чаще всего представляется в виде свободных текстов.

В связи с этим особое значение приобретает ПО, предоставляющее возможность одновременной работы как со структурированными, так и с полнотекстовыми базами данных. Причем не только в традиционном ключе обеспечения многокритериального контекстного поиска документов по их содержанию. С ростом объемов информационных массивов на передний план выдвигается задача анализа найденной информации и извлечения из нее данных для включения в процессы принятия решений.

Изложенные выше соображения рассматривались в первую очередь в ходе разработки системы управления документально-фактографическими базами данных PCBIRS (в настоящее время закончена и распространяется версия 3.0).

В отличие от широко распространенных СУБД система PCBIRS ориентирована на работу с информацией, которую в известном смысле следует рассматривать в качестве сырья и как бы первоисточника для дальнейшей аналитической обработки.

PCBIRS реализует главным образом те стереотипы обработки, которые связаны с поиском и анализом первичной информации, представленной в виде свободных текстов. Основная идея такого подхода заключена в обеспечении возможности хранить информацию и манипулировать ею в том виде, в каком она поступает, а необходимые структуры данных получать динамически (виртуально) в зависимости от решаемой задачи и выдвигаемой цели. В терминологии PCBIRS это виртуальные списки, создаваемые на множестве найденных документов.

Важная задача, решенная при создании PCBIRS 3.0, - обеспечение прозрачности при работе с большими массивами полнотекстовой и структурированной информации, поскольку в конечном итоге для пользователя любой такой массив представляется неким "черным ящиком", просмотреть который целиком, документ за документом, не всегда возможно. Как правило, при выполнении запроса на поиск необходимой информации, всегда имеется шанс не получить ответ. Означает ли это, что требуемой информации нет или, может быть, запрос сформулирован неудачно? А нельзя ли получить представление о содержимом всего информационного массива в целом, не читая самих документов, и понять, о чем там в основном идет речь? Оказывается, можно. В PCBIRS для этого предусмотрены средства, которые избавляют пользователя от поиска вслепую.

Реализованные в PCBIRS возможности работы

В PCBIRS основной единицей хранения и объектом поиска информации является документ. Он может иметь или не иметь внутреннюю структуру, используемую при хранении информации, и содержать произвольные тексты, отдельные данные, графические изображения и параметры внешних функций.

Структурированный документ в PCBIRS состоит из отдельных частей (фрагментов), каждой из которых присваивается имя. Ограничения на размеры фрагментов не налагаются.

Всякий документ, загружаемый в базу данных при ее создании или модификации, проходит индексацию содержания (средняя скорость индексации полнотекстовой базы составляет 10 Мбайт/мин на компьютере с процессором Pentium-133). При этом автоматически строится поисковый словарь и инвертированный список для координат в текстах документов. Словарь терминов обеспечивает высокую скорость поиска документов, которая практически не зависит от объема базы данных (при поиске по отдельным терминам в зависимости от частоты их встречаемости на массивах в сотни мегабайтов она равняется от 0,01 до 0,1 сек).

В начале диалогового сеанса PCBIRS пользователю в зависимости от его статуса предлагается список доступных баз данных и тем.

При необходимости можно создать новую базу (описав ее структуру), изменить описание структуры существующей базы, сформировать новую тему и т. д.

Под темой в данном случае понимается совокупность баз данных, доступных для совместного использования во время диалогового сеанса. Каждая тема может включать в себя от одной до нескольких баз, как правило связанных общей смысловой направленностью (одна и та же база данных может входить в разные темы). Базы данных могут состоять из нескольких объединенных на логическом уровне подбаз.

Между базами, включенными в одну тему, могут устанавливаться различные связи на уровне используемых терминов (динамический гипертекст). В частности, запрос из одной базы темы позволит не только производить поиск в других базах, но и динамически создавать виртуальные базы, представляющие собой композицию фрагментов документов из разных баз.

Поиск документов в PCBIRS осуществляется по лексическим единицам (словам, числам, датам и их интервалам) или фразам, содержащимся в текстах документов. Нужные поисковые термины можно непосредственно отмечать в тексте просматриваемого документа, выбирать из словаря базы данных, из вспомогательных тематических словарей, а можно набирать вручную и формировать из них предложения запроса. Скорость поиска в PCBIRS практически не зависит от объемов баз данных.

Все запросы можно редактировать и запоминать для последующего многократного использования.

Еще один способ оформления текстов запросов на поиск документов связан с использованием понятий и иерархических классификаторов, что позволяет получать распределение документов базы данных по тематическим направлениям в автоматическом режиме.

Понятия представляют собой именованные запросы, которые можно выполнять как непосредственно, так и включать в другие запросы, указывая при этом лишь идентификаторы понятий. Уровень вложенности понятий не ограничен.

Классификаторы состоят из иерархически связанных узлов, где каждый узел имеет имя и соответствующий текст запроса. Поиск документов по такому запросу выполняется в классификаторе по принципу взаимного подчинения: запрос (узел) верхнего уровня определяет множество документов, полученное в результате выполнения всех запросов нижних подуровней. Таким образом, пользователь получает возможность отобразить множество документов в виде дерева тематических классов.

Списки понятий и классификаторы могут быть связаны как с конкретной базой данных, так и являться общими для нескольких баз. Имея набор классификаторов, отображающих различные темы какой-либо предметной области, можно добиться эффекта распознавания документов по содержанию, не читая самих текстов, что является чрезвычайно полезным при работе с большими массивами незнакомой информации.

PCBIRS 3.0 является не только продуктом для конечного пользователя, но и инструментом разработки развитых информационно-аналитических систем для собственной базы. Для этого служат встроенный язык программирования BML (Birs Macro Language) и несколько утилит.

Средства, предоставляемые BML, позволяют автоматически выбирать тексты из документов баз данных, вызывать требуемые функции обработки этих текстов, получать композицию документов из различных баз данных, выполнять фоновые запросы, строить специфические диалоги с пользователем, создавать собственные формы представления документов, запускать другие приложения и т. д. Программы на BML могут выполняться по команде пользователя или автоматически.

Входящие в состав PCBIRS менеджер информации и программы автономной подготовки баз данных предоставляют возможность настройки на автоматический прием и распределение информации, поступающей в компьютер по тем или иным каналам (таким, как электронная почта, факс и т. п.).

Найденные документы можно удалять из текста запроса, из базы данных, редактировать с немедленной или отложенной индексацией, отправлять на печать или экспортировать полностью или частично в другие Windows-приложения.

Если найденных документов оказалось слишком много, обычный просмотр информации может превратиться в утомительное занятие. Простейшее средство, предоставляемое PCBIRS, - мониторинг результата поиска, позволяющий вывести на экран только список актуальных фраз из текстов документов. Кроме того, работу с найденными документом существенно облегчает просмотр его частотного словаря.

На диалоговую панель словаря выводится список всех терминов, содержащихся в документе, и сведения об их количестве. Можно просмотреть и активную лексику, но только выбранного фрагмента, расположить термины по возрастанию или убыванию частоты употребления или в алфавитном порядке, а также настроить словарь на отображение терминов определенной тематики. Для этого существуют различные фильтры: по словам, числам, датам, времени, терминам, содержащим спецсимволы и входящим в текущий запрос, а также актуальным и пассивным. Последние два типа фильтров настраиваются пользователем для конкретной предметной области и могут использоваться затем при работе с другими базами данных.

PCBIRS позволяет формировать виртуальные списки данных, выбранных из найденных документов, можно представить их в виде различных диаграмм, графиков, двухмерных и трехмерных таблиц, в виде иерархических деревьев.

Встроенный в систему табличный калькулятор позволяет проводить различные арифметические вычисления.

Таким образом можно не только сортировать и отбирать документы в зависимости от содержащихся в них данных, но эти операции могут иметь самостоятельное значение для принятия решений и формирования различных отчетов.

PCBIRS 3.0 может работать в локальной сети распределенных баз данных с разграничением уровня доступа пользователей. При этом обеспечивается авторская защита информации, что особенно важно при подготовке электронных изданий.

В настоящее время ведутся работы по совершенствованию технологических характеристик системы. Прежде всего будут расширены возможности индексации произвольных информационных массивов, а также предполагается далнейшее развитие аппарата извлечения данных из текстов с учетом их смыслового содержания.


Виталий Юрьевич Бугаев - к.ф.-м.н., руководитель лаборатории ВНИИФТРИ; Александр Владимирович Белоцерковский - аспирант ВНИИФТРИ.

PCBIRS 3.0


Средство для поиска и анализа в крупных информационных массивах, создания и ведения структурированных и полнотекстовых баз данных в локальных сетях, разработки информационно-аналитических систем. Работает в среде Windows 3.x, Windows 95.

Автор и разработчик: Бугаев В.Ю., тел.: (095) 535-08-52,

e-mail: bgv@ftri.extech.msk.su

Цена: полный вариант для работы в локальной сети с неограниченным числом пользователей: 500 долл.; ограниченный вариант (без возможности создания и ведения баз данных): 100 долл.