Так, например, поступила российская компания RedLab, которая предлагает дополнительные модули к базе данных Informix для работы с текстовыми архивами. О выходе на российский рынок нового модуля DataBlade из серии "Русский Текст" было объявлено на презентации, прошедшей 23 сентября в рамках выставки SofTool.

Хранение и обработка архива документов - одна из первых задач, которые начали решать с помощью вычислительной техники. Потребность в таких инструментах постоянно растет, поскольку все больше архивов переводится в электронный вид с целью сделать их более управляемыми. RedLab предлагает решить эту проблему с помощью объектно-реляционной технологии, используемой в СУБД Informix. Представленные компанией RedLab модули DataBlade превращают сервер СУБД Informix в инструмент для хранения огромных массивов документов. Сотрудники Informix утверждают, что теоретически в их базе данных можно хранить несколько терабайтов информации. Разработанные компанией модули из серии "Русский Текст" позволяют производить поиск в таком огромном архиве, структурировать и анализировать хранящуюся в нем информацию. Модули интегрированы в базу данных на уровне ядра, поддерживают русскую морфологию и позволяют хранить документы в различных форматах и кодировках.

Первый российский модуль - "Русский Текст - Поиск" был выпущен компанией RedLab в 1997 году. Он был сертифицирован компанией Informix на соответствие спецификации DataBlade. Этот модуль обладал неплохими функциями поиска необходимых документов в архиве. Однако с выходом нового модуля "Русский Текст - Рубрикатор" возможности поиска расширились, упростилась его технология, поскольку появилась возможность легко придать архиву определенную структуру.

Документы вносятся в рубрику автоматически по определенным правилам, которые задает разработчик архива. Они опираются на список ключевых слов и их весовых коэффициентов. Причем создать новую рубрику можно как вручную, набрав ключевые слова и определив их коэффициенты, так и автоматически. Во втором случае системе предлагается 10 - 15 документов, имеющих что-либо общее. В этих документах программа выделяет ключевые слова или выражения (до трех слов в словосочетании) и их весовые коэффициенты. Затем полученные результаты должен обработать эксперт, который очистит критерии от лишних элементов и дополнит недостающие ключевые слова. После этого новую рубрику можно использовать для получения дополнительной информации о документе. Правда, для проверки принадлежности старых документов новой рубрике нужно запустить процедуру индексирования. Ее скорость около 5 Мбайт в минуту. Причем в критериях будут использоваться не только явно определенные слова, но и их синонимы, содержащиеся в специальном словаре. Кроме этого словаря, для анализа архива используются и два других - морфологический и частотный.

Следует отметить, что модули разработала компания RedCenter, которая в начале лета выделилась из RedLab. Однако продажами и внедрением этой технологии занимается все-таки RedLab, которая предлагает клиентам различные способы установки системы - от варианта "под ключ" до совместных пилотных проектов. Причем пользователи могут попробовать работу системы по временной лицензии на все программное обеспечение. Сейчас модули работают только под операционными системами Solaris и NT, но планируется их перенос и на другие ОС, поддерживаемые Informix. Представители компании утверждают, что функциональные возможности выпущенных модулей будут расширяться, а кроме того, будут выходить и новые модули серии "Русский Текст".

Поделитесь материалом с коллегами и друзьями