Александр Громов: «Excalibur - это инструмент, задача которого - управлять знаниями, имеющимися у корпораций»
Качественно новые возможности локализации обрел поисковый сервер RetrievalWare производства Excalibur Technologies благодаря усилиям специалистов компании «Весть-Метатехнология»: российские разработчики создали русскоязычный модуль семантического поиска, которого так не хватало российским пользователям RetrievalWare. Эта разработка заняла два года.

Как пояснил Ян Флетчер, генеральный менеджер Excalibur Technologies в Европе, впервые возможности семантического поиска появились в RetrievalWare в 1995 году; это произошло вскоре после приобретения компании Conquest Technology. В настоящее время в продукте реализовано четыре основных вида поиска: булевский с учетом морфологии, поиск по интервалу (примером такого рода запроса может служить поиск в диапазоне значений «1995 - 1999»), нечеткий поиск и семантический, основанный на тезаурусах, представляющих собой семантическую сеть, отражающую множество понятий и отношений между ними, свойственных тому или иному естественному языку.

При создании русскоязычного семантического модуля разработчикам пришлось столкнуться с рядом проблем. Наиболее болезненным оказалось отсутствие в России достаточно полного семантического электронного тезауруса. (Александр Громов, директор по развитию компании «Весть-Метатехнология», считает, что в плане разработки семантического тезауруса наша страна отстает от Запада примерно на 25 лет.) По словам Марии Каменновой, генерального директора компании «Весть-Метатехнология», за основу разработки был взят семантический тезаурус фирмы «Информатик» как наиболее подходящий по совокупности критериев. Однако и он по своей полноте очень далек от тезаурусов, которые существуют для других языков. Так, в хорошем английском тезаурусе на одно слово в среднем приходится девять связей. В нынешней версии словаря для RetrievalWare таких связей всего четыре. Так что работы еще предстоит достаточно.

Новый модуль реализован на базе технологий Excalibur. Он позволяет осуществлять перенастройку и модификацию тезаурусов, дополнять их, использовать несколько тезаурусов (например, общей лексики и специализированные), создавать из них иерархические структуры. Что любопытно, модуль выполнен в виде достаточно самостоятельной программной единицы, которую можно применять и отдельно от RetrievalWare, в частности, встраивать в другие системы, требующие серьезной лингвистической поддержки. Кстати, сейчас ведется интеграция RetrievalWare с системой электронного архива DOCS Open компании PC DOCS/Fulcrum.

Основная ниша, на которую ориентирован семантический модуль, - управление знаниями. Он позволит решить многие проблемы, связанные с информационной избыточностью русскоязычных текстов, и будет способствовать усовершенствованию оперативности, эффективности и повышению качества управления. Не случайно интерес к продукту особенно велик у государственных силовых ведомств. В частности, Главное управление информации и связи ФАПСИ стало одной из испытательных площадок, на которых тестировался новый модуль. Другим серьезным тестировщиком продукта стал Федеральный институт промышленной собственности - ведущее патентное ведомство страны. Это обстоятельство указывает на еще один круг пользователей, заинтересованных в новых возможностях RetrievalWare и готовых за них платить, - это организации, имеющие очень большие объемы электронных документов. В настоящее время акцент будет делаться на «тяжелые» решения, хотя в будущем, возможно, появится облегченная версия, ориентированная на широкий круг потребителей.

В перспективе «Весть-Метатехнология» намерена расширить тезаурус общеупотребительных слов, создать ряд специализированных словарей, позаботиться о повышении производительности, возможно, внести модификации в архитектуру модуля, и кроме того, продолжить усовершенствование модуля морфологического разбора. Центральное место займет повышение качественных характеристик нового модуля, и прежде всего - развитие семантических тезаурусов.

Поделитесь материалом с коллегами и друзьями