Поиск с учетом контекста

«Директор информационной службы»

Творцы проекта Excalibur сулят «осмысленное» индексирование всей информации в Internet

Рождение в 1990 году World Wide Web обострило проблему поиска информации во множестве неструктурированных документов.

Первые инструменты в этой области — поисковые системы на основе ключевых слов — не особо точны. Развитие их возможностей, в частности анализ контекста и определение степени релевантности, позволило существенно улучшить качество поиска. Но даже наиболее совершенные представители этого семейства по-прежнему порождают избыточные и неточные результаты.

Свое решение этой актуальной проблемы предложила компания Convera Technologies, возникшая в 2000 году в результате объединения компании Excalibur Technologies, имевшей 20-летний опыт решений в данной области, и подразделения Intel — Interactive Media Services Division. Она анонсировала изменения в своей политике и выход на рынок аналитико-поисковой системы Excalibur 5 июля 2005 года.

Технологической основой нового проекта является главный продукт компании — Convera RetrievalWare. Он реализует четыре основных вида поиска: булевский с учетом морфологии, поиск по интервалу (например, в диапазоне значений «2000-2005 годы»), нечеткий поиск и семантический. В основе последнего лежат таксономии, которые представляют собой семантическую сеть, отражающую множество понятий и отношений между ними, свойственных тому или иному естественному языку.

Характеризуя значимость проекта, генеральный директор российского офиса Convera Александр Громов, отметил, что вся информация в Сети подвергается полнотекстовой индексации и становится доступной для поиска с учетом включения лингвистических ресурсов.

Поиск не ограничен только своим языковым пространством. Кроме лексической информации можно анализировать графическую, а также осуществлять аудиопоиск по голосу, фонограмме, музыкальному отрывку и т. д. При этом поиск выполняется не только в Internet, но и в таких хранилищах информации, как Национальная библиотека Конгресса США, Большая британская библиотека, основные национальные регистры США и Великобритании, регистры военных ведомств и т. д., естественно, при наличии права доступа к ним.

В октябре будет представлена полнофункциональная версия. Эксперты, по словам Громова, считают, что общее число страниц в Internet — около 8 млрд. (с учетом «зеркал»), из них в рамках проекта обрабатывается более 4 млрд., поскольку после запуска проекта выяснилось, что 47% Web-пространства занято порнографией. Для предварительной классификации информации использовалось 5 млн. категорий, на их создание ушло около трех лет. Нынешняя бета-версия поддерживает три языка — английский, испанский и французский, включение в этот список русского планируется при осуществлении второй очереди проекта, которая стартует с января 2006 года. Поиск на русском языке можно осуществлять и сейчас, но пока отсутствует полноценный морфологический разбор запроса, нет возможности использовать для уточнения запроса таксономии, где лексические единицы представлены со всеми своими семантическими связями, характеризующимися частотой использования.

Создание необходимого количества таксономий в русском языке — это задача для большого количества экспертов и специалистов, как в лингвистике, так и в предметных областях: экономике, политике, социологии и т. д. К октябрю будет готово около 1,5 тыс. таксономий, а к моменту, когда русский язык будет включен в проект, — январь-февраль 2006 года — их количество, по словам Громова, достигнет 12 тыс.

В планах компании не стоит делегирование создания таксономий пользователям — это задача экспертов. При работе под заказ таксономии создаются для конкретного клиента, сотрудники которого обучаются методам их пополнения. Обычно в предметных областях клиенты знают, что они хотят, например, правоохранительным органам нужна таксономия в области криминалистики с использованием ненормативной лексики. Сейчас есть политическая, нефтегазовая, банковская и т. д. таксономии. Время внедрения не превышает четырех месяцев и зависит от специфики настройки.

Не стоит также забывать и об «оборонительном» аспекте проекта — контроль всего Internert-пространства для решения задач борьбы с терроризмом, в том числе и информационным. Решается и проблема защиты от спама, причем анализируется не первая или адресная строки, как это делается обычно, а весь документ.

Сегодня в проекте используется Convera RetrievalWare 8. К началу 2006 года будет готова версия 9, и объемы индексируемых данных увеличатся с терабайт до петабайт.

В перспективе расширение функциональности продукта, в частности будут добавлены возможности экспертной системы. К примеру, появятся средства корреляционного анализа и исследования сценариев.