Профессиональные поисковые системы Convera на российском рынке

В справедливости распространенного мнения, что человечество уже накопило информации больше, чем может обработать, убеждался каждый, кто хоть раз пользовался поисковыми системами в Internet.

И действительно, тот факт, что необходимая информация имеется в наличии, очень часто сводится на нет из-за невозможности ее быстро найти: редко кто в состоянии просмотреть больше десятка-двух из предлагаемых поисковиком сотен, а то и тысяч страниц.

Поэтому в последние годы все чаще можно услышать о Knowledge Management (КМ — «управление знаниями») и о системах, осуществляющих такое управление.

Известный производитель подобных систем Convera Technologies и ее российский мастер-реселлер компания «Одеон-АСТ» 18 февраля провели встречу с руководителями и представителями более шестидесяти ИТ-компаний, государственных организаций и прессы.

Перед собравшимися выступил генеральный менеджер в странах Европы, Азии и Африки компании Convera Ян Флетчер, который подробно рассказал о продуктовой линейке компании.

Четкость «нечеткого» поиска

Основным продуктом компании Convera является информационно-поисковая система RetrievalWare — мощное средство полнотекстового и атрибутивного поиска. Главная ее особенность — технология адаптивного распознавания образов APRP (Adaptive Pattern Recognition Processing), использующая для обработки информации нейронные сети и действующая как самоорганизующаяся система, которая автоматически выделяет в массиве хранимой информации двоичные образы и индексирует их.

Как частный случай APRP, в RetrievalWare реализован метод «нечеткого» (семантического) поиска, основанный не на поиске точных совпадений слов документа со словами запроса (как это происходит в традиционных поисковых системах), а на исчислении их меры близости. При этом используются так называемые семантические сети, описывающие смысл слов языка и связи между обозначаемыми ими понятиями. Семантическая сеть словаря русского языка включает в себя около 40 тысяч семантических групп в базовом варианте поставки (существуют также и другие варианты, в том числе с возможностью подключения лингвистических ресурсов сторонних разработчиков).

Искать с помощью RetrievalWare можно практически везде: в массивах как структурированной информации (например, СУБД), так и неструктурированной (тексты, распознанные образы сканированных документов, почтовые сообщения и т.д.) — всего более 250 форматов, существуют также инструменты для настройки на поддержку специфических форматов заказчика. Объем обрабатываемой информации может измеряться терабайтами, при этом время поиска с увеличением объема растет не линейно. В качестве клиентского места используется обычный браузер.

Как заявил Флетчер, такой способ поиска подходит далеко не для всех компаний. Так, если количество документов не превышает тысячи, тратиться на RetrievalWare попросту нет смысла (ведь стоит пакет недешево — 15 тыс. долл. за версию, обеспечивающую одновременную работу 25-30 пользователей). Мало подойдет эта система и для работы только с Internet-ресурсами. Поэтому основные клиенты Convera — крупные банки, государственные организации, СМИ, исследовательские центры и т.д.

Таких клиентов в нашей стране достаточно. Как заявил генеральный директор «Одеон-АСТ» Александр Громов, среди их заказчиков — ЦБ России, ФАПСИ, «Роспатент» и др. По словам Громова, всего в прошедшем году силами компании на территории СНГ было осуществлено 52 внедрения различных вариантов систем Convera (в это число входит и модернизация уже имевшихся решений). Планы на этот год достаточно амбициозны — увеличить оборот компании в три раза по сравнению с предыдущим.

Кадры решают все

Все большим спросом пользуется поиск в видеоархивах. Пока самым популярным способом остается ручной, требующий больших временных и людских затрат. Причем искомые видеоматериалы зачастую необходимо переводить из аналогового в цифровой формат для передачи по сети. В качестве полнофункционального решения для управления видеоархивами Convera предлагает продукт ScreeningRoom.

Лежащий в основе ScreeningRoom способ работы с видеоизображениями опирается на представление видеоинформации в виде так называемых storyboard — последовательности кадров, наиболее адекватно отражающих суть видеофрагмента. Автоматическое построение storyboard обеспечивает технология анализа видеоинформации VAE (Video Analysis Engine), которая выделяет для вводимой информации набор характерных кадров. VAE позволяет отследить резкий обрыв, постепенное появление и исчезновение видеофрагмента, плавное перетекание одного фрагмента в другой, смену масштаба и другие видеоэффекты.

Лежащий в основе ScreeningRoom способ работы с видеоизображениями опирается на представление видеоинформации в виде так называемых storyboard — последовательности кадров, наиболее адекватно отражающих суть видеофрагмента

Пользователь может указать жанровую принадлежность видеофрагмента (мультипликация, новости, реклама, хроника и т.п.), что повысит точность анализа. Вводится и анализируется информация при помощи клиента ввода видеоинформации — Capture Client.

Последовательность кадров хранится в сервере архива видеоинформации (Video Asset Server), который автоматически сохраняет и индексирует видеоинформацию.

Также может быть сохранен и индексирован текст субтитров и данные о продукте (название, производитель, дата и т.п.). Доступ как к storyboard, так и к собственно видеофрагменту возможен с помощью обычного браузера из локальной корпоративной сети или через Internet. Возможен поиск как по видео- (поиск по кадрам из storyboard при помощи Visual RetrievalWare), так и по текстовой информации (субтитры, название и т.п. — через RetrievalWare).

Поиск и редактирование storyboard осуществляется с помощью клиента редактирования, спроектированный для работы на Windows-платформе, а для «линейного» просмотра содержания видеофрагментов, находящихся в архиве, существует клиент просмотра.

Начиная с версии 2.0, в состав ScreeningRoom введены дополнительные опции для распознавания лиц и преобразования речи в текстовый вид (пока только для английского языка).

Пользовательский интерфейс может быть реализован на базе любого стандартного браузера.

Стоит вся эта система в полной версии около 100 тыс. долл.

Но даже располагая нужной суммой, следует помнить, что как и в любых других «интеллектуальных» поисковых системах, для эффективной работы ScreeningRoom требуется тщательная подготовка и настройка — необходимо определить весовые коэффициенты для результатов поиска по различным аспектам изображения: по форме, по текстуре, по яркости, по цветовому балансу и т.п.

Определять их в явном виде слишком тяжело для пользователя, поэтому Convera предлагает так называемые «жанровые умолчания»: спорт, новости, реклама и т.п.


Хорошо забытое старое

Несмотря на то, что компания «Одеон-АСТ» была создана в феврале прошлого года, а компания Convera Technologies — в декабре 2000-го, их сотрудничество продолжается уже более семи лет: Convera возникла в результате объединения компании Excalibur Technologies (возраст которой 20 лет) и подразделения Intel — Interactive Media Services Division. «Одеон» же ведет свою историю от компании «Весть-Метатехнология», которая в свою очередь — плод слияния «Вести» и «МетаТехнологии». А «МетаТехнология» представляла на рынке СНГ продукцию Excalibur еще с 1996 года.