Компания Xerox разработала новый поисковый инструментарий, который пытается проанализировать смысл документов, а не просто ищет ключевые слова.

Решение, получившее название FactSpotter, анализирует базовую грамматику текста для того, чтобы получить дополнительную информацию. По словам Фредерики Сегонд, руководящей группой грамматического анализа и семантики в Xerox Research Center Europe, такой информацией, например, могут быть данные о том, используются ли неоднозначные слова как существительные или как глаголы или на кого ссылаются местоимения.

Такой анализ позволяет программному обеспечению «понять», что «Билл Гейтс», «он» и «глава Microsoft» в одном и том же документе, скорее всего, - это ссылки на одного человека. Но данное программное обеспечение также должно «знать», что фразы «Билл Гейтс сказал…» и «друг Билла Гейтса сказал…» начинают прямую речь, произнесенную разными людьми. В такой ситуации, скорее всего, инструментальные средства, анализирующие только ключевые слова, выдадут ошибочный результат.

Помощник юриста

Одной из первых, кто воспользовался FactSpotter, была группа Xerox Litigation Services, которая в следующем году планирует интегрировать данный инструментарий в пакет программного обеспечения «электронного обнаружения», предназначенного для юристов.

На этапе поиска информации при подготовке судебного иска, когда группам юристов зачастую приходится анализировать миллионы сообщений электронной почты и других документов, это программное обеспечение можно будет использовать для определения отправителя и получателей сообщений, а также выбрать из этих сообщений информацию о событиях и датах. Эти возможности, по мнению Сегонд, могли бы использоваться для формирования общей картины, показывающей, что и кто знает и когда это произошло.

Такая информация поможет выстроить надежные доказательства по судебному иску.

На всех языках

Исследовательская группа Сегонд разработала свой собственный метаязык для описания грамматик различных языков. Пока разработчики используют его для создания описаний на голландском, английском, французском, немецком, итальянском, португальском и испанском языках.

Сам FactSpotter написан на языке программирования Си и, кроме того, были созданы модули на Java и на Python, позволяющие этому программному обеспечению взаимодействовать с другими приложениями.

Несмотря на то что новое программное обеспечение анализирует только письменные тексты, его можно связать с инструментами, создающими письменные копии аудиозаписей, для того чтобы можно было вести поиск в радио- и телевизионных архивах, и с этой целью компания принимает участие в совместных исследовательских проектах.