В компании Xerox разработан поисковый инструментарий, который пытается «понять» смысл обрабатываемых документов, а не просто ищет ключевые слова. Система, получившая название FactSpotter, анализирует грамматику текста, помогая, в частности, определить, в каком из значений используются неоднозначные слова. Такой анализ позволяет программному обеспечению «осознать», что «Билл Гейтс», «он» и «глава Microsoft» в одном и том же документе, скорее всего, — это ссылки на одного человека. В самой Xerox технологией решили воспользоваться в подразделении Xerox Litigation Services, где инструментарий собираются интегрировать в пакет программного обеспечения для юристов. На этапе поиска информации при подготовке судебного иска, когда юристам приходится анализировать массу сообщений электронной почты и других документов, технологию можно будет применять для автоматического извлечения из них информации о событиях и датах. Авторы FactSpotter разработали специальный метаязык для описания грамматик, что позволит «локализовать» систему для поиска информации не только в англоязычных текстах.

Поделитесь материалом с коллегами и друзьями