Служба новостей IDG, Нью-Йорк

Компания инвестирует в создание поисковой машины, способной обрабатывать запросы на естественном языке, и собирается конкурировать с Google

Исследовательская фирма Palo Alto Research Center (PARC), являющаяся «дочкой» Xerox, заключила лицензионное соглашение с молодой компанией Powerset. Возможно, в результате этого им удастся создать поисковую машину, которая когда-нибудь окажется в состоянии потягаться с Google.

Компания Powerset, расположенная в Сан-Франциско, совместно с PARC работает над созданием поисковой машины, способной обрабатывать запросы на естественном языке. По словам директора Powerset Барни Пелла, в PARC исследования в этой области ведутся на протяжении трех десятилетий, и новая поисковая машина будет готова уже к концу нынешнего года.

Компания Powerset смогла привлечь 12,5 млн. долл. инвестиций от различных венчурных фирм и «инвесторов-ангелов», вкладывающих деньги в компании-«стартапы». В сентябре 2005 года, всего через месяц после своего основания и за месяц до официальной регистрации, Powerset начала переговоры с PARC об использовании разработанных ею технологий.

Начинающей компании удалось даже заполучить лучших специалистов из PARC: к примеру, Рон Каплан, возглавлявший в PARC группу, занимавшуюся технологиями обработки естественных языков, лицензии на которые теперь приобрела Powerset, займет в ней должность директора по технологиям.

Кроме лицензий, Powerset получит в свое распоряжение и патенты на данные технологии. В обмен на это PARC достанется доля акций Powerset и отчисления с будущих доходов за использование лицензий. Кроме того, Powerset профинансирует дальнейшие исследования группы технологий обработки естественных языков в PARC.

Поиск нового поколения?

По словам Пелла, различия между поисковой машиной, использующей обработку естественных языков, и поисковыми машинами Google, Yahoo и другими, осуществляющими поиск по ключевым словам, весьма значительны.

«В настоящее время большинство ведущих поисковых машин индексируют страницы Web по ключевым словам, — отметил Пелл. — Но они не имеют никакого представления о том, что эти слова значат или как они соотносятся друг с другом».

Поисковая машина, основанная на обработке естественного языка, сможет принимать запросы, сформулированные так, как их сформулировали бы люди в обычном разговоре, например: «Какую компанию IBM приобрела в 1996 году?» В результате поиска должен быть найден непосредственный ответ на вопрос, а не все ссылки на проиндексированные страницы, содержащие слова «приобрела», «IBM» и «1996».

«Следует признать, что исследования в области обработки естественного языка велись на протяжении 30 лет, и создание успешной технологии оказалось непростой задачей», — сообщил Пелл. Правда, сегодня крупные поисковые машины вроде Google могут искать ответы на запросы, сформулированные в виде фразы-вопроса, но при этом они все равно используют в основном ключевые слова.

«Извлечение смысла текста и его взаимосвязей — невероятно сложная задача для решения на компьютере», — добавил он.

Однако, как утверждает Пелл, в последнее время PARC удалось совершить прорыв в исследованиях в этой области, и программные решения, лицензии на которые получила Powerset, содержат одну из наилучших технологий работы с естественным языком.

усовершенствовать методы поиска в Web на основе обработки естественного языка пытается не только Powerset. Так, компания Hakia тоже работает над созданием поисковой машины, поддерживающей обработку естественного языка. Ознакомиться с бета-версией машины можно на сайте www.hakia.com. Поисковая машина Brainboost, которая в настоящее время используется сайтом Answers.com, тоже основана на средствах обработки естественного языка