Еще раз о поиске в Сети

. Дело в том, что запросные механизмы в поисковых машинах, несмотря на обещания, все еще далеки от смыслового уровня. И все же неустанная работа над совершенствованием поисковых машин приносит свои плоды, пусть все еще кислые на вкус. В данной заметке, говоря о том, кто и как ищет в Сети информацию, автор рассматривает три примера, которые помогают представить, на что опирается пользователь поисковой машины.
Первый пример — давний и относится к библиотечным информационно-поисковым системам (ИПС). Уже тогда было понятно, что естественный язык для запроса к библиотечному фонду требует серьезных перемен в принятых описаниях единиц хранения (сейчас их называют документами) или их индексах. Попытки построить для запросов различные «язычки», отличные от естественного языка, постоянно создавали проблемы то для индексаторов, то для пользователей ИПС. Так было до тех пор, пока внимание разработчиков не привлекли языки, несущие в своих описаниях контекстную зависимость, для которых словарями являются тезаурусы и в которых лексические единицы несут и контекстные отношения. Использование таких словарей при индексировании позволяло составлять запросы на основе тезаурусов — при поиске ответа последние работали не просто по лексическим единицам, но с учетом контекстных связей. Таким образом релевантность, точность и полнота поиска пришли в определенное соответствие, придающее ему осмысленность. Но библиотечные системы — принципиально человеко-машинные, т.е. от бабушки возле каталожных ящиков пока избавиться не удалось, хотя пройден очень важный и долгий путь в деле автоматизации ИПС.
При сегодняшнем главным образом технологическом взгляде на большинство предметов, интересующих человека во времена ИТ, отказ от использования тезаурусов для поиска был неизбежен из-за гипнотического состояния, в коем пребывало большинство людей в связи с сумасшедшими скоростями и объемами обрабатываемой информации.
Пример второй. Где-то ближе к осени прошлого года один из крупнейших интернет-провайдеров, владелец всеохватной электронной почты и массы сетевых сервисов компания Mail.Ru озаботилась социальным поиском, реализуемым с помощью услуги Ответ@Mail.Ru. Идея этого проекта, что называется, лежит на поверхности: я задаю вопрос, а ответ получаю в Сети от того, кто его знает. Наверное, найдутся ситуации, когда такой подход работает, но, даже не оценивая их количество, придется признать: а ведь их немного. И авторов идеи можно спросить, не переоценили ли они активность пользователей портала Mail.Ru и как быть с требованиями ко времени на получение ответа на запрос. Тем не менее жду с нетерпением обсуждения итогов данного проекта компании Mail.Ru, потому что мысль подменить компьютер множеством людей не столь абсурдна, следует аккуратнее выделить тот класс задач, где подобная модель работает эффективно.
Третий пример, мне думается, ближе к занятиям поиском в Сети с позиций искусственного интеллекта, потому что в этом случае мы знакомимся с поведением человека в ходе поиска информации в ответе на заданный запрос. Речь идет о соревнованиях на Кубок «Яндекса» по поиску в Интернете. Впервые я попал на них, когда они проводились в третий раз, если мне не изменяет память, и меня заинтересовал вопрос тренировки участников соревнований. Но ничего содержательного в тот день я не узнал, хотя «теребил» вопросами известного человека по фамилии Беликов — кажется, участника, но уж наверняка тренера многих «бойцов» интеллектуальных забав на ТВ. На последних соревнованиях в декабре прошлого года в ходе суетной кофе-болтовни удалось лишь заручиться возможностью разговора на эту тему с досточтимым Ильей Сегаловичем. Нужда заставила поторопить сотрудников компании «Яндекс», и вот тебе на. Удалось получить ответы на вопросы у самого обладателя третьего Кубка Александра Соболева. Предлагаю их вниманию читателей (с учетом просьбы автора ни в коем случае не трогать его текста).
На вопрос о методологии поиска в Сети, которой он придерживался в борьбе за Кубок по поиску, А. Соболев ответил: «В кратком изложении методология выглядит так: реконструировать при помощи собственного головного мозга контекст чужой (авторской) фразы, в которой гипотетически должен содержаться ответ на заданный вопрос, после чего ввести в окно запроса все слова, кроме собственного ответа, выбирая по возможности наименее частотные. Я не использую язык запросов, кроме знака «!», и никогда не смотрю дальше первой выдачи. Если в первой выдаче нет ответа, я переформулирую запрос».
Касательно методологии подготовки к таким соревнованиям он сказал следующее: «Я участвовал в этом соревновании единственный раз в жизни (когда, собственно, и выиграл). Не готовился никак, если не считать подготовкой ту регулярную практику поиска, которую имеет любой человек, использующий Интернет в качестве справочной системы».
Пришла пора автору высказаться по приведенным примерам.

Полную версию статьи см. на «Мир ПК-диске».