"Роботы" буйствуют в Сети | Computerworld Россия | Издательство «Открытые системы»

Как только была изменена используемая в Intuitive Systems программа анализа трафика, начали всплывать чрезвычайно любопытные факты, она стала сообщать как об ошибочных попаданиях, так и о благополучно доставленных страницах.

Самым интересным оказалось то, что тестируемый узел еженедельно запрашивает файл robots.txt. Возможно, аналогичные запросы получает не один этот узел. И, весьма вероятно, что такой файл имеется далеко не во всех узлах.

Секрет файла robots.txt в том, что системы автоматического поиска в Web (называемые также роботами) используют его, чтобы выяснить у пользователя, хочет ли тот индексировать свой узел. Многие, сами того не зная, уже пользовались такими роботами, когда что-либо искали в World Wide Web.

Многие поисковые узлы, включая AltaVista, WebCrawler, HotBot и Lycos, используют программы-роботы для "ползанья" по Web и индексирования найденных Web-страниц. При выполнении поиска через эти узлы применяются индексы, созданные роботами вышеперечисленных узлов.

Однако больше всего поражает частота обращения к тестируемомоу узлу в поисках файла robots.txt. За одну только среду каждую неделю сервер регистрирует больше дюжины запросов файла robots.txt. В течение недели бывает обычно 25 попаданий, т. е. каждую неделю узел посещают 25 различных "бродячих" программ.

Если посетить хотя бы один их поисковый сервер, нетрудно заметить, что они жутко устарели. Хотя в основу их работы заложена отличная идея - дать роботам возможность отыскивать новые Web-узлы, не дожидаясь пока они зарегистрируются сами в каталогах типа Yahoo; дело в том, что поисковые узлы не успевают отслеживать изменения в Web.

Web - это необычайно динамичная среда, в которой ежедневно создаются, изменяются, переименовываются и закрываются немало узлов. Попробуйте провести поиск на любом из них, и вы наверняка обнаружите, что не менее 20% связей уже не существуют или приводят совсем не туда куда надо.

Поэтому сомнительно, что основные поисковые узлы действительно раз в неделю находят путь к конкретному узлу. Так в чем же тогда смысл всех этих запросов к robots.txt?

Системы индексирования на базе роботов больше подходят для сетей intranet, потому что intranet, по определению, ограничены пространством не в миллионы, а в сотни или тысячи Web-страниц. Существуют различные поисковые системы, которые можно использовать для intranet. Самой примечательной из них является заказная версия AltaVista.

Изучая различные механизмы поиска, обязательно поинтересуйтесь, как они показывают результаты поисков.

"Что за проценты перечисляются после каждого выбранного документа?" - задает резонный вопрос пользователь. И, конечно, получит ответ - оценка релевантности для приведенного документа. Результаты отсчитываются в процентах от 0 до 100, в зависимости от релевантности информации к запросу, как ее определяет поисковый механизм.

Многие системы Web-поиска выдают оценку для подобранного материала, но как формируется эта оценка и что она означает? Если изучить результаты поиска, то может оказаться, что оценка имеет минимальное значение, если вообще что-то значит. Часто получается так, что документы под номером 2 и 3 - это то, что надо, а документ, выбранный первым, не имеет никакого отношения к поиску.

Дэйв Тейлор - президент Intuitive Systems, с ним можно связаться по адресу: taylor@intuitive.com.