Но результаты недавнего исследования показывают, что если бы основные поисковые механизмы лучше справлялись с индексацией в Сети, ситуация была бы еще более критичной.

Исследователи из принстонского института компании NEC в ходе испытаний шести основных поисковых механизмов обнаружили, что даже лучшие из них индексируют не более трети всего содержимого Сети.

Отчет по материалом исследования, проведенного Стивом Лоуренсом и Ли Джайлсом, был недавно опубликован в журнале Science. Согласно оценкам Лоуренса и Джайлса, сейчас в Сети насчитывается более 320 млн. страниц. Лучше всего с составлением каталогов справляется поисковый механизм HotBot компании Wired, охватывающий примерно 34% страниц. Второе место занимает AltaVista компании Digital с результатом 28%. Замыкает же список поисковый механизм Lycos, который индексирует только около 3% страниц Сети.

Как показало исследование, Сеть настолько разрослась, что с ней не в состоянии справиться ни один поисковый механизм. "Почти невозможно создать индекс, который бы абсолютно соответствовал времени запроса, потому что страницы непрерывно добавляются и изменяются, - говорит Лоуренс. - Индексы различаются по степени приблизительности, причем на их создание накладываются разнообразные ограничения, в том числе технологические, определяющие, какие вычислительные ресурсы допустимо использовать или каков допустимый масштаб поиска".

Пользователям Сети, которым время действительно дорого, авторы исследования советуют воспользоваться сразу несколькими поисковыми механизмами или задействовать инструменты метапоиска, например Metacrawler. Рекомендуется также применять специализированные поисковые механизмы, "заточенные" под тему вашего запроса.


Что можно найти на машинах поиска

Наконец-то серьезная наука основательно занялась изучением Internet. Самый престижный американский научный журнал Science опубликовал статью, посвященную проблемам поиска в Сети. В статье приводятся результаты тестирования нескольких машин поиска, проведенного группой ученых, и их попытка оценить количество информации во Всемирной паутине.

Результаты исследований показывают, что в настоящее время в Internet размещено примерно 320 млн. страниц (в это число, естественно, не входят страницы, доступ к которым защищен паролем, а также данные, содержащиеся в закрытых сетях intranet), однако уже в ближайшие годы количество Web-страниц вырастет как минимум в 10 раз.

Ни одна машина поиска уже не справляется с таким объемом информации. Даже лучшие из них индексируют не более 30-40% всей информации. Сотрудники, обслуживающие машины поиска, просматривают значительно больше страниц, чем индексируется, и стараются представить нам наиболее полные и интересные. Но понятно, что каким бы количеством сотрудников ни обладали компании, владеющие машинами поиска, люди не в силах просмотреть все.

Самый больший объем индексируемой информации собран на узле HotBot - 34%. Несколько меньше - на AltaVista (28%), Northern Light (20%) и Excite (14%). Список замыкает Lycos, поисковая машина которого индексирует только около 3% всей информации. Возможно, несколько лучше контролируют ситуацию так называемые машины метапоиска (Meta Search Engines), такие как Meta-Crawler и Ahoy!.

Практически обойдена вниманием информация на национальных языках. Все, кто пробовал найти, например, с помощью Alta Vista что-либо на русском языке, по собственному опыту знают, насколько ограниченный объем информации хранят зарубежные узлы. Вероятно, промежуточным решением проблемы информационного бума в Internet могло бы стать создание специализированных и национальных машин поиска. Российские машины поиска Rambler (http://rambler.ru) и Russian Search Engine (http://search.interrussia.com) анализируют в настоящее время около 15 тыс. доменов и также не справляются со всем объемом информации, которая появляется на русском языке. (Помимо упомянутых поисковых узлов, сбор русскоязычной информации ведут также системы Яndex (http://www.yandex.ru) и "Апорт!" (www.aport.ru). - Прим. ред.)

- Александр Друк,
drouk@interrussia.com

Поделитесь материалом с коллегами и друзьями