Данной публикацией Computerworld Россия представляет свою «Домашнюю лабораторию». В этой рубрике мы планируем рассказывать читателям о нехитрых приемах, пользуясь которыми они самостоятельно могут найти ответы на самые разнообразные вопросы.

Каждый владелец поисковой машины гордится размером своего индекса — числом документов, проанализированных поисковой машиной. Чем больше размер индекса, тем больше документов может найти пользователь этой поисковой системы. Оценить размеры индекса «поисковика» достаточно просто — заставьте его искать какое-либо слово, и он сам вам скажет, сколько документов, содержащих это слово, есть в его индексе. Именно так мы и поступили, чтобы понять, насколько отличаются размеры индексов у различных поисковых систем. Из ленты политических новостей было сформировано десять запросов, в каждом из которых было по пять слов. Таким способом мы пытались смоделировать ситуацию, когда пользователь ищет в Internet дополнительную информацию о только что прочитанной новости. По нашему мнению, такое использование «поисковика» весьма характерно. Эти запросы последовательно передавались трем поисковым машинам (Rambler, Яndex и «Апорт!»). Результаты усредняли по запросам. Полученные данные приведены в таблице.

Кроме названных в опросе поисковых систем есть и еще одна — TELA, поддерживаемая питерским провайдером Dux, но она не выдавала общего количества найденных документов и поэтому не вошла в микроисследование. Мы также планировали использовать метапоисковую систему «Следопыт», но, к сожалению, она не работала вследствие переезда к другому провайдеру.

Из таблицы видно, что больше всего документов просканировал Яndex, на втором месте — «Апорт!», на третьем — Rambler. Не следует, впрочем, забывать, что эти данные характерны только для политического лексикона. Возможно, что при выборе других слов расклад был бы иным. Мы же хотели лишь показать, что каждый пользователь Internet может попробовать самостоятельно определить количество документов в базе поисковика по нужной ему теме.

Направляйте свои вопросы (можно с ответами) по электронной почте: oskar@computerworld.ru.

Результаты тестов

Из ленты политических новостей было сформировано десять запросов, в каждом из которых было по пять слов. Таким способом мы пытались смоделировать ситуацию, когда пользователь ищет в Internet дополнительную информацию о только что прочитанной новости.

Слова Поисковые машины
Rambler Яndex Апорт!
прокуратура, банковские, счета, владельцы, коррумпированными 119195 758011 278871
цены, ходовые, марки, бензина, Москве 389751 2312817 611041
выросли, незначительно, посольство, выступило, сообщения 161335 1189797 313129
отказалась, помощь, ликвидации, последствий, землетрясения 221356 969761 408667
система, региона, времени, будет, усовершенствована 1072784 1812102 822486
учетом, югославского, кризиса, инспектор, возглавит 177205 588646 192607
академию, действий, сотрудники, потеряли, человека 366798 1579223 620925
убыток, составил, млрд, рублей, хакеры 210788 757570 212185
вторглись, сайт, разведывательной, cлужбы, безопасности 347707 797937 190994
состояние, остатки, банках, составили, показатель 219251 1263001 426281
Средние 328617 1202887 407719

Поделитесь материалом с коллегами и друзьями