оказалось так много, что найти среди них интересные оказалось не таким уж простым делом. Без специальных средств можно потратить на поиск нужной информации слишком много времени и денег. Этим средствам и был посвящен прошедший 28 апреля очередной семинар РОЦИТ, который назывался "Русскоязычные поисковые системы". И хотя тема была сформулирована достаточно узко, на семинаре упоминались и альтернативные методы поиска - рубрикаторы и рейтинговые системы.

Поисковая система позволяет находить в Internet документы по заданным словам. От правильности запроса могут зависеть и результаты. Правда, если поисковая система требует слишком сложный запрос, то это может отпугнуть пользователя. Таким образом, есть два противоположных подхода к составлению запросов - "строго логический" и эмпирический поиск. В первом случае запрос дает пользователю возможность максимально точно задать параметры интересующего его документа.

Во втором - запрос состоит из одной фразы, по которой система пытается найти наиболее похожие документы. Одним из вариантов такой поисковой системы может быть поиск по похожим страницам. Какой из подходов более эффективен - определить трудно, но, по мнению Ильи Сигаловича из компании CompTek, "идеальная поисковая система должна иметь большой выбор способов поиска".

Поисковая система Яndex (http://www.yandex.ru) производства CompTek - это попытка реализовать как можно больше возможностей для поиска документов. "Четкий ответ на нечетко сформулированный вопрос" - так характеризуют эту поисковую систему ее разработчики. Система работает на двух компьютерах, Pentium II и Pentium Pro с 256 Кбайт памяти, и в состоянии обслужить до 7000 пользователей в час. При этом одна машина занимается изучением, т. е. индексированием Internet, а вторая - собственно обслуживанием пользователей.

Более крупной поисковой системой является разработанная серпуховской компанией Stack система Rambler (http://www.rambler.ru). Она состоит из пяти серверов, которые работают по принципу: один ведущий - остальные ведомые. Когда ведущий сервер "понимает", что не справляется с запросами, он передает запросы ведомым. Сейчас система обслуживает до 10 тыс. запросов в час. Дмитрий Крюков, руководитель проекта Stack Rambler, считает основной проблемой поиска огромное количество некачественных документов, которые выглядят красиво, но почти не несут никакой информации.

Дополнительным инструментом для поиска документов являются рубрикаторы. Типичным примером рубрикатора является система "Ау!" (http://www.rocit. ru/au/), которую составил и поддерживает РОЦИТ. И хотя поиск по рубрикам более удобен пользователю, в такой системе, как правило, находится значительно меньше документов, чем могут просмотреть поисковые системы. Не менее интересным методом поиска документов является система рейтингования, которая позволяет определить наиболее посещаемые (и, может быть, наиболее интересные) странички Web. Типичным примером рейтинговой системы является все тот же Rambler (http://counter.rambler.ru).

Кроме того, компания "МедиаЛингва" (http://www.medialingua.ru/) разработала драйвер, который дает возможность использовать для адресации к серверам вместо имен DNS русские слова, что существенно упрощает поиск необходимых серверов. Например, для поиска сервера правительства достаточно набрать в строке браузера "Правительство России", и система перейдет на сервер http://www.gov.ru. Причем для адресации можно набирать целые выражения и даже девизы. Так, если предложить системе фразу "Есть такая партия", она перейдет на сервер коммунистов.

Поделитесь материалом с коллегами и друзьями