Смотри хорошо
AltaVista
eXcite
HotBot
InfoSeek Guide
Lycos
Magellan
OpenText
Point
WebCrawler
Yahoo!
Методология
Поисковый Яndех
"Русские в Internet на равных"

Со времени зарождения Сети, люди ищут пути упорядочения ее спутанных нитей. Когда вы только входите в информационно-поисковую систему (ИПС), вас сразу встречают приводящие в замешательство утверждения: "Мы самые большие", "Мы самые быстрые" и "У нас самая лучшая технология". Этого может оказаться достаточным, чтобы вы махнули рукой на "Всемирную паутину" и вместо этого быстро вернулись к своей локальной библиотеке.

Действительно, не все созданные ИПС равноценны, но чем именно они отличаются друг от друга? И какие из них имеют наилучшие показатели? Это-то мы и пытались выявить, когда тестировали десять наиболее популярных в настоящее время ИПС: AltaVista, eXcite, HotBot, InfoSeek, Lycos, Magellan, OpenText, Point, WebCrawler и Yahoo!.

ИПС можно разбить на два типа: одни работают с индексами, другие - с каталогами. Используемые при этом технологии очень разнятся. Такие системы, как AltaVista или InfoSeek, получают информацию из каждого отдельного узла, индексируют ее, регистрируют всю найденную информацию (URL-адрес, заголовок, текст) и добавляют к своим базам данных. Другие, скажем, eXcite и WebCrawler, имеют механизмы, выискивающие исключительно узлы с высоким трафиком, добавляющие их к своим архивам и классифицирующие по степени убывания популярности. А ИПС, основанные на каталогах (Point, Magellan и Yahoo!), обычно "полагаются" на людей-редакторов, устанавливающих связи для баз данных, которые они организуют и снабжают перекрестными ссылками в поисковых категориях.

Смотри хорошо

В то время как индексы постоянно пересматриваются и обновляются, поскольку их механизмы сбора информации собирают и откладывают новую информацию, - актуальность каталогов зависит от милости редакционных коллегий.

Главным условием успешного поиска является использование правильного инструмента для работы. Системы, основанные на каталогах, лучше подходят в тех случаях, когда вам надо осуществить быстрый поиск каких-либо общих тем или если вы занимаетесь вольным скольжением по Сети. Небольшие размеры и созданная людьми система упорядочения материала делают их особенно пригодными для быстрого нахождения качественной информации. Общий поиск в системах Point или Magellan дает только узлы, наиболее часто посещаемые в Сети. А в Yahoo! узлы, которые составители считают наиболее многообещающими, обозначаются иконками.

Вообще, в индексных системах более изощренные программные агенты и большие базы данных, что делает их полезными для исчерпывающих поисков, сложных запросов или для локализации неясной информации. Это достоинство, однако, становится западней, когда производится быстрый поиск. Большинство таких систем облегчает восприятие чрезмерного количества информации, представляя результаты поиска согласно математически установленному порядку. (Например, ссылки с наиболее высокими номерами соответствия ключевых слов располагаются выше.) Однако запаситесь терпением, "отсеивая" ссылки, не относящиеся к делу или недостаточно близкие по теме.

Вторым важным элементом успешного поиска является правильно сформулированный вопрос. Это означает получение операторов, близких к булевым (AND, OR, NOT, NEAR), правильной пунктуации (например кавычки, значки "*" или "$" для масок поиска) и чувствительности к регистру (для имен собственных, заголовков и аббревиатур). Каждая ИПС использует различные вариации этих простых атрибутов запроса поиска. К счастью, почти каждая ИПС, которую мы тестировали, предлагает область справки или FAQ-файл (файл, содержащий наиболее часто встречающиеся вопросы и ответы на них). Если в первый раз вы не получили нужный результат, можете изменить формулировку поиска и начать с самого начала.

Наконец, не смущайтесь возможных недочетов; наши тесты подтвердили, что ни одна из этих ИПС не может идеально подходить всем. Хотя каждая из них получает быстрые результаты, некоторые имеют более простые интерфейсы, более сильный инструментарий или более полные базы данных. Гораздо важне то, что, несмотря на использование одних и тех же запросов во всех 10 ИПС ( см. "Методология"), экспериментально мы получили очень маленькое перекрытие полученных результатов.

Итак, если нужно заползти в самые дальние "углы" Сети, используйте ваши любимые ИПС по очереди.

AltaVista

Достоинства: Полнотекстовая база данных, идеальна для поисков специфических тем. Из всех тестированных ИПС она выявляет наибольшее количество ссылок.
Недостатки: Нет указателя для просматриваемых тем. Не происходит упорядочения результатов поиска, поэтому нет уверенности, что лучшие ссылки стоят первыми.

Проверяя раз за разом сотни (или тысячи) узлов, AltaVista обеспечивает наиболее тщательный поиск среди протестированных нами ИПС. Интерфейс AltaVista легок в использовании, а раскрывающиеся меню помогают определить предмет вашего поиска.

Опция Advanced Search позволяет вам настраивать запросы определением булевых операторов, проведением поисков с учетом регистров символов, ограничением давности ссылок, использованием масок и т.д.

Однако, несмотря на свои достоинства, AltaVista не предлагает индексированного указателя для простого просмотра, результаты поиска не ранжированы и не организованы, так что часто богатство предоставляемой информации приводит к большой трате времени.

В целом, различные ссылки, которые AltaVista выдавала во время нашего поиска, были высоко релевантными (хотя и не всегда актуальными), а ее способность распознавать запросы на естественном языке является ее большим преимуществом. Просеивая результаты, полученные AltaVista, вы можете потратить больше времени, чем при использовании других ИПС, но для исчерпывающих поисков самых дальних "углов" WWW AltaVista незаменима.

eXcite

Достоинства: Простой, но универсальный интерфейс позволяет эффективно проводить поиск и просматривать полученные данные. Высокая степень актуальности ссылок, особенно для популярных тем.
Недостатки: Результаты, полученные по "Ключевому слову" и "Концепции", почти всегда идентичны.

Самая сильная сторона eXcite - забавный интерфейс и некоторые специальные возможности. Кроме ведения поиска в Сети, вы можете просмотреть более 60 тысяч документов в Net-Directory, выбрать себе информацию из потока новостей или использовать Personal eXcite, чтобы установить привычную страницу поиска при помощи вашей любимой закладки.

При помощи этой ИПС удобно вести поиск не только в Web и Usenet, но и в базах данных eXcite Reviews и классификациях Internet. В наших тестах ИПС eXcite показала приличные результаты для всех трех запросов.

Однако, поскольку eXcite поддерживает поиски только по простой фразе или ключевому слову, при усовершенствовании сложного поиска могут возникнуть трудности. Ее опции поиска "по концепции" или "по ключевому слову" вводят в заблуждение; во всех наших тестах, как уже указывалось, для обоих случаев мы получали почти идентичные результаты.

eXcite последовательно выдает приемлемое число качественных ссылок, особенно для основных тем, хотя это у него получается не лучше, чем у других ИПС. Когда в конце года произойдет слияние данной ИПС с каталогом Magellan, eXcite будет функционировать эффективнее.

HotBot

Достоинства: Спартанский, но мощный интерфейс поиска. Большой выбор для совершенствования вашего поиска, с использованием удобных раскрывающихся меню.
Недостатки: Посредственная релевантность и дублирование ссылок уменьшает эффективность работы.

Относительно недавно появившаяся ИПС HotBot, созданная HotWired и усовершенствованная совместно с Inktomi, отказывается от "полносервисного" подхода, свойственного таким ИПС, как Lycos, и вместо этого выбирает мощный, без всяких излишеств интерфейс.

Соответствующие меню позволяют искать по всем словам, по любому из слов, по фразе, по URL-адресу и т.д. Нажатие на кнопку Expert дает вам возможность использовать подмножество булевых операторов, осуществлять поиск внутри какой-нибудь области, ограничивать ваш поиск рядом специфических данных и т.д. Полученные ссылки располагаются в ряд в зависимости от уровня соответствия и представляются с коротким текстовым резюме.

В наших тестах HotBot находит почти так же много ссылок, как Lycos и AltaVista, но по качеству ссылок уступает им. Наши результаты для ESPN, например, включали 15 ссылок по спорту, но не было ссылок на страницу ESPN SportZone.

Однако HotBot при поиске находила ссылки, которые другие ИПС пропускали, что само по себе заслуживает внимания.

InfoSeek Guide

Достоинства: Простой в использовании интерфейс производит поиск в фоновом режиме, позволяя вам сосредоточиться на смысле вопроса, а не на том, как его сформулировать.
Недостатки: База данных слишком мала для тщательных поисков.

Хотя у InfoSeek Guide и не самая большая база данных, ее легко использовать. В то время как другие ИПС вынуждают вас обращаться к непривычным булевым операторам, InfoSeek отказывается от этого и предлагает понятный дружественный интерфейс, позволяя вам исследовать вопрос и не терзаться мыслью о том, как сформулировать его. Наряду с "чутким" интерфейсом, InfoSeek предлагает самые лучшие подкатегории поиска, позволяя вам просматривать узлы Web, Usenet, InfoSeek Select, Timely News, адреса e-mail, каталоги компаний и Web FAQ.

Предметом гордости InfoSeek также являются директории для прочтения и удобные системы "горячих" ссылок, такие как Big Yellow и InfoSeek Persona (настраиваемые страницы новостей).

По своим результатам InfoSeek неизменно превосходила все тестируемые ИПС. Большинство из них близки к заданной теме, актуальны и четко организованны. Если бы не ограниченный размер базы данных, ИПС InfoSeek могла бы легко обойти другие ИПС.

Этот недостаток может быть ликвидирован в конце года, когда InfoSeek преобразуется в более мощную родственную службу Ultraseek. Если вы не можете этого ждать, попробуйте использовать InfoSeek Professional, большую коммерческую версию InfoSeek Guide.

Lycos

Достоинства: Многоцелевой интерфейс облегчает и просмотр, и поиск информации. Ключевые слова высвечиваются в полученных ссылках, что позволяет вам контролировать контекст и соответствие полученной информации запросу.
Недостатки: Нет возможности для создания запросов на естественном языке или комбинаций ключевых слов и фраз. Запутанная процедура делает запросы малоэффективными.

Если при работе с Lycos вам удастся преодолеть ее "суматошный" интерфейс, то вы получите результаты ее поисков, которые сопоставимы с показателями AltaVista. Качество этих результатов, однако, среднее.

Lycos оперирует с индексом ключевого слова, с раскрывающимся меню, что позволяет вам выбирать число ссылок, приводимых на страницу, меру близости запросу и получать результаты в стандартном, общем или детализированном формате. Поисковый критерий запроса высвечивается внутри общего текста так, что вы можете судить о содержимом ссылок.

Подобно eXite и InfoSeek, Lycos дает ссылки на новости и Web reviews через Point (см. далее).

В Lycos не предусмотрена возможность работы с естественным языком, но в других тестах эта ИПС дала большое число подходящих ссылок. К сожалению, инструментальные средства Lycos ограничены в возможностях, и она мало пригодна для улучшения качества ваших запросов. На том этапе, где Lycos заканчивает свою работу по поиску, такие ИПС, как InfoSeek и AltaVista, предлагают вам более легкий инструментарий и показывают более весомые результаты.

Magellan

Достоинства: Список "лучших ссылок", который можно пролистывать. Регулирующая пиктограмма "Светофор" помогает семьям и воспитателям находить "безопасные" ссылки для всех возрастов.
Недостатки: Малая база данных означает, что поиски специфических тем дают плохие результаты.

Хотя Magellan предлагает оригинальное отредактированное содержимое и архив, открытый для поиска Web-страниц, ее самая важная черта - это индексы просмотренных и оцененных документов, которые в конце года станут частью ИПС eXcite.

Просмотренные ссылки классифицируются с точки зрения их распространенности, легкости в использовании и общей "сетевой привлекательности"; им присваивается от одной до четырех звезд рейтинга. Материалы, которые считаются "безопасными" для всех пользователей, изображены пиктограммой "Светофор" с горящим зеленым светом.

Magellan хорош для легкого тематического просмотра, равно как и для поисков во всем Internet, которые вы можете провести исключительно по проверенным узлам или по всей неклассифицированной базе данных. Поиски по основному ключевому слову дают посредственные результаты, хотя вы можете улучшить их, прежде всего просмотром характерных категорий Magellan. (Например, Поиск "CDA" в категории "Free Speech" - "Свобода Слова" - дает наиболее полно удовлетворяющие современным потребностям результаты.)

Резюме: Не применяйте ИПС Magellan для общих поисков, а используйте ее для нахождения качественных ссылок, подходящих для конкретных целей.

OpenText

Достоинства: За простым интерфейсом скрывается обширный поисковый инструментарий.
Недостатки: Не распознает сложных запросов (только вереницу слов). Работа с ней требует больше усилий, чем при использовании других ИПС.

Как и HotBot, OpenText не использует указатели, составленные редакторами, и другие несвойственные ему функции, и опирается только на возможности своего поискового механизма. Он предоставляет вам опции, управляющие простым поиском по слову или фразе. При помощи опции Power Search, OpenText при поиске может использовать до 5 ключевых слов (соединенных булевыми символами), выбранных из сводки, названия, заголовка, URL-адреса и т.д. Система ниспадающих меню выручит вас при трудностях поиска, а если все же запутаетесь в формулировке запроса, OpenText в опции Search Tips покажет вам все на примерах.

В наших тестах простой поиск c использованием ИПС OpenText, наравне с InfoSeek и Lycos, последовательно давал качественные результаты. Но так как OpenText ищет по целой связке слов, а не по отдельным ключевым словам, он сам попадает впросак при сложном запросе или при запросе на естественном языке. Однако, если вы готовы потратить некоторое время на изучение инструментария Power Search, OpenText покорит вас своей гибкостью.

Point

Достоинства: Все ссылки обязательно просматриваются и ранжируются, так что вы не будете тратить время на просмотр низкокачественных ссылок.
Недостатки: Никаких сложных запросов. Нет хорошего выбора для исчерпывающих поисков на неизвестные темы.

В дополнение к средствам поиска Lycos база данных Point содержит сообщения только о "наиболее посещаемых 5% узлов Web". Ссылки подобраны по качеству содержания, представления и опыту использования. Каждая категория оценивалась в интервале от 1 до 50 баллов.

Наряду с каталогом, Point предлагает еженедельный список 10 самых популярных узлов, ссылки на новую и актуальную информацию и ссылки для Lycos и A2Z (другой родственный каталог).

Тестирование подтверждает, что эта специфическая база данных не предназначена для обычных поисков информации в Internet. Мы выяснили, что функция поиска в Point по ключевому слову ищет ссылки внутри текста документа, а не по самим ссылкам. Это может исказить результаты из-за сделанных экспромтом ремарок, внесенных редакторами службы Point.

Ясно, что Point покажет более высокие результаты при просмотре по категориям. Подобно редакторам, работающим под системой Magellan, рецензенты Point выполняют неоценимую работу, отделяя "зерна от плевел", так что вам не придется тратить на это свое время.

WebCrawler

Достоинства: Легкий в использовании интерфейс, удобный для перемещения ссылок в популярные узлы. Хороший каталог просматриваемых адресов.
Недостатки: Небольшой размер. Нет запросов на естественном языке. В списке много повторений.

Доходчивый интерфейс WebCrawler скрывает мощный механизм, способный оперировать с большинством булевых операторов и имеющий большую базу подсказок, чтобы показать вам, как они работают.

Подобно eXcite и Magellan, WebCrawler позволяет вам совершать путешествия к просмотренным и ранжированным документам в своем списке Select, размещенным в таких категориях, как Life&Culture, Education и "Daily News".

Во время тестирования WebCrawler собрал ряд соответствующих ссылок, но их качество было крайне низким. WebClawler не предлагает пути усовершенствования поиска, его можно только начать снова, и проверка ограничивалась просмотром заголовков или резюме и установкой вывода числа полученных ссылок на страницу. Хотя WebCrawler утверждает, что воспринимает вопросы на естественном языке, наш запрос остался совсем без ответа. Интерфейс WebCrawler прост в использовании и адекватно работает, находя адреса популярных узлов.

Yahoo!

Достоинства: Большая база данных и служба помощи, созданная редакторами, делают ссылки и категории высоко релевантными.
Недостатки: Система перекрестных ссылок дает высокую степень дублирования. Нет поддержки для сложных запросов.

Наиболее широко известная ИПС, Yahoo! является индексированным каталогом Сети. В отличие от других ИПС, которые прибегают к помощи агента или программного обеспечения "spider" - "паук" для сбора ссылок, штат Yahoo! прочесывает Web для выявления новых документов (или записывает те, которые предоставляются Web-администраторами), составляет резюме об их содержимом и относит их к какой-либо категории.

Yahoo! определяет степень соответствия, выискивая ключевые слова или связку слов в каждом заголовке, в названии категории или текстовом резюме. Вы можете также использовать булевы операторы и искать адреса электронной почты или Usenet. Когда Yahoo! не может найти данные в своей БД, она уступает полнотекстовой базе данных AltaVista.

Результаты поисков Yahoo! не ранжируются, а расписываются по названиям категорий. Это делает просмотр мгновенным, но мешает общему поиску. При тестировании Yahoo!, имеющей базу данных со многими перекрестно пересекающимися ссылками, мы нашли множество дубликатов. Также эта ИПС не принимает запросы на естественном языке. Тем не менее, простой интерфейс и обширная индексная система Yahoo! создали ей репутацию ИПС, дающей результаты высокого качества.

Методология

Чтобы ранжировать рассмотренные выше системы, мы давали им три различных запроса. Первый запрос заключался в поиске по ключевому слову ESPN. Это давало возможность проверить релевантность результатов, получаемых каждой ИПС. Второй запрос состоял в нахождении ссылок на "the Communications Decency Act". Он должен был проверить, как ИПС управляются с фразами, и оценить обновляемость их баз данных. (Во время публикации статьи, Высший суд Филадельфии рассматривал апелляцию по поводу неконституционности этого акта.) Третий запрос: "How do you make a cheese souffle?" - был задан на естественном языке. Мы отметили общее число удач для каждого запроса, и первые 25 ссылок были распределены по двум уровням, чтобы оценить качество информации на рекомендованных узлах. Оборванные, не датированные и дублированные ссылки также отмечались.

Типы механимов
Alta Vista
http://www.altavista.com
eXcite
http://www.excite.com
HotBot
http://www.hotbot.com
Infoseek Cuide
http://guide.infoseek.com
Lycos
http://www.lycos.com
Magellan
http://www.mckinley.com
OpenText
http://www.opentext.com
Point
http://www.pointcom.com
WebCrawler
http://www.webcrawler.com
Yahoo!
http://www.yahoo.com
БАЗЫ ДАННЫХ
полный текстовый индекс
полный текстовый индекс и каталог
полный текстовый индекс
полный текстовый индекс и каталог
индекс ключевых слов и каталог
индекс ключевых слов и каталог обзоров
полный текстовый индекс
каталог обзоров
полный текстовый индекс
каталог ключевых слов
FTP?
нет
нет
нет
нет
да
да
да
да
да
да
GOPHER?
нет
нет
нет
нет
да
да
да
да
да
да
USENET?
да
да
да
да
нет
да
нет
нет
нет
да
Специализированные базы данных?
нет
да
да
да
да
да
нет
нет
нет
нет
Возможность просматривать категории?
ИНТЕРФЕЙС ПОИСКА
нет
да
нет
да
да
да
нет
да
да
да
Более совершенные возможности поиска?
да
да
да
нет
да
нет
да
нет
да
нет
Логические операции?
да
да
да
да
да
да
да
нет
да
да
Файлы помощи или образцы для поиска?
да
да
да
да
да
да
да
нет
да
нет
Приоритеты или оценки?
РЕЗУЛЬТАТЫ ТЕСТИРОВАНИЯ
нет
да
да
да
да
да
да
да
да
нет
Текстовые комментарии результатов?
да
да
да
да
да
да
да
да
нет
да
Возможность изменения условий поиска?
нет
нет
да
да
нет
нет
да
нет
нет
да
Удобство использования
ОЦЕНКИ МЕХАНИЗМОВ ПОИСКА
хорошо
хорошо
отлично
отлично
хорошо
хорошо
хорошо
хорошо
хорошо
отлично
Глубина
отлично
удовлетворительно
хорошо
хорошо
хорошо
удовлетворительно
отлично
удовлетворительно
плохо
отлично
Возможность использования конструкций естественного языка и сложных запросов
хорошо
удовлетворительно
не применимо
хорошо
не применимо
удовлетворительно
не применимо
не применимо
не применимо
не применимо
Релевантность
отлично
хорошо
удовлетворительно
отлично
хорошо
хорошо
отлично
хорошо
удовлетворительно
отлично
Своевременность
хорошо
отлично
удовлетворительно
отлично
удовлетворительно
удовлетворительно
удовлетворительно
удовлетворительно
удовлетворительно
хорошо


Поисковый Яndех

Computerworld уже писал о разработках группы программистов российско-американской компании CompTek. CD-ROM с Библией и, позже, с корпусом текстов Грибоедова были замечены и адекватно восприняты прессой и публикой. В обоих изданиях применялась система поиска, разработанная "Аркадией", программистским отделением CompTek. Авторам хватило фантазии назвать ее Яndех. Система - русскоязычная, фирма - полуамериканская, так что экзотика объяснима.

CompTek, основываясь на удачных алгоритмах поиска и индексирования, продолжает развивать технологию. Разработан словарный сервер Яndех, он будет самостоятельным коммерческим продуктом. Его потенциальные покупатели - российские провайдеры Internet, те хозяева коммерческих или некоммерческих серверов, которым захочется предоставить своим посетителям подобный сервис. Он уже установлен, разумеется, на сервере компании: http://www.cti.ru.

Словарный сервер Яndех выполняет две функции - индексацию и поиск, причем оба процесса могут происходить одновременно. Работая как поисковая система Web, он постоянно индексирует русскоязычные HTML-документы (в кодировках Windows и KOI8, которые распознаются автоматически) из заранее заданного списка узлов Web. Периодически индексация прекращается, и происходит обновление поискового индекса, устаревшая информация удаляется. По запросу клиента происходит поиск документа по индексу. Запрос может быть сложным, то есть включать логические операторы. Отличительная особенность этой поисковой системы - продвинутая технология генерации словоформ: по запросу "идти" будут выданы документы и со словоформой "шла". Как можно догадаться, хорошо работающий генератор словоформ для русского языка осуществить несравнимо сложней, чем для английского, хотя и эта возможность реализована. Словарный сервер возвращает список документов и адреса найденных слов в документах, чтобы клиентская программа просмотра могла их выделить.

Это применение словарного сервера - не единственное. Он может работать в паре с сервером базы данных, где хранятся документы не только в формате HTML, но и в традиционных текстовых форматах. В этом случае поисковый запрос от клиента на словарный сервер передает сервер базы данных, после чего словарный сервер возвращает ему список документов с адресами найденных слов. Переиндексацию инициирует сервер базы данных, задавая список ключей документов, подлежащих переиндексированию, после чего словарный сервер запрашивает у него документы для индексирования.

Словарный сервер работает на ПК под Windows, Windows-95, Windows NT и Unix. В случае работы с Web машина должна, конечно, иметь IP-адрес.

Сейчас доступно четыре продукта:

Яndех Web - средство поиска в Internet, индексация русскоязычных информационных серверов и интерфейс к известным поисковым системам.

Яndех Site - функция, обеспечивающая удобный и быстрый поиск на вашем собственном сервере.

Яndех Intra - система индексирования и интеллектуального поиска документов в локальной сети.

Яndех Server - модуль морфологического анализа, встраиваемый в системы документооборота и базы данных.


"Русские в Internet на равных"

Именно так утверждает со страниц своего сервера компания "Агама" (www.russia.agama.com). Однако для этого надо потрудиться. Действительно, применяемые в Internet средства поиска не могут быть адаптированы для полноценной работы с информацией на русском языке. "Агама", опираясь на свой опыт создания традиционных информационно-поисковых систем, предлагает решения, учитывающие национальные языковые особенности .

Речь, в частности, идет о создании двуязычных русско-английских серверов Web, в том числе и связанных с уже накопленной информационной базой.

Общение с базой выглядит так: пользователь формулирует запрос на естественном языке средствами сервера Web и получает ответ в такой же форме. Построение SQL-запроса, его обработка в информационной базе и преобразование результата в гипертекстовый документ выполняется прозрачно для пользователя. Возможна работа и с полнотекстовыми базами данных.

При индексировании русскоязычной информации для их эффективного поиска стандартными средствами, равно как и при формулировании запросов могут использоваться лингвистическая обработка и элементы машинного перевода.

Поделитесь материалом с коллегами и друзьями