Поиск в Сети, которой «нет» | Computerworld Россия | Издательство «Открытые системы»

Computerworld, США

Если поисковая система не может что-то найти в Web, то отсюда вовсе не следует, что этого в Сети нет. Возможно, вы просто ищете не там, где нужно

Deep Web — обширное хранилище информации, которое иногда не индексируется автоматическими механизмами поиска, но всегда открыто для знающих пользователей.

Shallow Web (ее также называют Surface Web или Static Web) представляет собой совокупность Web-сайтов, проиндексированных автоматическими механизмами поиска. Сетевой агент («робот») поисковой машины проходит по известным ему ссылкам URL, индексирует контент, а затем передает результаты поисковой машине для консолидации результатов и последующих ответов на запросы пользователей.

В идеале в рамках этого процесса в конечном итоге должна быть просмотрена вся Сеть с учетом ограничений времени, отпущенного разработчиком на поиск, и объема хранения.

Ключевой момент в этом процессе — индексация. Агент не сообщает, что он не может что-либо индексировать. На первом этапе формирования Web, когда она в основном состояла из статических, общих HTML-кодов, это не вызывало особых проблем, но сегодня Web-сайты содержат мультимедиа, скрипты и другие виды динамического контента.

Deep Web состоит из Web-страниц, которые механизмы поиска не могут или не станут индексировать. Популярный термин «Невидимая Сеть» на самом деле не верен, поскольку эта информация вовсе не является невидимой — просто агент ее по тем или иным причинам не проиндексировал.

Между тем объем Deep Web больше, чем Shallow Web, как минимум в пять раз. Этот показатель может вырасти до 500 — в зависимости от того, у «кого» вы спрашиваете. Так или иначе, это огромный и исключительно важный сетевой ресурс. Судите сами: если ведущие поисковые машины все вместе индексируют лишь 20% Web, то свыше 80% ее содержимого остается вне поля их зрения.

Почему она больше?

Как правило, механизмы поиска не индексируют следующие виды Web-сайтов: закрытые; требующие регистрации; содержащие скрипты; динамические; создающиеся на очень короткое время; блокированные их Web-мастерами; в специальных форматах; поисковые базы данных.

Закрытые сайты требуют платы. Для того чтобы попасть на сайты с регистрацией, необходимо учетное имя или пароль. Агент может индексировать код скриптов (например, Flash, JavaScript), но не всегда в состоянии установить, что этот код делает. Некоторые некорректно написанные скрипты оказываются для агента ловушками, заставляя его входить в бесконечный цикл.

Динамические страницы (например, расписание авиарейсов) создаются по требованию и до появления запроса вообще не существуют, после чего сохраняются совсем ненадолго.

Если вы даже заметили интересную ссылку на новостном сайте, возможно, что к вечеру того же дня вы ее просто не найдете.

Web-мастер может попросить, чтобы его Web-сайт не индексировался (для этого служит, в частности, протокол Robot Exclusion Protocol), а некоторые машины поиска пропускают сайты, построенные на своих собственных закрытых корпоративных политиках.

Еще совсем недавно механизмы поиска не могли индексировать и файлы в формате PDF, в силу чего пропускали огромное количество информационных материалов и технических отчетов различных компаний, не говоря уже об официальных государственных документах.

По мере совершенствования механизмов индексации специальные форматы вызывают все меньше проблем.

Безусловно, самые ценные ресурсы Deep Web — это базы данных, в которых можно вести поиск. Существует тысячи обладающих высоким качеством, заслуживающих доверия специализированных онлайновых поисковых баз данных. Эти ресурсы особенно полезны для целенаправленного поиска.

В Web имеется немало сайтов, которые играют роль интерфейса для таких баз данных. Complete Planet, IncyWincy Spider и Librarians’ Internet Index дают ссылки для качественного поиска по базам данных Web. Такая методика называется поуровневым поиском. Введите фразу searchable database на любом из вышеперечисленных сайтов, и вы узнаете о таких базах данных значительно больше.

Вы можете найти и другие тематические базы данных, введя ключевую фразу "<предметная область> database" в поисковое окно предпочитаемого вами механизма поиска, например (jazz database, virus database).

Наивный пользователь, как правило, вводит ключевое слово в окно механизма поиска общего назначения, получает слишком много ссылок, а затем тратит время и силы на то, чтобы выбрать из них интересные для себя. Может случиться и обратное: не будет найдена ни одна ссылка, и пользователю останется лишь удивляться, почему? Так или иначе, очень трудно получить все нужные и не получить ненужные ссылки. Специалисты по информатике называют это «законом полноты и точности».

Аутентичные специализированные поисковые базы данных (как это следует из их названия) содержат относящуюся к делу информацию и очень немного посторонних сведений.

Не забывайте сохранять закладки на различные тематические базы данных, чтобы впоследствии можно было быстро обратиться к нужному ресурсу Deep Web.

Ли Ратзан преподает библиотекарское дело в Университете Рютгерса. С ним можно связаться по адресу lratzan@scils.rutgers.edu

Стратегия поиска в Deep Web

Deep Web содержит ценные ресурсы, труднодоступные для автоматических механизмов поиска, но открытые для знающих пользователей. Для доступа ресурсов, пропущенных в Shallow Web, более эффективным и результативным инструментом может оказаться процесс интерактивного поиска

Имейте в виду, что Deep Web существует.
Используйте общий механизм поиска для широкого тематического поиска.
Используйте поисковые базы данных для направленного поиска.
Зарегистрируйтесь на специальных сайтах и используйте их архивы.
Изучите Web-сайт публичной библиотеки. Некоторые из них предлагают бесплатные услуги удаленного доступа к коммерческим и научным базам данных для тех, у кого есть библиотечная карточка. Кроме того, библиотеки учебных заведений могут иметь подписку на соответствующие сервисы и предоставляют возможность бесплатно искать информацию на сайтах, недоступных для механизмов поиска общего назначения.