Что можно найти в сети
Как ищут информацию в сети
Как искать без Web
Что дальше?

Все знают, а кто не знает, тот догадывается, что Internet - это бесконечный информационный ресурс, однако первая же попытка поиска чего-либо в этой огромной кладовой обычно разочаровывает. Особенно обидно наблюдать со стороны за действиями специалиста, который находит то, что нужно, в то время как вы сами на это оказались неспособны. Ситуация похожа на поиск грибов в лесу - заядлые грибники не мечутся по всему лесу, а направляются прямиком к своим излюбленным местам, все же остальные просто отдыхают на свежем воздухе. Статья адресована тем, кто еще не нашел свои "грибные" места в дремучем лесу под названием Internet.

Что можно найти в сети

За шумом, поднятым вокруг World Wide Web, постепенно отошел на второй план факт наличия в Internet других информационных ресурсов.

Ценность, с точки зрения поиска информации, наряду с Web-страницами, представляют и статьи в группах Usenet, и сообщения в списках почтовой рассылки, и застывшее в своем развитии пространство GopherSpace, и бездонные хранилища FTP-архивов, и большое количество доступных по telnet локальных информационных ресурсов, и, наконец, массивы информационно-поисковых серверов WAIS. Все эти ресурсы могут быть и в самом деле предметом поиска в Internet, а многие из них имеют и свои собственные поисковые средства.

Для поиска в виртуальной файловой системе GopherSpace разработана система Veronica. Обращение к ней содержится в корневом меню большинства серверов Gopher. Это полноценная информационно-поисковая система (ИПС), которая позволяет осуществлять поиск с использованием ключевых слов в массивах, поддерживаемых зарегистрированными в университете Миннесоты серверами GopherSpace.

Для поиска в FTP-архивах существует программа archie. Если пользователь знает название программы или файла, который ему нужен, или хотя бы знает часть этого названия, или, на худой конец, имеет некоторые соображения по поводу того, как этот файл может называться, то имеет смысл воспользоваться услугами ближайшего сервера archie.

Для обращения к ресурсам, доступным по telnet, следует воспользоваться каталогом Hytelnet. В этом достаточно обширном архиве размером в несколько мегабайт, можно найти краткое описание и адрес полезной вам локальной информационной системы. Наиболее эффективен Hytelnet при доступе к библиотечным системам университетов. Аналогичные по возможностям поисковые системы существуют и у большинства списков почтовой рассылки, а в некоторых группах Usenet можно указывать поле заголовка почтового сообщения "keywords".

Увлечение WWW оттеснило в сторону Wide Area Information System, а ведь именно технология этой системы была разработана для организации распределенной ИПС Internet. Одним из наиболее известных применений WAIS в Internet является Britannica On-line - электронная версия всемирно известной энциклопедии.

Но все эти возможности определяют то, что в традиционных ИПС называлось ретро-поиск, однако существует еще режим избирательного распространения информации (если не вдаваться в детали, это просто подписка). В Internet можно подписаться в режиме уведомления на многие телеконференции Usenet и списки почтовой рассылки. Следует учитывать то обстоятельство, что многие из них не контролируются строгими редколлегиями и, следовательно, содержат много всякой всячины, которая в большинстве случаев можно отнести к категории информационного шума. Однако бывают такие сообщения, которые невозможно найти в других местах. Справедливости ради надо отметить, что имеются чрезвычайно высокоинформативные списки и групп Usenet, например список рассылки предупреждений CERT (Computer Emergency Responce Team), который посвящен практическим вопросам компьютерной безопасности.

Все это должно убедить читателя в том, что Web-страницы - это только один из множества информационных ресурсов Internet. Но кроме Web-страниц имеется еще технология World Wide Web - именно она превращает программы-интерфейсы Web (Netscape Navigator, Internet Explorer и др.) в то самое окно, через которое открывается доступ ко всем информационным ресурсам Сети. Эти мультипротокольные программы могут общаться с серверами Web, Gopher, FTP, просматривать группы Usenet, работать с электронной почтой с базами данных WAIS и, в ряде случаев, через серверы Web. Для работы с другими ресурсами Сети программа-интерфейс может запускать либо внешнее приложение, либо работать через расширительное (plug-in) приложение.

Многие из перечисленных информационных ресурсов имеют свои домашние страницы в Web, что облегчает доступ к ним из программ-интерфейсов Web, но все-таки самым мощным средством поиска в Internet являются специализированные информационные службы, которые ведут учет наличия различных информационных источников в сети и динамику их обновления. Главным в технологии организации таких служб является наличие базы данных ссылок на информационные ресурсы Internet и механизм поиска в этих базах данных.

Рассмотрим структуру подобных ссылочных баз данных на примере некоторых систем. Данные приводятся по обзору "World Wide Web searching tools - an evaluation" Яна Уиншипа из университета в Ньюкастле (Великобритания) (http://www.bubl. bath.ac.uk/BUBL/IWinship.html), который был подготовлен для VINE в 1995 году.

Как видно из таблицы, в системах Lycos и Galaxy используются ссылки на ресурсы, отличные от страниц Web. При этом следует отметить, что Lycos - это одна из наиболее популярных и полных баз данных ресурсов Internet и многие пользователи используют именно ее для первичного поиска ссылок на необходимую информацию.

Таблица 1.

Название
worm
WebCrawler
Lycos
Harvest
Galaxy
Yahoo
URL
telnet
-
-
-
-
*
-
gopher
-
-
*
-
*
-
ftp
-
-
*
-
-
-
WWW
*
*
*
*
*
*
Заголовки/Заглавия
*
*
*
*
*
*
фрагменты текста
-
-
-
*
*
-
Полный текст
*
-
-
-
*
-
Размер Базы Данных
-
10000 док.
4.2 млн. URL
42000 объектов
-
-
Добавление пользователями своих URL
*
-
*
-
-
*

Другим примером подключения к поиску информации, отличной от страниц Web, является система AltaVista, в которой осуществляется поиск и по статьям групп Usenet. Следует отметить, что это не единственная система, позволяющая искать в Usenet - Lycos также в состоянии это делать. На конец 1994 года в его базе данных насчитывалось 142132 http-ссылок, 102910 ftp-ссылки, 84143 gopher-ссылки, 4314 news-ссылки, 1396 telnet-ссылок, 379 mailto-ссылок, 244-wais-ссылки и 13 ссылок rlogin.

Большинство коммерческих систем, например OpenText, InfoSeek, имеют примерно аналогичный набор информационных источников, которые отражены в их базах данных.

Как ищут информацию в сети

Вообще говоря, каждый пользователь Internet ищет информацию в сети, согласно своим вкусам и пристрастиям. Однако существуют некоторые общие принципы, следуя которым новичок может быстрее найти свою тропинку в Internet. Эти принципы не являются чем-то абсолютно незнакомым, а ряд читателей с успехом уже применяло их при пользовании обычными библиотеками или реферативными ИПС.

Самый простой способ начать поиск в Internet - обратиться к одной из информационных служб сети.

Еще два-три года назад, когда этих служб еще не было, первой страницей, которую посещал новичок WWW, была страница CERN. Из нее, пользуясь тематическим каталогом или каталогом серверов, упорядоченным по странам, можно было начать путешествие по гипертекстовым ссылкам, пытаясь найти полезную информацию. В современных условиях это занятие хоть и увлекательное, но весьма непродуктивное. Блуждать по сети можно очень долго и при этом ничего путного не найти. В этих условиях все зависит от первой просмотренной страницы - если эта страница выбрана тематически правильно, то частичный успех поиска уже обеспечен. Обычным способом поиска первой страницы является поиск с использованием ключевых слов. Любая информационная служба Internet обеспечивает эту возможность. Домашние страницы всех указанных систем содержат страницу, позволяющую вводить запрос с использованием ключевых слов. Однако при этом способе доступа к информационным ресурсам сети следует учитывать ряд факторов.

Во-первых, все системы в сети имеют свою специализацию. Lycos и AltaVista содержат одни из самых больших массивов ссылок на документы - это системы с наиболее быстро обновляющимися базами данных. В этом есть своя прелесть - доступ к свежей информации, но есть и свои недостатки - многие ресурсы Internet недолговечны и подвижны, ссылки могут указывать на отсутствующие ресурсы. Infoseek - это наиболее стабильная база данных, где удобно находить известные материалы, но не следует искать что-нибудь новое и модное. Yahoo хорошо описывает сам Web и Internet, но плохо подходит для поиска по другим тематическим направлениям. Одним словом, не следует искать в научно-технической библиотеке художественную прозу и наоборот.

Тематика достаточно хорошо прослеживается по классификации информационных ресурсов, приводимых на первой странице системы. Опираясь на эту информацию, следует взвесить, насколько тематика данной системы подходит для поиска по требуемому запросу. В общем случае пользователю надо сразу настроиться на продолжительный и кропотливый труд. Если в обычной библиотеке существует УДК и персонал, который расставляет книжки и журналы в соответствии с предметным каталогом, общим для всех библиотек, то в Internet такого стандарта нет, и каждая информационная служба вырабатывает свою собственную систему классификации.

Кроме того, совершенно очевидно, что Internet - это мировой информационный ресурс. Сюда помещается все, что так или иначе интересует людей во всем мире, поэтому прежде, чем начинать что-либо искать, следует трезво оценить вероятность того, может ли данная информация вообще попасть в сеть и где наиболее логичное для нее место. В этом смысле полезно вспомнить опыт отделов научно-технической информации, имеющихся в каждой научной организации, в задачу которых входит просеивание научной информации по тематике организации. Internet - это еще один информационный ресурс, который также следует регулярно просеивать. В ряде случаев оправдано создание тематических домашних страниц профессионалами информационного поиска. Как показывает практика, большинство пользователей одного и того же профиля посещают одни и те же страницы и составляют примерно одинаковые запросы. Такая тематическая страница может стать специализированным входом в Internet.

Во-вторых, следует отчетливо понимать, что поиск осуществляется не на естественном языке и не по всему тексту документа. Обычно документ представлен набором ключевых терминов - поисковым образом документа (ПОД), а пользователь осуществляет поиск не в наборе документов, а в наборе их поисковых образов. Откуда берутся термины индексирования, видно из таблицы 1 - это главным образом URL, заголовки () и заглавия (...). Если база данных системы небольшая, то все термины из этих категорий могут попасть в ПОД, в противном случае осуществляется их селекция. Так в AltaVista и Lycos применяются специальные алгоритмы взвешивания и только наиболее "тяжелые" термины попадают в ПОД. Естественно, что все это сильно влияет на результаты поиска.

В-третьих, сами запросы и их интерпретация в информационных системах Internet реализованы по-разному. В ряде случаев это что-то типа "найди мне нечто похожее на это". При такой интерпретации вычисляется мера близости запроса и документа, которая используется для формирования ответа. Типичные примеры - Lycos и Yahoo, хотя меры близости в них разные. В других системах запрос - это логическое выражение типа: "(software and unix) not (editor*)", что означает примерно следующее: "следует найти программное обеспечение для UNIX, но не текстовые редакторы". В ПОД должны одновременно содержаться термины "software" и "unix", но отсутствовать термины с основой "editor".

Вне зависимости от типа информационно-поискового языка многие системы содержат возможность сформулировать простой запрос и запрос с учетом специфики поискового аппарата системы. Простой запрос - это фраза на естественном языке без общих слов, союзов и предлогов. Сложный запрос - это запрос, учитывающий специфику системы и позволяющий пользователю варьировать различные параметры поискового процесса. После завершения обработки запроса пользователю выдается список ссылок на документы, где уже можно использовать гипертекстовые ссылки для просмотра. Эти ссылки могут указывать как на Web-страницы, так и на единицы хранения других информационных ресурсов Internet.

Как искать без Web

Web и его информационные службы чрезвычайно удобны и мощны, но в ряде случаев бывает полезно прибегнуть к помощи других поисковых средств. Если предметом поиска является программное обеспечение, то можно воспользоваться услугами archie. Причем сделать это можно как по электронной почте, так и интерактивно средствами telnet:

telnet archie.luth.se login: archie

когда появится приглашение на ввод команд, следует ввести что-то, типа:

archie>prog eudora.exe

и система перейдет к поиску этой программы. Указанный сервер ищет программу в Скандинавии и Центральной Европе.

Если искомый ресурс является ресурсом GopherSpace, то наберите в поле URL адрес сервера Gopher, например:

gopher://gopher.kiae.su/

Одна из позиций меню будет указывать на поиск в GopherSpace - это обращение к поисковой машине Veronica, которая обладает развитым информационно-поисковым языком, позволяющим связывать термины запроса логическими коннекторами AND, OR, NOT.

Для поиска информации в каталогах библиотек или в других информационных ресурсах, доступных по telnet, следует поступить следующим образом: найти домашнюю страницу Hytelnet в Web, а далее, перемещаясь по иерархическому меню Hytelnet, найти организацию, которая обладает искомым информационным ресурсом и перейти к ней по ссылке. Netscape или Mosaic не могут сами выполнить доступ по telnet, поэтому запускают программу эмуляции telnet-терминала с атрибутами публичного account. После этого следует читать инструкции местной информационной системы.

При доступе к WAIS лучше всего воспользоваться специальной программой-клиентом. Например, для Windows 3.x существует программа WAIS, которую можно получить с ftp-сервера ftp.kiae.su. Эта программа поставляется с настройкой на американские серверы WAIS, а также имеет довольно интересный интерфейс в виде глобуса, который можно использовать для указания адреса сервера/серверов WAIS. Поиск в WAIS осуществляется по ключевым словам из предложенного списка.

Что дальше?

В общих чертах вы познакомились с тем, как устроен поиск информации в Internet, а приведенные сведения, надеюсь, будут полезны для тех, кто приступил к работе в сети. Но даже если строго следовать описанным правилам, результат может оказаться менее благоприятным, чем это первоначально ожидалось. Для того чтобы понять причину неудачи и определить свои дальнейшие действия, полезно более подробно познакомиться с устройством ИПС.


Павел Храмцов - руководитель группы РНЦ "Курчатовский Институт". С ним можно связаться по тел. (095) 196-9124 или электронной почте: paul@kiae.su

Таблица 2.

Информационная служба
Адрес
Lycos
http://www.lycos.com
InfoSeek
http://www.infoseek.com
AltaVista
http://www.altavista.digital.com
Yahoo
http://www.yahoo.com
OpenText
http://www.opentext.com
WebCrawler
http://info.webcrawler.com