Поиск и навигация в Internet

Часть 3. Виртуальные библиотеки

Иерархические классификации

Фасетные классификации

Интерфейсы и организация виртуальных библиотек

Дальнейшее развитие информационных структур Web

Машина поиска HotBot превосходит AltaVista

В двух предыдущих статьях речь шла о принципах работы информационных систем Internet, позволяющих искать информацию в Паутине с помощью ключевых слов и фраз. Качество поиска при этом способе сильно зависит от тематической направленности индекса системы. Даже такие системы, как Lycos, Yahoo или InfoSeek, в силу специфики своих алгоритмов индексирования не обеспечивают одинакового качества поиска по различным темам. Однако существует еще один инструмент поиска информации в Web - виртуальные библиотеки.

Виртуальные библиотеки появились в World Wide Web гораздо раньше информационно-поисковых систем. Собственно виртуальной библиотекой принято называть классификацию информационных ресурсов сети, реализованную в виде списка ссылок на эти ресурсы.

Больше всего виртуальная библиотека по своей сути похожа на каталог обычной библиотеки, хотя по форме довольно сильно от него отличается.

Это отличие вызвано не какими-то особенностями WWW, а является естественным продолжением проблемы структуризации информации, которой человечество занимается уже не одну сотню лет. Поэтому рассмотрим существующие в Web виртуальные библиотеки с позиции различных известных подходов к тому, что называют Информационными Структурами.

Иерархические классификации

Самыми известными из информационных структур являются классификации, представляющие собой иерархическое группирование единиц хранения информации по тематическим направлениям или классам. Сами классы могут быть разбиты на подклассы, подклассы на другие подклассы и т.д. Самой известной классификацией является универсальная десятичная классификация (УДК), с которой знаком любой читатель библиотеки. В стиле УДК организована самая старая виртуальная библиотека - World Wide Web Virtual Library, начало которой было положено в то время, когда Бернерс Ли еще работал в CERN.

Огромный список тематических классов, которые разбиты на подклассы, занимает не один экран и требует довольно много времени для просмотра.

World Wide Web Virtual Library прекрасно иллюстрирует все преимущества и недостатки иерархических классификаций. В числе преимуществ можно назвать относительно простой поиск своего тематического направления, несложную процедуру поиска, которая представляет собой движение по дереву классов и процедуру расширения классов. Действительно, WWWVL очень быстро стала расширяться и постепенно превратилась в необъятный перечень тематических направлений. И здесь мы непосредственно подходим к недостаткам иерархических классификаций: слишком большое количество классов, если применять этот подход к Internet, слишком длинный путь к информационному ресурсу, отображение только одного тематического значения информационного ресурса, так как в иерархической классификации нельзя приписать один и тот же документ разным классам.

УДК призвана была решить проблему количества классов, но для нужд пользователей Internet, как и для других пользователей автоматизированных каталогов, это решение неприемлемо. На экран дисплея нельзя вывести все классы УДК, что делает работу с этой классификацией неудобной. Различные информационные системы Internet решают эту задачу путем уменьшения числа классов на одном уровне иерархии, увеличивая, тем самым, длину пути к информационному ресурсу.

Типичным разбиением верхнего уровня классификации можно признать каталог Galaxy:

Business and Commerce Community Engineering and Technology Goverment Humanities Law Leisure and Recreation Medicine Reference and Interdisciplinary Science Social Science.

Несколько иначе организованы классы отечественных систем ROL (Russia-On-Line), RON (Russia-On-Net) и т.п.:

News and Online Media Networks, Internet Service Providers Russian Companies Foring Companies Science Education Entertainment and Recreation Arts, Music, Literature Web Information Servers Travel Goverment, Politics, Legislation Personal Home Pages.

Вообще говоря, эта классификация отличается от приведенной ранее некоторой эклектичностью. В ней перемешаны тематические направления с сервисом и рекламой, которые можно рассматривать как независимые фасеты. Такое разбиение навязывается коммерческим характером системы и применяется не только в RON, но, например, и в Lycos.

Однако внешнее сходство каталогов еще не гарантирует одинакового результата поиска. Так, Yahoo придерживается сходного с Galaxy разбиения массива документов, а поиск в этих системах довольно сильно различается по результатам. Вызвано это тем, что Yahoo по сути своей является специализированной информационной системой по World Wide Web, в то время как Galaxy более универсальна.

Следует заметить, что первичное разбиение документов вещь очень важная, существенным образом влияющая на качество поиска в массиве документов. Если тематическая направленность запроса пользователя совпадает с тематическим разбиением системы, то можно с большой долей уверенности сказать, что результаты поиска будут хорошими. В противном случае можно получить большое количество совершенно бесполезных документов. Отсюда следует, что в Web в ближайшее время будет наблюдаться появление большого количества специализированных тематических информационных систем со своими каталогами и рубрикаторами, что должно облегчить поиск информации в Сети.

Другая проблема, а именно длина пути до информационного ресурса в современных информационных системах Internet, решается путем комбинирования поиска и использования ключевых слов, фраз и классификации. Ключевые слова применяются на заключительной фазе, когда пользователь уже углубился на два - три уровня иерархии. Именно так устроены системы Yahoo, Lycos и OpenText.

Фасетные классификации

Фасетные классификации от иерархических отличаются тем, что на одном и том же массиве документов можно построить несколько тематических иерархий. Такой подход в информационных системах World Wide Web используется гораздо реже обычных иерархических классификаций и применяется главным образом для работы с локальными информационными ресурсами. Последний тезис хотелось бы пояснить несколько подробнее.

На последних двух конференциях по технологии World Wide Web постоянно отмечалось, что "Всемирная паутина" представляет собой довольно своеобразную гипертекстовую структуру. Каждая база данных, которая поддерживается своим сервером Web, имеет хорошо продуманную и тщательно спланированную структуру, которая при этом еще и постоянно поддерживается в соответствии с нуждами пользователей, но вот связи между серверами носят весьма случайный характер. В большинстве случаев именно виртуальные библиотеки и индексы информационно-поисковых систем Internet являются тем связующим звеном, которое позволяет добраться из одного узла Web в другой. В контексте фасетных классификаций эта ситуация проявляется в двух качествах. Во-первых, в организации на уровне Web-сервера нескольких классификаций одного и того же информационного ресурса; во-вторых, в построении новых страниц, связанных с другими классификациями, расположенными в разных местах сети - классификатора классификаций. Последнее, как правило, применяется для информационного обслуживания специальных групп пользователей. Большое количество такого сорта фасет можно найти путем запроса типа:

Type keywords: Virtual Labraries

Наибольшее количество этих фасетов удалось найти при поиске в каталоге AltaVista.

В локальном варианте фасеты проявляются главным образом в качестве различных средств навигации в массиве документов. Так, в базе данных "Советская ядерная промышленность и технологии" Университета штата Техас кроме обычной иерархии технологий и радиационно-опасных объектов используются еще два типа фасетов: географический и типизация объектов.

Географический фасет позволяет выбирать страницы базы данных по принадлежности того или иного объекта к различным регионам Земли, а типизация позволяет искать информацию по типам объектов, в то время как основная классификация ведет пользователя по жизненному циклу ядерных материалов от их добычи до утилизации.

Аналогичный фасетный подход применяется и в базе данных по онкологическим заболеваниям (кстати, победителе конкурса "Лучший на сети" 1994 года в номинации "Лучшая профессиональная система"). Здесь фасеты устроены по принципу типизации пользователей системы. Предполагается, что пользователь может быть новичком-студентом, пациентом или практикующим врачом. При этом массивы документов, которые попадают в классы фасетов сильно пересекаются.

Довольно часто фасетная классификация используется и для организации навигации в базах данных типа "клуба путешественников". Одни и те же города и веси могут рассматриваться с точки зрения различных интересов: истории, культуры, кулинарии и т.п. В ряде случаев такие фасеты превосходят рамки локальной системы в силу того, что классификация объектов истории, культуры, отдыха и т.п. носит интернациональный характер.

Интерфейсы и организация виртуальных библиотек

Важно отметить, что применение фасетных классификаций тесно связано с развитием интерфейса пользователей информационных систем Internet. В системе Gopher использовались только иерархические классификации. Это было связано с двумя главными технологическими решениями: представление информационных ресурсов в виде дерева виртуальной файловой системы и ориентация на недорогие технические решения, базирующиеся на алфавитно-цифровых терминалах. Появление World Wide Web, с точки зрения создания информационных справочников, не привело сначала к серьезным изменениям в этом подходе. World Wide Web Virtual Library разрабатывалась с таким расчетом, чтобы можно было ее использовать не только и не столько для пользователей компьютеров NeXT с графическим интерфейсом, но и для пользователей telnet, которые работали с Web через интерфейс WWW.

Крутой поворот в применении новых форм организации интерфейса виртуальных библиотек произошел с появлением Mosaic и развитием изобразительных средств HTML. Сегодня усилиями Netscape Communication в HTML включены все необходимые средства для организации одновременного поиска информации с использованием различных классификаторов и информационно-поисковых языков. Реально это достигается посредством применения фреймов, новых окон, форм, встраиваемых объектов и т.п. Совершенно очевидно, что использование JavaScript и Java приведет к появлению как специализированных информационных страниц Web, так и программ-клиентов, ориентированных на информационный поиск.

В разных системах для реализации классификаций сейчас используют различные изобразительные средства HTML. Так в WWWVL применяются обычные вложенные списки, причем, что характерно, это списки определений (DL), которые позволяют давать пояснения к названиям классов. В Yahoo, Lycos, ROL, RON для организации каталога используются таблицы. Фасеты в этом случае обычно реализуют в виде дополнительной таблицы или контекстных ссылок. Однако в ряде случаев поступают иначе. Так в AltaVista выбор фасета при поиске осуществляется из поля формы. Часто для организации корневого каталога используются графические образы, на которых построены так называемые "чувствительные" картинки, связанные ссылками с соответствующими каталогами.

Дальнейшее развитие информационных структур Web

Однако одними классификациями Информационные Структуры, применяемые в Web, не ограничиваются. Исследования, которые выполняются в рамках проекта AltaVista, предполагают анализ применения в рамках этой информационной системы тезаурусов, семантических сетей и других образований для описания структуры тематических направлений и отображения ее на массивы терминов индексирования документов.

Много исследовательских работ посвящено различным способам автокоррекции структур виртуальных библиотек в зависимости от состояния информационных ресурсов сети и запросов пользователей. Следует заметить, что все эти исследования носят чисто практический характер, и с очень большой вероятностью можно ожидать, что через год или два результаты этих работ будут доступны большинству пользователей World Wide Web.

Павел Храмцов - руководитель группы РНЦ "Курчатовский Институт". С ним можно связаться по телефону, (095) 196-91-24 или по электронной почте paul@kiae.su

Машина поиска HotBot превосходит AltaVista

Сегодня проблема заключается в том, что инструменты и технологии Internet разрабатываются гораздо медленнее, чем растет Сеть; то, что хорошо работало год назад, сейчас, когда Internet выросла вдвое, может и подвести.

Однако маленькая компания Inktomi представила масштабируемую машину поиска, которая может расширяться путем простого добавления дополнительных рабочих станций к поисковой сети. Как заявляют представители Inktomi, в HotBot, которую можно найти по адресу www.hotbot.com, заиндексировано практически все содержимое World Wide Web (около 50 миллионов страниц) - почти вдвое больше, чем в признанном чемпионе среди инструментов поиска, системе Alta Vista компании Digital.

"Система Alta Vista полагается на грубую силу - в ней закаталогизировано огромное количество информации, - считает Тед Джулиан, аналитик из International Data Corp., специализирующийся на вопросах электронной коммерции. - HotBot превосходит Alta Vista". Понимая, что ответ на запрос, содержащий 10 тыс. ссылок, вряд ли устроит пользователей, Inktomi реализовала необычно мощные и гибкие опции для формулировки запросов и фильтрации результатов.

"В системе есть функции, которые кажутся мне полезными, - заметил Дэвид Фолгер из компании Meta Group. - Например, просмотр изменений за последние X дней или выбор страны, которой следует ограничить поиск".

Хорошая новость заключается в том, что HotBot можно использовать бесплатно. Однако есть и плохая: пользователям придется терпеть наличие некоторого количества рекламы. Создавая HotBot, Inktomi объединилась с HotWired Ventures, электронной версией журнала Wired. HotWired будет продавать рекламное пространство на страницах HotBot.

HotBot работает в сети, состоящей из десяти рабочих станций UltraSPARC компании Sun Microsystems. Для создания индексов и поиска разработано специализированное распределенное программное обеспечение, которое позволяет использовать одновременно большое число процессоров. По мере роста Web Inktomi будет расширять свою поисковую сеть, добавляя в нее новые рабочие станции.

По словам технического директора Inktomi Эрика Брюэра, Inktomi намерена разработать аналогичный продукт для внутрикорпоративных сетей intranet. "Компания среднего размера сможет установить машину поиска на одном узле, когда же ей понадобится дополнительная мощность, можно будет добавить еще один недорогой узел", - сказал он. Брюэр сообщил, что корпорация Motorola, глобальная сеть intranet которой объединяет 6000 узлов Web, уже заказала такой продукт у Inktomi.

Фолгер предсказывает рост рынка поисковых систем для сетей intranet. По его мнению, эти продукты должны содержать усовершенствованные средства обеспечения безопасности, ограничивающие для сотрудников возможность просмотра конфиденциальной информации.

HotBot пополняет список бесплатных систем поиска, который включает Alta Vista, Lycos, Web Crawler, InfoSeek и Search.com. По словам Джулиана, пользователям может потребоваться любая из них. "У каждой из них свои достоинства. Ветераны Internet знают, что лучше всего подойдет для решения конкретной задачи", - сказал он.

- Гэри Антес