Контекст при поиске в Web

Введение

По мере распространения Web все шире и шире становятся представлены разные слои общества. По сравнению с базами данных, используемых в традиционных системах извлечения информации, Web намного разнообразнее как по содержимому, так и по структуре.

Современные механизмы поиска в Web аналогичны по своему действию традиционным системам извлечения информации [57]. Механизмы поиска в Web способны предоставлять длинные списки подходящих документов в ответ на многие запросы пользователей, и новые методы совершенствуют упорядочивание результатов поиска [8, 10, 21, 36, 41]. Однако в действительности интерес для пользователя представляют лишь очень немногие из результатов, полученных в ответ на запрос [6, 50]. Какие из документов окажутся полезными, зависит от контекста запроса, например, от образования, области интересов и опыта пользователя, а также от информации, предлагаемой в рамках текущего запроса. Нужны ли пользователю компании, продающие данный продукт, или техническая информация о продукте? Хочет ли пользователь попасть на сайт, где он уже был, или его интересуют новые сайты?

Такие механизмы поиска, как Google и FAST, как никогда раньше упрощают доступ к информации и широко применяются в Web. Исследование, проведенное GVU, показало, что около 85% людей обращаются к поисковым системам для того чтобы локализовать информацию [31], и многие механизмы поиска поддерживают согласованное упорядочивание ведущих сайтов, к которым пользователи обращаются в Web [48]. Однако основные механизмы поиска в Web имеют существенные ограничения - зачастую они предлагают устаревшую информацию, индексируют лишь часть доступной в Web информации, не индексируют документы, для доступа к которым необходима аутентификация, и многие документы остаются за рамками поиска, а кроме того, сайты индексируются неодинаково [42, 43].

Определение контекста в поисковых запросах

Механизмы поиска в Web, как правило, рассматривают запросы на поиск изолированно друг от друга. Результаты, полученные в ответ на данный запрос, идентичны, не зависят от пользователя или контекста, в котором пользователь создавал запрос. Контекстная информация может быть предоставлена пользователем в виде ключевых слов, добавляемых к запросу. Например, при поиске домашней страницы конкретного человека можно добавить к запросу такие ключевые слова, как «home» или «homepage». Однако возможности предоставления контекста в таком виде сложны и ограничены. Единственный способ добавить хорошо определенную контекстную информацию в поисковый запрос предлагается в механизме поиска, который специально рассчитан на обработку таких данных.

Явное добавление контекстной информации

Проект Inquirus 2 института NEC Research Institute [29, 30] запрашивает контекстную информацию, что сейчас реализовано в виде указания категории требуемых данных. Помимо формирования запроса из ключевых слов пользователи выбирают категорию, например, «personal homepages» (персональные домашние страницы), «research papers» (научные статьи) или «general introductory information» (общая предварительная информация). Inquirus 2 представляет собой механизм метапоиска, который действует на уровень выше обычных поисковых систем. Inquirus 2 пытается, используя данные запроса вместе с контекстной информацией, найти подходящие документы с помощью обычных механизмов поиска в Web. Контекстная информация необходима для выбора тех механизмов поиска, которым передается запрос, для модификации запросов и для определения принципов упорядочивания полученных документов.

Например, запрос на научные статьи по теме «машинное обучение» может трансформироваться в рассылку нескольких запросов к механизмам поиска. Один из таких запросов может быть изменен за счет добавления ключевых слов, которые позволяют уточнить запрос, указав, что требуются именно научные статьи, например, ключевые слова «abstract» («резюме») или «references» («библиография»). Другой запрос может быть идентичен исходному, если преобразования ничего не дают. Inquirus 2 подтвердил свою высокую эффективность по уточнению результатов поиска в пределах предопределенных категорий. Последнее исследование, связанное с Inquirus 2, касается интеграции методов обучения, позволяющие автоматически модифицировать запросов [18, 28].

Автоматическое получение контекстной информации

Inquirus 2 может значительно увеличить точность поиска, но требует, чтобы пользователь явно указал контекстную информацию. А нельзя ли автоматически выяснить контекст? Именно такую цель ставят перед собой авторы проекта Watson [11, 12, 13].

Watson пытается моделировать контекст для информации, требующейся пользователю, опираясь на содержимое документов, которые пользователь ранее редактировал средствами Microsoft Word или просматривал в Internet Explorer. Документы, которые пользователь редактирует или просматривает, анализируются с помощью эвристического алгоритма, поддерживающего весовые коэффициенты, которые призван выявлять слова, отличительные для содержимого документов. Watson меняет запрос в зависимости от содержимого редактируемых или просматриваемых документов и передает модифицированный запрос механизмам поиска в Web, тем самым автоматически добавляя контекстную информацию в запрос.

Watson не только позволяет формулировать подобные запросы явно, но и действует в фоновом режиме, постоянно осуществляя поиск документов в Web, связанных с материалами, которые редактирует или просматривает пользователь. Аналогичным образом работает и Remembrance Agent [54, 56], индексирующий определенные файлы, такие как сообщения электронной почты и научные статьи, и постоянно ведет поиск связанных документов, пока пользователь работает с документом в редакторе Emacs. К аналогичным проектам относятся: Margin Notes [55], который переписывает Web-страницы, включая в них ссылки на соответствующие персональные файлы; Haystack [1], цель которого состоит в создании множества взаимосвязанных «стогов», или хранилищ персональной информации; программа Autonomy?s Kenjin (www.kenjin.com), которая автоматически предлагает содержимое локальных файлов или файлов из Web с учетом документов, которые пользователь просматривает или редактирует. Кроме того, к аналогичным решениям можно отнести агентов Fab [4], Letizia [47], WebWatcher [3] и Syskill and Webert [51], изучающих область интересов пользователя с тем, чтобы предложить ему соответствующие Web-страницы.

Персонифицированный поиск

Следующий этап - персонификация поиска, т. е. использование механизма поиска, которому известно все о предыдущих запросах пользователя и сфере его интересов и данный механизм способен согласовывать результаты запроса с этими данными. Так, к примеру, в ответ на запрос «Майкл Джордан» ссылки на информацию, связанную с профессором, работающим в области информатики и статистики, будут иметь более высокий приоритет, чем ссылки на данные об известном баскетболисте, если такое упорядочивание больше отвечает интересам конкретного пользователя.

Такой персонифицированный поисковый механизм может размещаться или на сервере, или на клиенте. Серверный механизм поиска, такой как Google, способен отслеживать предыдущие запросы пользователя и выбранные им документы, а затем на основе этой информации сделать вывод о сфере его интересов. Например, если пользователь часто ищет материалы, связанные с компьютерами, тогда ссылка на домашнюю страницу ученого при ответе на запрос «Майкл Джордан» получит высокий приоритет, даже если раньше пользователь никогда не инициировал подобный запрос.

Персонифицированная служба поиска на клиенте отслеживает все редактируемые и просматриваемые пользователем документы для того, чтобы составить наилучшую модель пользовательских интересов. Клиенты могут модифицировать запросы с тем, чтобы помочь извлечь документы, соответствующие данному контексту, но при этом трудно полностью учесть всю сферу интересов пользователя. Watson и Kenjin представляют собой примеры персонифицированных механизмов поиска в Web, размещаемых на клиенте. Сейчас Watson и Kenjin извлекают контекстную информацию только из документа, который в данный момент просматривает или редактирует пользователь.

Принимая во внимание, что затраты на работу полномасштабного механизма поиска и так уже очень высоки, можно сделать вывод, что, скорее всего, полномасштабная персонификация на сервере сейчас обходится слишком дорого для основных механизмов поиска в Web. Большинство таких механизмов (исключение составляет лишь Northern Light) даже не предлагают службу уведомления, которая сообщала бы пользователям о появлении новых страниц, соответствующих конкретным запросам. Некоторые Internet-компании уже предлагают значительный объем памяти индивидуальным пользователям. Например, DriveWay (www.driveway.com) и Xdrive (www.xdrive.com) предоставляют каждому пользователю дисковое пространство емкостью до 100 Мбайт.

Одна из важнейших проблем, связанных с персонифицированными службами поиска состоит в том, что пользователи часто рассчитывают на неизменность, т. е. им хотелось бы получать одни и те же результаты в ответ на одни и те же запросы. Но персонифицированный механизм поиска может возвращать разные результаты в ответ на один и тот же запрос как для разных пользователей, так и для того же пользователя по мере того, как система больше узнает о его пристрастиях. Еще один важный вопрос, о котором здесь ничего не говорилось, - это вопрос конфиденциальности, поскольку многие стремятся ограничить возможности хранения и использования персональной информации механизмами поиска.

Чего хочет пользователь

Все чаще при поиске в Web используется методика, позволяющая прогнозировать контекст пользовательских запросов. Поисковые машины Excite (www.excite.com), Lycos (www.lycos.com), Google (www.google.com) и Yahoo (www.yahoo.com) предлагают специальные функции для определенных видов запросов. Например, запросы к Excite и Lycos с указанием имени художника или названия компании, порождают дополнительные результаты, которые непосредственно связаны с художником или компанией. Недавно Yahoo добавила аналогичную функциональность и предоставляет специализированные результаты для множества различных типов запросов, например, если в запросе встречается символ акции, то предлагаются котировки ценных бумаг и ссылки на информацию о компании, а имена игроков связываются с информацией о команде и лиге. Подобный же эффект при обращении с запросом в Yahoo вызывает упоминание моделей автомобилей, праздников, музыкантов, крупных городов, названий лекарственных средств и препаратов, знаков Зодиака, пород собак, авиакомпаний, магазинов, телевизионных шоу и национальных парков. Google идентифицирует запросы, которые выглядят как названия улиц в США и предлагает прямые ссылки на карты. Точно также Google отслеживает запросы на последние новости и предоставляет ссылки на соответствующие статьи, когда те найдены, обоснованно предполагая, что пользователя могут интересовать новости.

Вместо того чтобы требовать от пользователя явного указания контекстной информации, такой, к примеру, как «я ищу новости» или «я хочу получить котировки акций», эта методика предполагает, каким может быть подходящий контекст. Пользовать имеет возможность достаточно просто указать, какой именно контекст его интересует. Эта методика ограничивается случаями, в которых потенциальный контекст может быть определен на основе запроса с ключевыми словами. Усовершенствовать методику определения контекста поиска можно с помощью персонифицированного механизма поиска. Например, для пользователя, интересующегося компьютерной тематикой, запрос «Майкл Джордан» может вернуть ссылку на список публикаций профессора Майкла Джордана, исходя из предположения, что этому пользователю необходимы именно такие материалы.

Кроме того, может применяться кластеризация результатов поиска, например в том стиле, как ее выполняет Northern Light. Поисковая система Northern Light динамически объединяет результаты поиска в такие категории, как «current news» («текущие новости») и «machine learning» («машинное обучение»), и дает пользователям возможность ограничить поиск любой из этих категорий.

Ограничение контекста

Еще один способ учесть контекст при выполнении поиска в Web - это ограничить контекст, в котором работает сам механизм поиска, т. е. создать специализированные механизмы поиска для конкретных предметных областей. Тысячи таких механизмов уже существуют (см. www.invisibleweb.com и www.completeplanet.com). Многие из подобных служб предлагают функциональность, аналогичную функциональности обычных механизмов поиска в Web либо для информации, которая находится в общедоступной индексированной Web (лишь часть которой может быть проиндексирована обычными механизмами поиска), либо для информации, которая не доступна обычным механизмам поиска (например, механизм поиска New York Times).

Извлечение информации и специализированная обработка

Система ResearchIndex (также известная как CiteSeer) [40, 44, 45] представляет собой специализированный механизм поиска научной литературы. ResearchIndex - это бесплатная общественная служба (www.researchindex.com), представляет собой крупнейший в мире бесплатный полнотекстовый каталог научной литературы, сейчас насчитывающий более 300 тыс. статей, содержащих свыше 3 млн. ссылок. Он включает в себя характеристики, специфические для научной литературы. ResearchIndex автоматизирует создание индексов ссылок для научной литературы, предлагает удобный доступ к контексту статей, на которые имеются ссылки и имеет специализированные функции для извлечения информации, часто публикуемой в научных статьях.

К другим специализированным механизмам поиска, которые извлекают информацию или выполняют обработку с учетом особенностей конкретной предметной области, относятся: DEAD-LINER [37], анализирующий информацию из Web-конференций, групп новостей и списков рассылки; FlipDog (www.flipdog.com), анализирующий информацию о рабочих местах с вакансиями; HPSearch (hpsearch.uni-trier.de/hp), индексирующий домашние страницы специалистов в области информатики и компьютеров; GeoSearch [14, 23], использующий выборку информации и анализ источников ссылок для того чтобы определить географическое положение и сферу действия Web-ресурсов. Northern Light также предлагает службу, получившую название GeoSearch, однако эта служба лишь пытается выделить адреса с Web-страниц и не поддерживает концепцию географической сферы действия ресурса (например, New York Times расположена в Нью-Йорке, но ее читают в более широком географическом регионе, в то время как другая нью-йоркская газета может совсем не пользоваться спросом за пределами Нью-Йорка).

Такие механизмы поиска, как ResearchIndex, DEADLINER, FlipDog, HPSearch и GeoSearch автоматически извлекают информацию с Web-страниц. Для такого получения информации было предложено множество методов, примеры которых приведены в [2, 9, 20, 38, 39, 40, 58, 59].

Выявление сообществ в Web

Механизмы поиска, ориентированные на определенную предметную область и рассчитанные на работу в общедоступной индексированной Сети, должны иметь возможность определять подмножества Web в рамках своей предметной области. Недавно Флейк и его коллеги [25] показали, что ссылочная структура Web самоорганизуется таким образом, что относящиеся к одной предметной области страницы можно четко выявить, опираясь исключительно на их связность. «Сообшество» определяется как совокупность страниц, каждая из которых имеет больше ссылок (в любом направлении) внутри этой совокупности, чем снаружи (данное определение можно обобщать для того чтобы выявить объединения различного размера с различным уровнем связности). Выявление таких сообществ крайне важно, поскольку не существует какой-либо организации или процесса, которые управляли бы формированием ссылок в Web. Этот подход позволяет выявить сообщества в Web безотносительно от конкретно используемых ключевых слов. Алгоритм эффективного выявления таких сообществ можно найти в [25].

Ряд других методов выявления сообществ взаимосвязанных страниц в Web можно найти в [7, 15, 16, 17, 22, 27, 36, 53].

Выбор специализированных механизмов поиска

Учитывая, что уже существуют тысячи специализированных поисковых механизмов, каким образом пользователь может найти то, что его интересует? Самое важное, наверно, смогут ли пользователи определить наилучшие для своих запросов специализированные поисковые системы.

В этой ситуации может помочь использование наилучших методов для обнаружения специализированных механизмов поиска. Предложен целый ряд методов выбора механизмов поиска на основе запросов пользователя, к примеру, GlOSS [33, 34] поддерживает статистику слов в имеющихся базах данных, чтобы оценить, какая из них окажется наиболее полезной для данного запроса. Соответствующие исследования описаны в [19, 24, 26, 32, 46, 49, 61, 62].

Универсального решения не существует

Обычные механизмы поиска можно рассматривать как «универсальное» решение - все пользователи получают одни и те же ответы на данный запрос. Как уже утверждалось ранее, эта модель не позволяет оптимально обрабатывать многие запросы, но это ли самое главное?

Часто говорят, что самым важным достоинством Web является равный доступ к информации. Но можно ли вообще говорить о таком равенстве? Например, распределение трафика и ссылок на сайты отличается значительной асимметрией [5, 35], учитывая, что непропорционально большая часть трафика приходится на долю небольшого числа крайне популярных сайтов — воистину, «победитель забирает все». Например, на долю самой крупной традиционной книготорговой компании (Barnes & Noble) приходится менее 30% рынка, в то время как самой крупной книготорговой компании в Сети (Amazon) принадлежит более 70% рынка [52].

На подобное положение дел существенное влияние оказывают механизмы поиска. До появления Web потребители могли выбрать любой магазин из указанных в телефонном справочнике. Сейчас все большее число покупателей находит магазины через механизмы поиска. Представьте, если большая часть запросов на поиск в Web по данным ключевым словам дают в результате одни и те же сайты с высокими приоритетами, причем, вполне возможно, что в критериях отбора учитываются параметры популярности [43]. Даже если лишь небольшой процент людей пользуется услугами поисковых механизмов для выбора магазинов, эти люди могут создать ссылки в Web на данные магазины, еще больше увеличивая вероятность выбора данных магазинов другими пользователями. На выбор пользователем данного элемента в Web может значительно большее влияние оказывать то, что называют общественным мнением, если сравнивать с предыдущими способами выбора (например, поиск в телефонной книге, близкое расположение или отзывы друзей). Отметим, что в Web ситуация развивается иначе, чем в другой, казалось бы аналогичной ситуации - с выбором телевизионных программ. Здесь общественное мнение оказывает меньшее влияние, так что, растущее число кабельных каналов и все более активное использование Web означают, что все меньше людей смотрит одни и те же программы.

Пристрастность при доступе к информации можно ограничить за счет использования для каждого запроса соответствующей службы поиска. Хотя запрос на поиск магазинов в основных поисковых машинах Web может вернуть пристрастные результаты, пользователи имеют возможность получить более объективную информацию в интерактивных телефонных справочниках - аналогах «Желтых страниц». То же видно и из другого примера. В ответ на поиск в феврале 2000 года имен кандидатов в президенты США, результаты, которые давали основные поисковые машины Web значительно различались в том, домашние страницы каких официальных кандидатов находились в первых строчках списка [60]. Аналогичные запросы, обращенные к специализированным механизмам поиска, работающим с политической информацией, давали менее «предвзятые» результаты. Однако существование более объективных служб не предотвращает неравенство в доступе к информации, если многие люди используют основные поисковые машины Web. Поиск в таких каталогах, как Yahoo или Open Directory, может также оказаться более объективным, хотя вполне вероятны значительные и неадекватные пропуски в списках, а многие сайты в них и вовсе не указаны.

Новые поисковые службы, которые учитывают контекст, а также дальнейшая интеграция контекста в уже существующие поисковые службы могут увеличить уровень конкуренции, разнообразие и функциональность и позволят ослабить эффект предвзятости при доступе к информации в Web.

Резюме

Механизмы поиска позволяют быстро и просто получить доступ к огромным объемам информации. Их вклад в развитие Web и общества в целом трудно переоценить. Однако «универсальная» модель поиска в Web может ограничивать разнообразие, конкуренцию и функциональность. Предотвратить это может более активное использование контекста при поиске в Web.

Об авторе

Стив Лоуренс — сотрудник NEC Research Institute. С ним можно связаться по электронной почте: lawrence@research.nj.nec.com

Литература

[1] E. Adar, D. Karger, and L. Stein. Haystack: Per-user information environments. In Proceedings of the 1999 Conference on Information and Knowledge Management, CIKM, 1999

[2] E. Agichtein and L. Gravano. Snowball: Extracting relations from large plain text collections. In Proceedings of the 5th ACM International Conference on Digital Libraries, 2000

[3] R. Armstrong, D. Freitag, T. Joachims, and T. Mitchell. WebWatcher: A learning apprentice for the World Wide Web. 1995

[4] Marko Balabanovic. An adaptive web page recommendation service. In Proceedings of the First International Conference on Autonomous Agents, pages 378-385. ACM Press, New York, 1997

[5] Albert-Laszlo Barabasi and Reka Albert. Emergence of scaling in random networks. Science, 286:509-512, 1999

[6] Carol L. Barry. The Identification of User Criteria of Relevance and Document Characteristics: Beyond the Topical Approach to Information Retrieval. PhD thesis, Syracuse University, 1993

[7] K. Bharat and M.R. Henzinger. Improved algorithms for topic distillation in a hyperlinked environment. In SIGIR Conference on Research and Development in Information Retrieval, 1998

[8] J. Boyan, D. Freitag, and T. Joachims. A machine learning architecture for optimizing web search engines. In Proceedings of the AAAI Workshop on Internet-Based Information Systems, 1996

[9] S. Brin. Extracting patterns and relations from the World Wide Web. In WebDB Workshop at EDBT 98, 1998.

[10] S. Brin and L. Page. The anatomy of a large-scale hypertextual web search engine. In Seventh International World Wide Web Conference, Brisbane, Australia, 1998

[11] J. Budzik and K.J. Hammond. User interactions with everyday applications as context for just-in-time information access. In Proceedings of the 2000 International Conference on Intelligent User Interfaces, New Orleans, Louisiana, 2000. ACM Press

[12] J. Budzik, K.J. Hammond, C. Marlow, and A. Scheinkman. Anticipating information needs: Everyday applications as interfaces to Internet information servers. In Proceedings of the 1998 World Conference of the WWW, Internet and Intranet, Orlando, Florida, 1998. AACE Press

[13] Jay Budzik, Kristian J. Hammond, Larry Birnbaum, and Marko Krema. Beyond similarity. In Proceedings of the 2000 Workshop on Artificial Intelligence and Web Search. AAAI Press, 2000

[14] O. Buyukkokten, J. Cho, H. Garcya-Molina, L. Gravano, and N. Shivakumar. Exploiting geographical location information of web pages. In Proc. of the ACM SIGMOD Workshop on the Web and Databases, WebDB, 1999

[15] S. Chakrabarti, B. Dom, D. Gibson, J. Kleinberg, P. Raghavan, and S. Rajagopalan. Automatic resource list compilation by analyzing hyperlink structure and associated text. In Proceedings of the 7th International World Wide Web Conference, 1998

[16] Soumen Chakrabarti, Martin van den Berg, and Byron Dom. Focused crawling: A new approach to topic-specific web resource discovery. In 8th World Wide Web Conference, Toronto, May 1999

[17] Junghoo Cho, Hector Garcya-Molina, and Lawrence Page. Efficient crawling through URL ordering. In Proceedings of the Seventh World-Wide Web Conference, 1998

[18] Frans Coetzee, Eric Glover, Steve Lawrence, and C. Lee Giles. Feature selection in web applications using ROC inflections. In Symposium on Applications and the Internet, SAINT, San Diego, CA, January 8-12 2001

[19] N. Craswell, P. Bailey, and D. Hawking. Server selection on the World Wide Web. In Proceedings of the Fifth ACM Conference on Digital Libraries, pages 37-46, 2000

[20] M. Craven, D. DiPasquo, D. Freitag, A. McCallum, T. Mitchell, K. Nigam, and S. Slattery. Learning to extract symbolic knowledge from the World Wide Web. In Proceedings of Fifteenth National Conference on Artificial Intelligence, AAAI 98, pages 509-516, 1998

[21] B. D. Davison, A. Gerasoulis, K. Kleisouris, Y. Lu, H. Seo, W. Wang, and B. Wu. DiscoWeb: Applying link analysis to web search. In Proceedings of the Eighth International World Wide Web Conference, page 148, Toronto, Canada, 1999

[22] Michelangelo Diligenti, Frans Coetzee, Steve Lawrence, C. Lee Giles, and Marco Gori. Focused crawling using context graphs. In 26th International Conference on Very Large Databases, VLDB 2000, Cairo, Egypt, 10-14 September 2000

[23] Junyan Ding, Luis Gravano, and Narayanan Shivakumar. Computing geographical scopes of web resources. In 26th International Conference on Very Large Databases, VLDB 2000, Cairo, Egypt, September 10-14 2000

[24] D. Dreilinger and A. Howe. Experiences with selecting search engines using meta-search. ACM Transactions on Information Systems, 15(3):195-222, 1997

[25] Gary Flake, Steve Lawrence, and C. Lee Giles. Efficient identification of web communities. In Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 150-160, Boston, MA, August 20-23, 2000

[26] Susan Gauch, Guihun Wang, and Mario Gomez. ProFusion: Intelligent fusion from multiple, distributed search engines. Journal of Universal Computer Science, 2(9), 1996

[27] D. Gibson, J. Kleinberg, and P. Raghavan. Inferring web communities from link topology. In Proceedings of the 9th ACM Conference on Hypertext and Hypermedia, 1998

[28] Eric Glover, Gary Flake, Steve Lawrence, William P. Birmingham, Andries Kruger, C. Lee Giles, and David Pennock. Improving category specific web search by learning query modifications. In Symposium on Applications and the Internet, SAINT, San Diego, CA, January 8-12 2001

[29] Eric Glover, Steve Lawrence, William Birmingham, and C. Lee Giles. Architecture of a metasearch engine that supports user information needs. In Eighth International Conference on Information and Knowledge Management, CIKM 99, pages 210-216, Kansas City, Missouri, November 1999

[30] Eric J. Glover, Steve Lawrence, Michael D. Gordon, William P. Birmingham, and C. Lee Giles. Web search - your way. Communications of the ACM, 2000

[31] Graphic, Visualization, and Usability Center. GVU?s tenth WWW user survey (conducted October 1998), 1998

[32] L. Gravano, C. Chang, H. Garcya-Molina, and A. Paepcke. STARTS: Stanford proposal for Internet meta-searching. In Proc. of the 1997 ACM SIGMOD International Conference on Management of Data, pages 207-218, 1997

[33] L. Gravano, H. Garcya-Molina, and A. Tomasic. GlOSS: Text-source discovery over the Internet. ACM Transactions on Database Systems, 24(2), 1999

[34] Luis Gravano and Hector Garcya-Molina. Generalizing GlOSS to vector-space databases and broker hierarchies. In International Conference on Very Large Databases, VLDB, pages 78-89, 1995

[35] B.A. Huberman, P.L.T. Pirolli, J.E. Pitkow, and R.M. Lukose. Strong regularities in World Wide Web surfing. Science, 280:95-97, 1998

[36] J. Kleinberg. Authoritative sources in a hyperlinked environment. InProceedings ACM-SIAM Symposium on Discrete Algorithms, pages 668-677, San Francisco, California, 25-27 January 1998

[37] Andries Kruger, C. Lee Giles, Frans Coetzee, Eric Glover, Gary Flake, Steve Lawrence, and Cristian Omlin. DEAD-LINER: Building a new niche search engine. In Ninth International Conference on Information and Knowledge Management, CIKM 2000, Washington, DC, November 6-11 2000

[38] N. Kushmerick. Wrapper induction: Efficiency and expressiveness. In AAAI-98 Workshop on AI and Information Integration, 1998

[39] N. Kushmerick, D. Weld, and R. Doorenbos. Wrapper induction for information extraction. In IJCAI 97, pages 729-735, Nagoya, Japan, 1997

[40] Steve Lawrence, Kurt Bollacker, and C. Lee Giles. Indexing and retrieval of scientific literature. In Eighth International Conference on Information and Knowledge Management, CIKM 99, pages 139-146, Kansas City, Missouri, November 1999

[41] Steve Lawrence and C. Lee Giles. Context and page analysis for improved web search. IEEE Internet Computing, 2(4):38-46, 1998

[42] Steve Lawrence and C. Lee Giles. Searching the World Wide Web. Science, 280(5360):98-100, 1998

[43] Steve Lawrence and C. Lee Giles. Accessibility of information on the web. Nature, 400(6740):107-109, 1999

[44] Steve Lawrence and C. Lee Giles. Searching the web: General and scientific information access. IEEE Communications, 37(1):116-122, 1999

[45] Steve Lawrence, C. Lee Giles, and Kurt Bollacker. Digital libraries and autonomous citation indexing. IEEE Computer, 32(6):67-71, 1999

[46] D. Leake, R. Scherle, J. Budzik, and K. Hammond. Selecting task-relevant sources for just-in-time retrieval. In Proceedings of the AAAI-99 Workshop on Intelligent Information Systems, Menlo Park, CA, 1999. AAAI Press

[47] H. Lieberman. Letizia: An agent that assists web browsing. In 1995 International Joint Conference on Artificial Intelligence, Montreal, CA, 1995

[48] Media Metrix. Media Metrix announces top 25 digital media/web properties and sites for January 1999, 1999

[49] W. Meng, K. Liu, C. Yu, W. Wu, and N. Rishe. Estimating the usefulness of search engines. In 15th International Conference on Data Engineering, ICDE, Sydney, Australia, 1999

[50] Stefano Mizzaro. Relevance: The whole history. Journal of the American Society for Information Science, 48(9):810-832, 1997

[51] M. Pazzani, J. Muramatsu, and D. Billsus. Syskill & Webert: Identifying interesting web sites. In Proceedings of the National Conference on Artificial Intelligence, AAAI, 1996

[52] Ivan Png. The competitiveness of on-line vis-a-vis conventional retailing: Apreliminary study. In 11th NEC Research Symposium, Stanford, CA, 2000

[53] J. Rennie and A. McCallum. Using reinforcement learning to spider the web efficiently. In Proceedings of the Sixteenth International Conference on Machine Learning (ICML-99), 1999

[54] Bradley Rhodes. Just-in-Time Information Retrieval. PhD thesis, Massuchesetts Institute of Technology, 2000

[55] Bradley J. Rhodes. Margin Notes: Building a contextually aware associative memory. In Proceedings of the International Conference on Intelligent User Interfaces, IUI 00, 2000

[56] Bradley J. Rhodes and Thad Starner. Remembrance Agent: A continuously running automated information retrieval system. In Proceedings of the First International Conference on the Practical Application of Intelligent Agents and Multi Agent Technology, pages 487-495, 1996

[57] G. Salton. Automatic text processing: the transformation, analysis and retrieval of information by computer. Addison-Wesley, 1989

[58] Kristie Seymore, Andrew McCallum, and Roni Rosenfeld. Learning hidden Markov model structure for information extraction. In AAAI 99 Workshop on Machine Learning for Information Extraction, 1999

[59] S. Soderland. Learning information extraction rules for semi-structured and free text. Machine Learning, 34(1):233-272, 1999

[60] D. Sullivan. Can you find your candidate? Search Engine Watch, February 29 2000

[61] J. Xu and J. Callan. Effective retrieval with distributed collections. In Proceedings of the 21st International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 112-120, 1998

[62] J. Zobel. Collection selection via lexicon inspection. In Proceedings of the 1997 Australian Document Computing Symposium, pages 74-80, Melbourne, Australia, 1997