«Открытые системы»

Как можно было жить без эффективных средств поиска в WWW? Сегодня представить это попросту невозможно, а ведь первые настоящие поисковые машины появились всего десять лет назад

Предшественницей современных поисковых машин можно считать программу Wanderer, представленную в июне 1993 года в курсовой работе студента Массачусетского технологического института Мэттью Грея. Это был «Web-бродяга» (или «бродилка» — crawler), написанный на языке Perl. Целью Грея было измерение размеров виртуального пространства, но вскоре, в том же самом году, на основе его разработки была создана первая настоящая поисковая машина Wandex. Почти одновременно с ней начала работать машина Aliweb (Archie Like Indexing for the Web), которую создал Мартин Костер из Великобритании. Костер — автор первого фундаментального обзора (www.greenhills.co.uk/mak/mak.html), в котором поисковые машины были названы роботами.

В 1996 году Сергей Лысаков и Дмитрий Крюков из компании «Стек» решили создать русскоязычную программу-поисковик, хотя в то время в российском сегменте Сети не насчитывалось и сотни сайтов

По Костеру, поисковый робот с помощью «бродилки» и «паука» самостоятельно просматривает страницы World Wide Web. Содержимое каждой из найденных страниц анализируется и индексируется, то есть выделяются ключевые слова и заголовки, накапливаются метаданные, они помещаются в базы, используемые при обработке запросов. Типы и объемы хранимых данных могут различаться (например, Google сохраняет части или целиком страницы, а Altavista — каждое слово каждой страницы), но в основном эти подходы к созданию поисковых машин остаются практически неизменными. Однако при этом, если любая машина с успехом просматривает всю Сеть, а следовательно, и количество найденных ссылок в разных машинах разнится не намного, тогда в чем различие между ними? Оказывается, дело не в количестве, важнее иное. Критически важно то, насколько ответ на запрос соответствует пользовательским ожиданиям, насколько достоверны предоставленные поисковой машиной ссылки; собственно, этим и отличается хорошая машина от плохой. Для этого приходится решать проблему потерянных страниц и следовать правилу, заимствованному у создателей FreeBSD и называемому «принципом наименьшего удивления». К примеру, у тех, кто регулярно пользуется Google, через какое-то время возникает просто мистическое ощущение того, что машина знает предпочтения пользователя и очень точно адресует его в нужное место. Причина успеха Google — в ранжировании страниц; для этого используются не только известные методы Link Popularity и PageRank, но и еще более полутора сотен критериев. Google — это не просто великолепный механизм, но весьма интеллектуальный робот. Теоретическими предпосылками для авторов Google были работы профессора Пенсильванского университета Евгения Гарфилда и Джона Клейнберга, возглавлявшего проект CLEVER в исследовательском центре IBM Almaden Research Center.

Наиболее значительной датой в истории поисковых машин следует считать 1995 год, он стал годом появления на свет созвездия, состоявшего из Yahoo!, Altavista, Excite и Lycos.

Lycos несколько опередил остальных. Если быть точным, то в июне 1995 года была зарегистрирована компания Lycos Web Search Engine, а исследовательский проект, выполненный под руководством Майкла Модлина из Университета Карнеги — Меллона и приведший к появлению этой компании, был завершен почти на год раньше. Об избранном названии следует сказать особо. Lycos — это сокращение от Lycosidae. Так биологи именуют семейство пауков-«волков», для которых характерен бродячий образ жизни; в частности, к этому семейству принадлежат хорошо известные тарантулы. В августе 1994 года Модлин уведомил компьютерную общественность о новинке следующим письмом: «Центр переводов Университета Карнеги — Меллона сообщает о доступности поисковой машины Lycos по адресу http://fuzine.mt.cs.cmu.edu/mlm/lycos-home.html. Lycos обеспечивает поиск в 390 тыс. документах. На каждый запрос выдается 50 ссылок, соответствующих ключевому слову. Обновления выполняются еженедельно».

Уже в январе 1995 года количество проиндексированных документов возросло до 1,5 млн., а к концу 1996-го — до 60 млн. Поисковик Lycos, ставший к тому моменту самым мощным хранителем данных о World Wide Web, успешно развивался до 1998 года, предоставляя услуги, редко встречающиеся в современных машинах (например, сообщая процент совпадения результатов с запросом, список ключевых слов, по которым осуществлена выборка, и др.). Однако эпидемическое заболевание, от которого пострадали другие поисковые машины, затронуло и Lycos. Речь идет о паразитной нагрузке главной страницы, не относящейся к поиску как таковому; это всякого рода чаты, игры, реклама. Из-за недовольства новой политикой Майкл Модлин покинул компанию. Lycos пережил целый ряд эволюций, меняя хозяев. В 2004 году он был продан корейской компании Daum Communications почти за 100 млн. долл., были восстановлены данное при рождении имя сайта и соответствующий цели дизайн. Но время оказалось упущенным; Lycos уступил лидирующую позицию Google.

Поисковая машина AltaVista и одноименная компания были созданы в 1995 году учеными из исследовательской лаборатории корпорации Digital Equipment. Основной целью этого шага было желание продемонстрировать возможности нового семейства серверов Alpha. Мощности этих компьютеров и полнотекстовой базы данных хватало на то, чтобы проиндексировать каждое слово и каждую HTML-страницу Сети, а включение в машину ПО BabelFish предоставило возможность перевода на шесть основных европейских языков, включая русский. Вскоре появилась поддержка китайского и японского языков. В течение ряда лет AltaVista оставалась самой мощной поисковой машиной, но, попав в собственность Compaq, перестала выполнять свои основные функции и после нескольких промежуточных хозяев перешла к Yahoo!.

Портал Excite, включающий поисковик, в настоящее время принадлежит сети Ask Jeeves, бизнес которой состоит в предоставлении платных ответов на вопросы, задаваемые на естественном языке. Помимо поиска, Excite предлагает ряд других информационных услуг. Начинался он в 1994 году с учреждения компании Architext I пятью студентами Стэнфордского университета; получив финансирование в сумме 2 тыс. долл., в декабре 1995 года они запустили Excite. Начало бизнеса было чрезвычайно успешным, но бум и последующее разорение «доткомов» в 2000 году оказались непереносимым ударом для Excite; до перехода под патронаж Ask Jeeves существование компании было безрадостным. В последние годы ее развитие направлено на создание локальных версий предоставляемых услуг для целого ряда европейских стран.

Компания Yahoo!, также созданная в Стэнфорде двумя студентами Дэвидом Фило и Дженри Янгом, была зарегистрирована в марте 1995 года, хотя и начала работать почти на год раньше. Почему студенты назвали свою компанию так необычно? Ответы расходятся. Некоторые говорят, что это сокращение от Yet Another Hierarchical Officious Oracle. Сами Фило и Янг утверждают, что на них повлиял образ yahoo из «Приключений Гулливера». Есть также мнение, что на них повлияло название популярной Unix-утилиты yacc (yet another compiler compiler).

Сегодня Yahoo!, самый посещаемый сайт в Сети, не столько поисковая машина, сколько своего рода виртуальный культурно-информационный центр, особенно популярный в Кремниевой Долине. Если вы хотите куда-то поехать, то, как это принято там, нужно распечатать карту. Даже если расстояние всего несколько километров, для этого, как правило, обращаются на Yahoo. Можно представить количество только таких обращений. Есть еще множество других сервисов, но все же, если вам нужно произвести поиск, то, скорее всего, вы обратитесь на Google, так как поисковая машина Yahoo ему заметно уступает.

Отрадно, что по части создания собственных поисковиков Россия отстала на самую малость. История «Рамблера» и «Яндекса» лишь на год-полтора короче, чем у описанных выше грандов Сети. С 1991 года в подмосковном академическом городке Пущино начались работы по подключению ко Всемирной сети, а в 1996 году Сергей Лысаков и Дмитрий Крюков из компании «Стек» решили создать русскоязычную программу-поисковик. Решение могло показаться по меньшей мере странным: тогда в российском сегменте Сети не насчитывалось и сотни сайтов. Выбранное название — Rambler («скиталец, странник, бродяга») — вполне соответствовало идее странствования по Сети. Осенью 1996 года был готов окончательный вариант поисковика, 26 сентября был зарегистрирован домен rambler.ru, а 8 октября «Стек» активизировала систему.

История «Яндекса» восходит к 1990 году, когда в компании «Аркадия», возглавляемой Аркадием Борковским и Аркадием Воложем, начались разработки поискового ПО. На протяжении ряда лет компания занималась работами, связанными с текстами на русском языке и словарями. Официально поисковая машина yandex.ru была анонсирована 23 сентября 1997 года на выставке SofТool. «Яндекс» обладал многими важными достоинствами, и прежде всего учетом морфологии русского языка. Позже, как в Ask Jeeves, появилась возможность для запросов на естественном языке, «найти похожий документ» и многие другие интересные функции.

Сегодня возможности «Яндекса» и «Рамблера» известны каждому, повествовать о них нет смысла. Без них существование отечественных пользователей Сети немыслимо, и все же они часто оказываются в положении персонажа из гоголевской «Женитьбы»: вот если бы качество поиска взять от Google и совместить его с русским языком, вот тогда…

Поделитесь материалом с коллегами и друзьями