«Открытые системы»

Пока не будут созданы более эффективные средства для доступа к ресурсам WWW, а это могут быть онлайновые энциклопедии, Semantic Web или что-то иное, поисковые машины останутся единственным способом навигации в Сети

Работа компании «Стек» привела к созданию собственной поисковой машины, которую назвали Rambler. 8 октября 1996 года в «Стеке» активизировали системуИсторию поисковых машин, без которых сегодня немыслимо существование в пространстве WWW, можно разделить на несколько периодов — на древнюю историю, когда Internet не было, на новую, когда она была, но не было паутины WWW, и новейшую историю, в которой представлены современные технологии поиска.

Из исследователей, работавших в данной области в 30-50-е годы, наиболее заметный след оставили двое. Ванневар Буш, человек столь разносторонний, что его труды невозможно охарактеризовать несколькими словами, и удивительный бельгийский ученый-библиограф и утопист Пол Отле. По совпадению оба они воплотили свои представления об информационно-поисковых системах в форме гипотетических машин. Буш в качестве модели для размышлений использовал легендарную машину memex, которую еще рассматривают как прообраз персонального компьютера. Отле мечтал построить гигантскую машину Mundaneum, способную хранить огромные объемы знаний на бумажных библиографических карточках. Разумеется, эти машины нельзя было воплотить «в металле», они так и остались моделями.

Следующий этап обычно отождествляют с именами Теда Нельсона и Тима Бернерса-Ли. Безусловно, вклад двух этих ученых неоценим, однако с точки зрения собственно информационного поиска наиболее интересные теоретические предпосылки для работы в пространстве WWW можно найти в трудах профессора Корнеллского университета Джерарда Солтона. Урожденный Герхард Антон Шальман, сын эмигрантов из Германии, он в 1958 году стал последним аспирантом Говарда Айкена — еще один пример преемственности в компьютерной истории. Под руководством Солтона была разработана первая компьютерная информационно-поисковая система SMART, в которой впервые применялась плоская векторная модель, поныне широко используемая в поисковых машинах наряду с алгоритмами релевантной обратной связи.

Надо заметить, что до того, как в начале 80-х годов у науки, предметом которой является информация, не отобрали собственное название «информатика», в СССР — и прежде всего во Всесоюзном институте научно-технической информации (ВИНИТИ) — была создана собственная школа информационного поиска. Кстати, тогда Большая советская энциклопедия определяла информатику как «дисциплину, изучающую структуру и общие свойства научной информации, а также закономерности ее создания, преобразования, передачи и использования в различных сферах человеческой деятельности».

В современном смысле этого слова поисковые машины появились в Internet еще до создания WWW. Изначально они предназначались для работы с протоколами сети предыдущего поколения, FTP и Gopher. Первопроходцем был Алан Эмтадж из команды специалистов, обеспечивавшей первые шаги Internet в Канаде. В 1989 году, еще в свою бытность студентом, он совмещал учебу с работой администратора университетской сети. Для нее он написал программу Archie, впоследствии признанную первой поисковой машиной. Позже, в 1992 году, вместе с друзьями Эмтадж организовал компанию Bunyip Information Systems, названную в честь божества австралийских аборигенов, которая первой стала оказывать поисковые услуги на коммерческих началах; ее поисковый механизм применяли миллионы первых пользователей Глобальной сети. Схожей была и история создания в том же 1992 году поисковых машин Jughead и Veronica, предназначавшихся для обслуживания протокола Gopher; их авторами стали Стив Фостер и Фред Бэрри. Разработчики всех этих программ были совсем юными людьми, поэтому названия перекликаются с именами героев популярного в те годы комикса Archie.

Новейшая история началась в 1993 году, когда сразу в нескольких университетах были выполнены работы, посвященные исследованию WWW. Их авторы поначалу хотели оценить масштабы нового явления, однако от этих разработок до поисковых машин оставался лишь один шаг. Одним из самых примечательных инструментов для исследований стал «Скиталец» (World Wide Web Wanderer), разработанный Мэтью Греем. В 1993 году Грей выполнил студенческую работу в Массачусетском технологическом институте, целью которой была оценка размеров пространства Всемирной паутины. Чтобы решить поставленную задачу, Грей первым выдвинул идею Internet-робота (со временем такие программы стали называть просто bot), ставшего одним из важнейших компонентов поисковых машин. Бродя по Сети, скиталец подсчитывал число встреченных им узлов и фиксировал их идентификатор URL, по полученным сведениям робот строил индекс, названный Wandex. Первый робот был чрезвычайно нескладным; сотни раз обращаясь к одной странице, он своими действиями вызывал деградацию функционирования Сети. Постепенно он был усовершенствован, за ним последовали многочисленные аналоги, и с того времени тема «роботы в Сети» постоянно обсуждается, однако до сих пор нет однозначного мнения, являются ли они благом или нет.

В том же 1993 году Мартин Костер предложил свою, почти настоящую поисковую машину ALIWEB (в полуразобранном состоянии она существует до сих пор; есть сообщения, что она будет переписана заново и запущена в 2007 году, — ее нынешние владельцы мечтают составить конкуренцию Google, MSN и Yahoo). Эта машина сочетала в себе накопление индексов с использованием роботов со сбором данных, которые на добровольных началах присылали администраторы сайтов. Последующие два года оказались самыми урожайными, одна за другой выходили в свет Yahoo!, Lycos Infoseek, MetaCrawler, Inktomi, Excite, AltaVista и другие менее известные. Тот, кто работал в Сети в те годы, помнит, с каким энтузиазмом воспринималось появление каждого поисковика. Сегодня больше половины всей поисковой работы в Сети выполняет Google.

Параллельно с разработкой поисковых машин начались попытки создать каталоги ресурсов. В 1994 году открылся EINet Galaxy. В апреле того же года Дэвид Фило и Джерри Янг создали каталог Yahoo! Directory, трансформировавшийся в одноименную поисковую машину. Было еще несколько успешных проектов; среди них Open Directory Project, автор которого, Рик Скрента, более известен как один из первых вирусописателей..

Высокий уровень лингвистической культуры и программистской квалификации позволил создать в России собственные поисковые машины, которые не уступают западным и в большей степени адаптированы к русскому языку.

Работа компании «Стек» (Пущино) логически привела к созданию собственной поисковой машины, которую назвали Rambler — «скиталец». Осенью 1996 года был готов окончательный вариант, 26 сентября был зарегистрирован домен rambler.ru, а 8 октября в «Стеке» активизировали систему. Ведущая роль в создании Rambler принадлежит Дмитрию Крюкову.

23 сентября 1997 года заработал Yandex, выросший из компаний Comptek и «Аркадия»; вскоре в нем были реализованы запросы на естественном языке. Его главным разработчиком был Илья Сегалович.


 Мэттью Грей
заявил о себе еще в 1993 году в бытность студентом Массачусетского технологического института, написав первый автономный Web-агент Wanderer, который успешно используется для поиска по Web. В том же году вместе с двумя студентами МТИ он создал институтский сайт www.mit.edu, вошедший в первую сотню сайтов Web. В 1994 году Грей прервал учебу и стал основателем компании net.Genesis, созданной с целью разработки инструментов для построения Web-сайтов. В 1996 году он оставил net.Genesis с тем, чтобы завершить обучение. В 1997 году он окончил институт со специальностью физика, а в 1999 году получил степень магистра в подразделении Media Lab. После этого Грей работал в группе Personal Information Architecture Group в составе Media Lab. В 2001 году он основал компанию Newbury Networks, директором по технологиям которой является в настоящее время. Грей также пользуется заслуженным авторитетом в отрасли благодаря тому, что постоянно ведет на своем Web-сайте статистику роста Всемирной сети.. Кроме того, он является членом Apache Group, некоммерческой организации создателей одного из самых популярных Web-серверов Apache.

 Илья Сегалович
в 1986 году окончил геофизический факультет Российского государственного геологоразведочного университета (бывший МГРИ). После окончания института он некоторое время работал программистом в Институте минерального сырья. В 1990 году он вошел в число коллег и единомышленников в малом предприятии «Аркадия», где возглавил группу программного обеспечения. В 1994-95 годах он вместе в группой разработчиков спроектировал и написал ядро поисковой системы Яндекса. Многие из сервисов, которые сегодня востребованы миллионами пользователей Рунета — предмет его личной гордости, ему же принадлежит и название для новой технологии — Яндекс (в интерпретации Ильи это было сокращение от yet another indexer). Затем Сегалович сосредоточился на совершенствовании несловарной морфологии, на основе которой в начале 1996 года был создан алгоритм построения гипотез. При его непосредственной поддержке были созданы Национальный корпус русского языка Российский семинар по оценке методов информационного поиска (РОМИП). Вместе со своей женой Марией Сегалович поддерживает благотворительную студию «Дети Марии» (социальная помощь детям-сиротам и детям-инвалидам).

 Дмитрий Крюков
окончил Московский институт приборостроения, факультет приборостроения и радиоэлектроники по специальности «конструктор-технолог радиоэлектронной аппаратуры» в 1988 году. Еще до поступления в институт в 1981 году он был принят на работу в Институте биохимии и физиологии микроорганизмов РАН, где прошел путь от технолога до ведущего программиста. С 1987-го по 1992 год он трудился в качестве инженера-программиста в вычислительном центре этого института в подмосковном Пущино, а в 1991 году начал совмещать эту работу с деятельностью руководителя ряда Internet-проектов в компании Stack. С 2000-2001 годах занимал должность вице-президента ОАО «Рамблер Интернет Холдинг» и входил в состав совета директоров этой компании. В 2001 году он стал генеральным директором ООО «Стек Технологии» и работает в этой должности в настоящее время. В 1998 году Крюков получил звание академика Всероссийской Интернет-академии. Крюков является признанным специалистом в области построения полнотекстовых поисковых систем и одним из российских основоположников российских систем поиска в Internet.

Поделитесь материалом с коллегами и друзьями