Группа компаний «Стек» объявила о создании нового поискового сервиса «Черепаха» (www.turtle.ru).

По словам руководителя проекта Дмитрия Крюкова, выбор столь неординарного названия объясняется тем, с какой неторопливостью осуществлялась разработка ресурса. В феврале 2001 года, когда авторы проекта только приступили к созданию «Черепахи», работа стимулировалась исключительно инженерным интересом программистов «Стек Технологии» (подразделения «Стек Груп»). Затем последовали полгода изысканий и проектирования различных элементов архитектуры. Как сообщил генеральный директор холдинга «Стек» Сергей Лысаков, уверенность в запуске Turtle появилась лишь в сентябре 2001 года — после заключения партнерского соглашения с Internet-оператором «РТКомм.ру», предоставившим группе «Стек» магистральные каналы связи.

На сегодняшний день Turtle располагает самой полной базой данных по русскоязычному Internet, уверяют ее создатели. В «коллекции» проекта — свыше 81 млн документов (1,8 ТБайт информации) и ссылки на 1,1 млн уникальных серверов. Машина может находить адреса электронной почты и имена Web-сайтов. Впервые внедрен поиск по большому фрагменту текста, обеспечивающий разыскивание адреса первоисточника и похожих документов. Система использует синтаксис 24 языков (в том числе нескольких африканских) и кроме текстовых поддерживает большинство известных форматов (офисный пакет Microsoft, RTF, PDF, PostScript и другие).

Пока в системе задействованы 12 сканирующих машин. Их производительность составляет 5 млн документов в день, поэтому авторы ресурса обещают киберпутешественникам, что они найдут минимальное количество недействующих ссылок в результатах поиска. «Черепаха» индексирует и динамические страницы, но с некоторыми ограничениями. В первую очередь игнорируются документы, которые генерируют множество ссылок, и фрагменты URL, идентифицирующие сессию.

Обработка запроса занимает в среднем 1,5 с. Для удобства пользователя затраченное время отображается на поисковой странице. «Мы постараемся сократить продолжительность обработки запроса до 0,5 с», — заявил руководитель проекта.

Что касается релевантности поиска, то, по словам Крюкова, есть очень много факторов, определяющих этот показатель. Разработанные алгоритмы являются интеллектуальной собственностью компании, и особенности их построения не разглашаются. В конечном итоге об эффективности сервиса будут судить пользователи. Однако результаты небольшого теста, проведенного во время презентации «Черепахи», озадачивают. На тривиальный запрос «Иванов» Turtle указала в первой десятке ссылок телефонный справочник города Бронницы. В нем наверняка проживает не один десяток Ивановых, но почему это оказались именно Бронницы?

Ключевыми особенностями новой поисковой системы являются распределенная архитектура и, как следствие, неограниченная масштабируемость. Возможность размещения клонов turtle.ru на региональных и корпоративных серверах, объединенных общими информационными шинами, позволяет легко наращивать мощность поискового сервиса. При этом задействуется минимальное количество аппаратных ресурсов. Кроме того, система сохраняет работоспособность в случае сбоев отдельных элементов.

В то же время применение принципа распределенности ресурсов обеспечивает формирование отраслевых коллекций и локальных баз корпоративного пользователя с ограниченным доступом. Последнее обстоятельство сулит проекту неплохие коммерческие перспективы. По словам Лысакова, залогом его рентабельности станут продажи продуктов, основанных на программных алгоритмах «Черепахи». Разработчики системы рассчитывают на дивиденды от сотрудничества с региональными Internet-провайдерами и фирмами, в которых востребованы услуги поиска по заданным параметрам. Часть средств поступит от рекламных сборов и реализации дополнительных поисковых сервисов, которые пока отсутствуют на сайте turtle.ru.

«Не исключено, что продукты на базе Turtle будут реализованы в тематических проектах ФЦП ?Электронная Россия?», — заявил Лысаков. Он добавил, что первую распределенную систему Turtle намечено построить на базе коллекций документов МГУ, причем эта работа будет выполняться на некоммерческой основе. Программные компоненты Turtle успешно используются в ряде продуктов «Стек Груп» — в портале «Научная сеть», универсальной биллинговой системе ONYMA и информационной системе туристического бизнеса Tour Network.

Поделитесь материалом с коллегами и друзьями