Второй «поисковик» от Stack Technologies
Как сообщается, «Черепаха» уже нашла более 80 млн. документов, что больше, чем собрал «Яндекс»

Компания Stack Technologies, разработчик Rambler — первой отечественной системы поиска в Internet, снова вышла на рынок поисковиков. 27 июня она совместно с провайдером RTcomm.ru объявила о запуске своей новой поисковой машины «Черепаха» (Turtle.ru). Новое детище Stack имеет распределенную архитектуру, что позволяет предоставлять ее в аренду сайтам и сетям intranet. «Черепаха» разместилась в центре обработки данных RTcomm.ru, которая будет использовать ее в своих коммерческих проектах. Сама компания Stack собирается предлагать коммерческие продукты на основе своей поисковой машины, а также получать деньги от новой рекламной площадки.

Технологически «Черепаха» имеет принципиально новую архитектуру. Она разделена на несколько независимых модулей, которые взаимодействуют друг с другом по специальным протоколам. Есть модуль поисковых роботов, которые анализируют содержание документов в Internet, есть координатор, распределяющий запросы между роботами, есть модуль индексации, который занимается подготовкой ответов, и т.д. Такая архитектура позволяет распараллелить работу по индексации и добиться тем самым высокой производительности поиска и масштабируемости системы в целом.

Процесс создания нового поисковика был инициирован в феврале прошлого года, а уже в марте 2002 года машина была подключена к Internet для первоначального накопления базы документов. Как сообщается, «Черепаха» уже нашла более 80 млн. документов, что больше, чем собрал «Яндекс» (правда, «Черепаха» не уничтожает дубли документов, как это делает конкурент). Объем проиндексированных текстов составляет около 1,8 Тбайт. Над индексацией этого объема трудилось всего 12 не слишком дорогих компьютеров, а на выдачу результатов пока работает лишь четыре машины. Всего же «Черепаха» располагается на 20 серверах, но в случае необходимости их количество можно значительно увеличить.

Поделитесь материалом с коллегами и друзьями