Picture
Евгений Киреев: "В нашей базе данных нет дубликатов"
Желая закрепиться на российских просторах Internet, Intel вкладывает значительные суммы в развитие русскоязычной части Сети. Так, компания оказывает финансовую помощь двум проектам, связанным с систематизацией содержимого Сети и поиском в ней нужной информации на русском языке - "Апорт!" и "Ау!". Рассказу о них и о других инициативах корпорации, касающихся российской части Сети, была посвящена пресс-конференция, состоявшаяся 11 ноября.

По словам Internet-координатора московского представительства Intel Антона Никитина, в этой области корпорация сосредоточила внимание на трех основных инициативах. Первая - создание и сопровождение первого и единственного за пределами США сервера Intel (http://www.intel.ru) с размещенными на нем национальными страницами (серверы других национальных представительств расположены на территории США). Это решение обусловлено, во-первых, довольно низким качеством связи российской части Сети с Американским континентом и, во-вторых, широким распространением продукции Intel и перспективами, открывающимися перед корпорацией в России. Этот сервер достаточно популярен: регистрируется в среднем около тысячи посещений в день. Сегодня он содержит свыше 800 Мбайт информации.

Второй крупный проект Intel - "Апорт!", реализуется совместно с компаниями "Агама" и NetScate. Его цель - создание и совершенствование общедоступной системы для поиска информации в русскоязычной части Web. Поисковая система разработана "Агамой", а NetScate занимается маркетингом и дизайном Web-узла (http://www.aport.ru). Система функционирует на базе двух двухпроцессорных машин, оснащенных процессорами Pentium Pro/200 МГц, с оперативной памятью объемом по 256 Мбайт, работающих под Windows NT. Она позволяет вести поиск с учетом морфологических особенностей русского языка и способна обслуживать одновременно несколько десятков пользователей. Как пояснил генеральный директор "Агамы" Евгений Киреев, один из этих серверов используется для сбора и анализа содержимого Web, второй - для обеспечения поиска информации, хранимой на русскоязычных страницах Сети. Бюджет проекта на текущий год составляет около 100 тыс. долл.

В базе данных системы "Апорт!" содержится примерно 5 млн. документов (дубли, возникающие из-за различия кодировок, при этом исключаются), хранящихся на 10 тыс. "живых" (то есть реально функционирующих) серверах. Чтобы поддерживать базу данных в актуальном состоянии, система каждый день анализирует 10-20 тыс. документов со скоростью около 10 Мбайт/мин. Алгоритм обхода, которому следует система, довольно сложен - какие-то страницы просматриваются чаще, какие-то реже. Этот сервер тоже популярен: его среднесуточная нагрузка два запроса в минуту.

Третье начинание - поддержка проекта "Ау!", осуществляемого совместно с РОЦИТ и компанией "Ви-6" (http://www.rocit.org/au). "Ау!" - это каталог-рубрикатор русскоязычных ресурсов Internet (в данном случае под ресурсом понимается не имя домена, а совокупность страниц, размещенных на одном сервере и относящихся к одной тематике). Каталог имеет структуру дерева, узлами которого являются различные темы, а листьями - ссылки на внешние ресурсы и аннотации содержимого этих ресурсов. Имеется возможность поиска по каталогу нужных тем, кстати реализованная на основе той же технологии компании "Агама", что и в "Апорт!". Активное участие в просмотре ресурсов и составлении аннотаций оказывает группа сотрудников Центрального экономико-математического института (ЦЭМИ) РАН под руководством Юрия Поляка. На счету этих людей - около 8 тыс. аннотаций к ресурсам. Размещается рубрикатор на двух однопроцессорных серверах с процессорами Pentium Pro. Один из них используется как Web-сервер, другой - как сервер СУБД. Бюджет этого проекта на текущий год составляет 52 тыс. долл.

По словам Андрея Зотова, председателя правления РОЦИТ, каталог-рубрикатор пользуется большим спросом среди начинающих пользователей Internet, не имеющих достаточных навыков работы с поисковыми системами. Кстати, наиболее популярны среди посетителей этого Web-узла серверы, содержащие эротику, анекдоты и Web-"беседки" - Chat-узлы. Похоже, значительная часть аудитории "Ау!" - это студенты: в ноябре резко возрос спрос на страницы, содержимое которых составляют студенческие рефераты по различным темам.