теме, поскольку для них основной критерий поиска документа - количество вхождений в него заданных пользователем слов, что далеко не всегда отражает качество информации. По всей видимости, определить ценность документа чисто автоматическими средствами невозможно. Впрочем, Сеть позволяет определить качество информации по косвенным критериям, таким как посещаемость страницы, число ссылок на нее или даже количество положительных отзывов о ней. Подсчет таких параметров вполне можно автоматизировать, однако от методики определения того или иного показателя зависит и получившийся результат.

Как же определить привлекательность Web-страницы? Для этой цели разработана система рейтингов, основная идея которых - предоставить как можно более полную статистическую информацию об использовании определенных документов. Самой простой для вычисления статистической характеристикой оказывается количество обращений к документу.

Следует отметить, что именно на основании этого показателя принято определять ценность данной страницы как рекламоносителя. А поскольку сегодня реклама служит основным источником возврата средств, потраченных на разработку и поддержание сервера, то учет посещений - одна из наиболее востребованных задач рейтингования.

Можно выделить три методики определения популярности документа:

  • учет числа обращений
  • Web-странице;
  • учет числа переходов на страницу;
  • учет числа положительных откликов о странице.

Рассмотрим более подробно достоинства и недостатки каждого из этих способов.

Учет числа обращений

Учет обращений основан на том, что браузер должен при показе страницы загрузить все элементы документа (в частности, иллюстрации) и запустить все программы, указанные на странице. Таким образом, если в загруженном HTML-документе есть специальный тег, ссылающийся на серверную программу, то браузер должен послать на сервер запрос на запуск этой программы. Вместе с запросом будет передана и некоторая информация о пользователе и о странице. В частности, именно так может функционировать серверная программа подсчета числа обращений - она получает запрос, анализирует полученные от браузера данные, модифицирует их и возвращает обратно изображение соответствующего числа. Впрочем, для отображения счетчика могут использоваться и более продвинутые технологии, такие как Java, анимированный GIF и другие. Но способ подсчета посещений, столь простой на первый взгляд, не лишен подводных камней. Один из них - кэширование.

Задача кэширования - уменьшить сетевой трафик за счет хранения наиболее популярных страниц на промежуточных серверах (кэш-серверах). В результате запрашиваемая страница может считываться не с основного сервера, а с промежуточного; в этом случае описанный механизм подсчета не работает, поскольку обращение на основной сервер не происходит. Использование кэш-серверов искажает статистику обращений к популярным страницам. Стараясь избежать этого, их владельцы программируют свои страницы таким образом, чтобы на них всегда стояла пометка об изменении со времени последнего обращения - в этом случае страница считывается не из кэша, а с основного сервера. Правда, при этом механизм кэширования для этого сервера попросту блокируется, что увеличивает нагрузку и на него, и на Сеть в целом.

Кроме персональных счетчиков, расположенных на самих страницах, в последнее время появились централизованные рейтинговые системы, устроенные примерно так же, как и персональные, однако подсчет обращений выполняется не на сервере, где расположена страничка, а на специальном рейтинговом сервере. Это уже качественно новая система, поскольку она позволяет сравнивать число посещений различных страниц и выбирать наиболее популярные. Часто такие серверы позволяют более углубленно анализировать статистику посещений даже тем, кто абсолютно не знаком с HTTP.

Классический пример централизованного счетчика - Rambler, разработанный серпуховской компанией Stack.

Рейтинговый сервер помогает собрать статистические данные по различным типам посещений. Рядовой пользователь не всегда в состоянии самостоятельно написать программу учета не только общего количества посещений, но и таких параметров, как число посещений за день, общее количество возвратов, число возвратов менее/более чем через определенное время, среднее число посещений за определенный период.

Могут быть проанализированы и так называемые подозрительные посещения, то есть сделанные не с той страницы, на которую зарегистрирован счетчик. Показателем этого, как правило, является несовпадение локатора URL, полученного при регистрации, с URL, полученным от браузера при обращении к счетчику. Часто такая ситуация возникает, когда участвующая в рейтинге страница копируется в другое место, например на зеркальный сервер, или при регистрации был неправильно указан URL ресурса.

Следует отметить, что централизованные рейтинговые системы способствуют повышению посещаемости самых популярных страниц, что снижает эффект искажения счетчиков в результате кэширования страниц (кэширование уменьшает показания счетчиков на наиболее популярных страницах, а участие в рейтингах, напротив, - увеличивает).

Централизованные рейтинговые системы наиболее точно отображают действительное положение дел, поскольку обычно удовлетворяют трем требованиям объективности: правила подсчета установлены в них заранее и не меняются во время вычисления рейтинга; правила подсчета посещений едины для всех; рейтинг учитывает "чистые" посещения.

Вообще же для владельцев Web-серверов важнее учитывать посещаемость не отдельной страницы, а всего сервера в целом. Для проведения такого рейтинга можно использовать различные методики оценки популярности, но поскольку правила определения рейтинга устанавливает сам владелец, то он, естественно, выбирает те из них, которые позволяют продемонстрировать максимальный результат. Могут быть задействованы различные параметры: отдельный подсчет посещений каждой из страниц; посещения последовательных страниц одним клиентом; посещения только основной страницы; общее количество компьютеров, с которых запрашивались страницы независимо от давности запросов; постоянные обращения с одного компьютера; многие другие характеристики. В каждом из перечисленных методов результаты будут различными, поэтому для того, чтобы действительно определить популярность сервера, имеет смысл привести оценки, полученные всеми использованными способами. Хотя очень может быть, что страничка, на которой представлена такая статистика, будет наименее посещаемой на сервере.

Учет числа переходов

Другой способ оценки посещаемости страницы - подсчет количества переходов к ней с некоего общего списка (каталога) ресурсов. Подобный рейтинг называют пользовательским. Учет посещений ведет сервер, содержащий каталог, поскольку приведенные в списке ссылки обычно указывают на программу, расположенную на том же сервере, а действительный адрес ресурса дается в качестве параметра. Эта программа регистрирует информацию с браузера, а затем переадресует обращение. Иногда весь поток информации между браузером и обрабатываемыми серверами пропускают через сервер каталога, но при этом возрастают требования к производительности сервера. Правда, аналогичным образом могут поступать хакеры для организации нападения, так что нужно быть внимательным при общении с неизвестными рейтинговыми серверами, построенными по такому принципу.

Список ресурсов с комментариями невозможно составить автоматически, поэтому учет посещаемости по такому методу несет отпечаток личности того, кто составляет этот список и пишет к нему комментарии. Однако такие рейтинги привлекают непосвященных пользователей, которым намного приятнее иметь дело с хорошо структурированной информацией, чем разбираться в тонкостях работы автоматов. Кроме того, комментарии позволяют более взвешенно принимать решения о загрузке той или иной Web-страницы, что особенно актуально для пользователей, подключенных к Internet по медленным каналам. Классический пример такого рейтинга - каталог "Ау", располагающийся на сервере РОЦИТ (http://www.rocit.ru/au). Существуют и комбинированные рейтинги, учитывающие как переходы с каталога, так и полное количество посещений. Примером комбинированного рейтинга может служить "Созвездие Internet" (http://starts.ru).

Подобные рейтинги могут сопровождаться дополнительными сведениями, например, о доступности информации, месте расположения сервера и его зеркал. В этом случае рейтинг становится более содержательным, поскольку основная часть работы по поиску и обработке информации уже сделана сотрудниками сервера, на котором этот рейтинг проводится. Кроме того, рейтинги по переходам, как правило, имеют определенную структуру и больше похожи на каталоги ресурсов с возможностью статистической оценки качества информации.

Однако этот способ определения посещаемости имеет и недостатки. Основной из них - учет только тех обращений к странице, которые были совершены со страниц рейтинга. Но это лишь малая часть посещений, поскольку, если информация, найденная с помощью такого рейтинга, заинтересовала пользователя, он, вероятнее всего, в следующий раз будет обращаться напрямую, минуя страницу рейтинга, а такие посещения не учитываются. Таким образом, достаточно достоверно можно определить только количество первых посещений, но практически невозможно собрать информацию о постоянных посетителях, о частоте посещений и иную статистику. Следует отметить, что оценка по первому посещению скорее характеризует комментарий в рейтинге, чем действительную полезность или привлекательность информации.

Учет числа положительных откликов

Этот тип рейтинга встречается реже других и требует от пользователя ответа на вопрос, понравился ему прочитанный документ или нет. Как правило, читатели отвечают на такие вопросы не слишком охотно. Отзыв, который в данном случае попросту необходим, можно получить либо с помощью электронной почты, либо с помощью того или иного механизма форм. Читатель в окне браузера должен выбрать соответствующий вариант ответа (например, нажать на кнопку), после чего результаты заполнения анкеты передаются на сервер в специальную программу, которая и учитывает их.

Вероятно, владельцам таких серверов следует привлечь нескольких экспертов, которые оценивали бы качество информации в баллах с последующим вычислением индекса полезности и привлекательности ресурса. Однако с помощью такой системы определения посещений действительно можно найти наиболее интересную информацию, хотя и не всегда удается заранее определить, к какой именно области эта информация относится. К сожалению, таких серверов мало. Мне удалось найти всего один такой счетчик - Fletcher. Его адрес http://www.postman.ru/~bras/fletcher/.

"Значит, это кому-нибудь нужно"

Вообще говоря, рейтинги имеют важное значение для развития Web-индустрии, поскольку позволяют оценить тот или иной ресурс. Эта оценка может быть использована для привлечения рекламодателей или определения маркетинговой отдачи от сервера. Собственно, рекламодателей больше интересуют рейтинги, учитывающие количество посещений страницы по обращениям, поскольку этот параметр позволяет оценить, какому количеству потенциальных клиентов будет показана реклама, размещенная на данной странице. Простые же пользователи Internet стремятся с помощью рейтинга найти наиболее интересные ресурсы и информацию, поэтому их больше будут интересовать рейтинги по откликам и переходам. Технологии рейтингования сейчас применяются только для общедоступной сети Internet, но вполне вероятно, что их можно использовать и во внутрикорпоративной системе - например, для оценки деятельности сотрудников или их интересов. Так что, возможно, скоро на рынке появятся и такие продукты.


Fletcher

Основная цель данного рейтинга - познакомить с личными страницами, владельцы которых не имеют возможности нанять профессиональных дизайнеров или оплатить дорогостоящую рекламу, но располагают интересной для многих информацией. Наибольший рейтинг получает Web-страница, собравшая максимальное число положительных откликов. Для того чтобы в список не попали странички заведомо неинтересные, установлено минимальное количество положительных откликов - 15. К сожалению, на момент подготовки статьи на страничке были ссылки только на один ресурс.


Созвездие Internet

Созвездие Internet - каталог русскоязычных ресурсов Internet, разработанный издательством "ИнфоАрт"; ресурсы снабжены кратким описанием на русском языке с указанием кодировок. Кроме того, сервер выполняет рейтингование ресурсов по нескольким категориям рейтингов.

Пользовательский рейтинг - учет обращений к ресурсу со страниц "Созвездия...". От этого рейтинга зависит положение ссылки на ресурс в каталоге.

1000 Stars - учет посещений. Считаются только уникальные посетители в течение определенного периода. Рейтинг обновляется несколько раз в день.

Телекоммуникационный рейтинг показывает скорость доступа к ресурсу с основного сервера "Созвездия...", расположенного в сети "Релком".

Internet All Starts Award - субъективный рейтинг, присуждаемый группой экспертов по следующим критериям: информативность, актуальность, простота использования, дизайн и оригинальность.


Rambler

Проект Top100 of Rambler поддерживается компанией Stack (сами счетчики располагаются на серверах "Демос"). Его авторы преследовали следующие цели:

  • дать возможность владельцам Web-страниц, не обязательно знакомым с премудростями прикладных Internet-протоколов, быстро и точно определять показатели посещаемости и анализировать соответствующую статистику;
  • убедить владельцев крупных серверов в необходимости использовать единообразные счетчики для сравнительной оценки их популярности;
  • предоставить рекламодателям возможность оценить привлекательность различных серверов для принятия решения о размещении рекламы.

Тег HTML, полученный при регистрации в рейтинге Rambler, должен быть размещен на Web-странице и не может быть изменен. Запрещается также переопределять картинку top100.gif, изменять ее высоту или ширину, изменять URL и другие ее параметры.

Эмблема счетчика должна быть видимой; допускается только один счетчик на странице; для каждой новой страницы счетчик необходимо регистрировать отдельно.

При искусственной генерации обращений (например, ручного вызова, соответствующего счетчику URL) счетчик удаляется. Несколько обращений, поступивших от одного клиента в течение 30 секунд, засчитываются как одно. Не регистрируются посещения с User-Agent: ...MSIECrawler, так как их генерируют роботы или поисковые системы.

Страницы, к которым не было обращений в течение недели, из списка удаляются.

В отдельных рейтингах должны регистрироваться страницы, содержащие информацию "для взрослых", а также генерируемые и персональные страницы.

"Персонал" рейтинга проверяет соблюдение этих правил и, обнаружив какие-либо нарушения, может выключить соответствующий счетчик. Если же владелец страницы пытается фальсифицировать результаты работы счетчика, рядом со ссылкой на соответствующую страницу может быть помещен специальный указатель о том, что здесь жульничают.