Интернет-летописцы. Сервисы кэширования веб-ресурсов

Однако иногда возникает необходимость выскочить из круговорота обновлений, "остановить мгновенье" и восстановить определенный момент в истории того или иного веб-ресурса, будь то поиск подтверждающей ссылки в отвлеченном споре на каком-нибудь форуме либо точная ссылка на источник в научной статье или другой серьезной работе. Цифровые технологии позволяют построить такую "машину времени" для сайтов – это сервисы, занимающиеся кэшированием веб-страниц. Они дают возможность увидеть копию веб-страницы, сделанную в определенный момент времени, или познакомиться с проектом, прекратившим свое существование. Кроме того, свежая копия веб-страницы выручит в случае, если к оригинальному веб-сайту в данный момент по каким-либо причинам нет доступа.
С точки зрения пользователя, современные кэширующие сервисы подразделяются на две большие группы: веб-кэши универсальных интернет-поисковиков и специализированные сервисы.
Как известно, интернет-поисковики скачивают веб-страницы для последующего индексирования. Это своеобразное «информационное сырье», продукт переработки которого – индексная база. Таким образом, кэш есть у всех поисковиков, различаются только условия доступа к нему пользователей и удобство применения. В данной статье будут рассмотрены нюансы использования веб-кэша наиболее популярных в наших широтах универсальных поисковых систем: "Яндекс" и Google.
Обратиться к кэшу Google можно прямо на странице результатов поиска посредством ссылки «Сохраненная копия». Еще один вариант – использование в поле поиска оператора cache: с указанием адреса интересующей веб-страницы. Выдача такого поиска – наиболее свежая копия страницы. При обновлении кэша сохраненная копия будет заменена новой. Причем сохраненная страница может выводиться с упрощенной версткой и без некоторых мультимедийных элементов. Она сопровождается служебным заголовком Google, где сообщается дата сохранения демонстрируемой копии.
Похожим образом организован и доступ к кэшу "Яндекса": рядом с результатами поиска предлагается ссылка «Копия», открывающая сохраненную копию страницы. Служебный заголовок выдаваемой по запросу страницы (как и в Google, здесь демонстрируется только самая свежая копия), кроме даты «снимка», содержит ссылку на текущую версию, а также переключатель подсветки ключевых слов из запроса в тексте демонстрируемой страницы.
Преимущество этого способа – простота. Основной недостаток – отсутствие гибкости. Дело в том, что обращение к кэшу для универсальных поисковиков является все-таки вспомогательной функцией. Она бывает полезна в первую очередь при нарушении доступа к нужному ресурсу либо при наличии других подобных препятствий, а вот для восстановления «истории» какого-либо проекта подходит плохо.
При решении более сложных задач имеет смысл обратиться к специализированным ресурсам. Такие проекты веб-кэширования имеют ряд особенностей. Как правило, они не просто предоставляют доступ к кэшированным страницам, но и предусматривают дополнительные инструменты, оптимизированные для работы с веб-кэшем на практике. Различные акценты в подобных решениях приводят к усилению их индивидуальности: прямая конкуренция нескольких проектов с близкой функциональностью в этой сфере, как правило, случается редко. С точки зрения пользователя, это означает наличие выбора специализированных инструментов, оптимальных для решения собственного круга задач. Необходимо отменить, что в данной сфере присутствуют как бесплатные, так и коммерческие решения. Ниже будут рассмотрены сервисы со свободным доступом, ориентированные на частных пользователей.

Internet Archive Wayback Machine

Цели работы Wayback Machine, как и проекта Internet Archive в целом, – некоммерческие. Миссия ресурса состоит в сохранении веб-сайтов как своеобразных культурных артефактов, характеризующих свою эпоху. Архив собирается с 1996 г., охватывая сайты за последние пятнадцать лет. Конечно, это небольшой промежуток для истории, однако в быстро изменяющемся медиапространстве за такое время накапливается более чем солидный пласт информации.

Проект Wayback Machine -- крупнейший свободно доступный сервис
автоматического кэширования веб-страниц

Характерное отличие большинства специализированных проектов кэширования веб-ресурсов -- избирательность архивирования. Все-таки вряд ли возможно, да и нужно архивировать весь контент Сети. Наполнение баз Wayback Machine происходит выборочно, проект архивирует в основном крупные и популярные ресурсы. Прежде всего обрабатываются ресурсы, входящие в большие веб-каталоги. Используются данные Dmoz, и кроме того, до февраля этого года сервис тесно сотрудничал с Alexa. Есть у Wayback Machine и собственные роботы-«пауки», выявляющие сайты с хорошим индексом цитирования. Ресурс также работает с крупнейшей
Библиотекой Конгресса США и Смитсоновским музеем.
В настоящее время сервис доступен в двух вариантах. На странице «большого» Internet Archive предлагается классическая версия поискового интерфейса, разработанная в свое время в сотрудничестве с Alexa и работающая с 2001 г. Новая экспериментальная версия, являющаяся, в свою очередь, OpenSource проектом, обеспечивает повышенное быстродействие и доработанный пользовательский интерфейс. Поработать с ней можно на отдельном сайте Waybackmachine.org.
«Классический» интерфейс предлагает простой и расширенный режимы поиска. В качестве простого запроса выступает адрес интересующей веб-страницы. Расширенный режим предлагает неплохой выбор дополнительных фильтров. В частности, можно указать точный временной диапазон, в котором будет вестись поиск сохраненных копий страниц. Доступны и другие инструменты, помогающие включать и отключать переадресации на найденных веб-страницах, а также выбирать типы файлов, по которым будет вестись поиск. Система умеет не только выводить страницы по точному URL, но и предлагать близкие значения. Переключатель этой опции также присутствует на странице расширенного поиска. Если появится необходимость, в результатах поиска можно включить показ всех снимков страницы за один день. И тогда по умолчанию, если их было сделано несколько, в выдачу попадет лишь один.
Альтернативный способ составления запроса – использование специально сформированного URL. В простейшем случае достаточно просто указать адрес интересующей веб-страницы после слэша в адресе сервиса, например “web.archive.org/http://osp.ru” для сайта нашего издательства. В таком URL можно использовать дополнительные фильтры. Так, URL “web.archive.org/200501/osp.ru” равнозначен запросу на поиск всех копий сайта osp.ru за май 2005 г.
Ответом системы будет переход на сохраненную веб-страницу. Если за указанную в запросе дату сохранение страницы не производилось, появляется наиболее близкая к этому времени имеющаяся копия. На многих кэшированных сайтах работают ссылки, также открывающие сохраненные копии старых веб-страниц. Другими словами, это действительно сетевая «машина времени».
Новый интерфейс Wayback Machine содержит только форму простого поиска. Запрос, как и в «классической» версии, – URL нужной страницы. Отвечает система значительно быстрее. Заметно изменилась страница выдачи – она представлена в виде календаря. На ленте в верхней его части выводится диаграмма, позволяющая визуально оценить количество сделанных копий интересующей веб-страницы. Цена деления этой диаграммы – один год. После выбора нужного года на странице открывается календарь, где отмечены те дни, в которые система выполняла сохранение запрошенной пользователем веб-страницы. Щелчок на дате открывает архивную копию.

Wayback Machine
Оценка: 4
Язык интерфейса: английский
Разработчик : Internet Archive
Сайт: web.archive.org, waybackmachine.org

WebCite

Следующий участник данного обзора предлагает собственный подход к архивированию веб-страниц. Если Wayback Machine заполняет свой архив в автоматическом режиме, анализируя каталоги и применяя робота-«паука», то сервис WebCite предлагает самим пользователям определять, какая страница нуждается в архивировании, а какая – нет. Все операции по сохранению страниц здесь выполняются исключительно по прямому запросу пользователя.

Сервис WebCite, производящий кэширование по запросу пользователя,
оптимизирован для применения в академической сфере

У такой модели архивирования интернет-контента есть своя область применения. Это в первую очередь создание правильных и гарантированно рабочих ссылок на сетевые источники, которые можно использовать при цитировании. Ссылки на первоисточники в публикациях являются хорошим тоном, а в академической среде и в научных публикациях они абсолютно необходимы. Не исключение – ссылки на интернет-ресурсы. Вот тут-то и возникает необходимость в резервном архивировании веб-страниц. Ведь автору нужно обеспечить доступ именно к той версии веб-страницы, на которую поставлена ссылка, причем даже по прошествии определенного времени и независимо от судьбы исходного сайта. Именно этот аспект архивирования и стал главным для WebCite, что сказалось как на его функциональных возможностях, так и на предлагаемом пользователю интерфейсе. Используется WebCite бесплатно, он поддерживается за счет средств издателей, применяющих сервис, для того чтобы обеспечить доступ к публикациям своих авторов.
Для создания копии веб-страницы в системе WebCite предусмотрено несколько инструментов. Во-первых, можно воспользоваться формой на сайте проекта. Она содержит поля собственно URL и e-mail, предназначенное для сообщений об успешном сохранении или сбое. Кроме того, предлагается ввести дополнительное описание проекта в библиографическом формате Dublin Core, предназначенном для работы с интернет-ресурсами. При заполнении ключевых слов позволительно использовать и онлайновую версию известного тезауруса MeSH, однако он годится лишь для публикаций медицинской тематики.
Второй вариант создания копии гораздо удобнее – это добавляемый в браузер букмарклет(небольшая JavaScript-программа, сохраняемая как браузерная закладка), с помощью которого копию можно создать прямо в ходе серфинга. Букмарклет генерируется системой после указания e-mail, который будет затем использоваться для отправки служебных сообщений. Поля в форме букмарклета совпадают с уже рассмотренной выше формой на сайте проекта.
Третий способ архивирования под названием Comb предназначен для «оптового» архивирования ресурсов. Получив указанную в форме ссылку, система формирует список всех ссылок на данной странице. Затем пользователю предлагается отметить те ресурсы, которые надо заархивировать. Этот режим, в частности, удобен для обработки больших статей, разбитых на несколько страниц. Каждая сохраненная с помощью WebCite веб-страница получает уникальный идентификатор.
Встроенная система поиска весьма проста. С ее помощью можно искать по идентификатору страницы, а также по URL сохраненного материала. Опционально разрешается указать и дату создания копии страницы. Конечно же, возможности и результаты «сплошного» поиска будут уступать Wayback Machine, но ведь и назначение у WebCite иное.

WebCite
Оценка: 4
Язык интерфейса: английский
Разработчик: WebCite
Сайт: www.webcitation.org

Peeep.us

Следующий сервис в палитре решений для кэширования веб-страниц снова демонстрирует оригинальный подход к проблеме. Проект Peeеp.us, как и WebCite, производит архивирование веб-страниц по запросу пользователя, однако сфера его применения далека от академической. Его, скорее, стоит воспринимать как хранилище в течение небольшого промежутка времени для информации, не имеющей критического значения, например, для личной переписки или для быстрого подтверждения своих слов при общении в Сети. Дело в том, что это частный проект, и владелец ресурса оставляет за собой право удалять страницы, к которым не обращались больше месяца. Техническая основа Peeep.us – платформа Google Apps.

Сервис Рееер объединяет функции кэширования веб-страниц и
сокращения длинных URL

Особенность проекта состоит в том, что он позволяет сохранять копии веб-страниц, находящиеся в закрытом доступе, в частности на ресурсах, требующих обязательной регистрации. Чтобы сохранить приватность, при изготовлении копии защищенной страницы на ней удаляются скрипты и другой активный контент. Иначе говоря, данный сервис выступает альтернативой сохранению веб-страницы стандартными средствами браузера с последующей отправкой, например по e-mail. Сервис Peeep в такой ситуации гораздо удобнее, поскольку исключает ряд промежуточных операций и тем самым экономит время пользователей. Кроме того, такую ссылку можно быстро передать большому количеству получателей, поместив ее на блоге или в сообщении форума.
На сервисе предусмотрена регистрация с помощью аккаунтов Google. Она не является обязательной, сохранять страницы можно и без аутентификации. В то же время удалить сохраненную страницу имеют право только зарегистрированные пользователи. Список всех сохраненных страниц после регистрации аккаунта приведен в разделе Your Pages. Там же удаляются ставшие ненужными «снимки».
Кэшировать страницу можно прямо на странице проекта, указав нужный URL в соответствующем поле. Для нее создается собственный короткий URL, поэтому Peeep можно использовать и в качестве инструмента для сокращения длинных ссылок. Альтернативный вариант сохранения веб-страницы – воспользоваться устанавливаемым в браузере букмарклетом. Кстати говоря, кэшировать защищенную страницу можно будет только с его помощью.
После успешного сохранения происходит автоматическое перенаправление на кэшированную страницу. Кроме того, открывается небольшая панелька Peeep, где расположены кнопки быстрой публикации ссылки в Twitter и Facebook.

Peep
Оценка: 3
Язык интерфейса: английский
Разработчик: Cyril Nikolaev
Сайт: www.peeep.us

Полезные программы

Чтобы упростить работу с онлайновыми сервисами кэширования, можно использовать вспомогательные программы. Наиболее удобны, конечно же, дополнения для браузеров. Пользователям Firefox стоит обратить внимание на дополнение Resurrect Pages. Его можно вызвать из контекстного меню открытой в данный момент веб-страницы. В русской версии соответствующий пункт называется «Воскресить эту страницу». В окне дополнения предлагается на выбор восемь крупнейших сервисов кэширования, на которые можно отправить запрос. Среди них есть и кэши универсальных поисковиков (Google, Yahoo!, Gigablast), и рассмотренные выше специализированные проекты: Internet Archive, WebCite и CoralCDN. Если в выбранном пользователем кэше не нашлось копии запрошенной страницы, Resurrect Pages открывает служебную страницу, где можно повторно отправить свой запрос на другой кэширующий сервис.

Дополнение Resurrect Pages
для Firefox позволяет быстро
провести поиск копий страницы
в крупнейших онлайновых кэшах

Не остались без вспомогательных программ и пользователи других браузеров. Для Google Chrome и Chromium предлагается очень похожее расширение под названием Web Cache. Кнопка этого дополнения открывает небольшую панель, где предлагается выбрать сервис для отправки запроса на кэшированную страницу. Всего доступно семь сервисов: Google, Yahoo!, Bing, Gigablast, Wayback Machine, CoralCDN \ и WebCite. Кнопка Open All открывает сразу семь вкладок с результатами из названных источников. Есть и более простые расширения, в частности Cache и View Links in Google Cache, предназначенные исключительно для работы с веб-кэшем поискового гиганта.

Resurrect Pages
Оценка: 4
Язык интерфейса: русский
Разработчик: Anthony Lieuallen
Сайт: addons.mozilla.org/en-us/firefox/addon/resurrect-pages/