Когда наступает ночь и люди засыпают, на охоту выходят автономные браузеры...

Автономный браузер (offline browser) - это программа, которая автоматически загружает информацию из Internet и сохраняет ее на локальном диске компьютера для последующего просмотра и анализа. Иначе говоря, вы определяете для такой программы некоторое множество адресов Web-страниц, она самостоятельно связывается с Internet и копирует их, а вы затем работаете не с самими нужными вам страницами, а с их локальными копиями.

Зачем это нужно? Можно назвать три основные причины. Во-первых, сокращается время изучения страниц: ведь чтобы начать читать страницу, надо дождаться, пока она загрузится, и при недостаточно быстром и качественном Internet-соединении ждать загрузки часто приходится подолгу. Копии же страниц, хранящиеся на локальном диске, появляются на экране практически мгновенно.

Во-вторых, в случае повременной (почасовой) оплаты доступа вы экономите деньги, поскольку срок пребывания в Internet тоже сокращается: копирование документа обычно занимает меньше времени, чем просмотр, пусть даже беглый. Кроме того, автономный браузер можно запускать глубокой ночью, когда расценки у большинства провайдеров ниже, а скорость передачи, как правило, выше.

В-третьих, с автономным браузером вы менее зависимы от капризов Сети. Локальная копия узла выручит вас в случае временного отсутствия доступа к провайдеру или к тому серверу, который вам нужен. Кроме того, Internet постоянно меняется, и если завтра интересующего вас документа не окажется на сервере или даже сам сервер перестанет существовать, предусмотрительно сохраненная копия окажется просто бесценной.

Поэтому не приходится удивляться популярности автономных браузеров: в настоящее время их насчитывается несколько десятков. Когда наша фирма приняла решение приобрести автономный браузер, то, чтобы сделать обоснованный выбор, нам пришлось изучить около пятидесяти различных пакетов. В этой статье рассказывается о девятнадцати наиболее интересных автономных браузерах для Windows.

Иметь или быть

В составе любого автономного браузера есть модуль-робот, выполняющий собственно автоматическую загрузку информации из Web (по-английски он называется spider - "паук2), и пользовательский интерфейс, обеспечивающий управление работой "паука" и доступ к полученной информации. Именно в интерфейсе разработчикам предоставляется возможность проявить фантазию и выразить свое видение того, что нужно пользователю. И решения здесь могут быть очень разными. Прокомментируем эту мысль на примере пакетов Teleport Pro 1.28 компании Tennyson Maxwell и Go Ahead Got It! 3.0.3 компании Go Ahead Software. Оба этих продукта весьма примечательны, но при этом основаны на диаметрально противоположных подходах.

Пакет Teleport Pro - классический "пожиратель Web-узлов". Разработчики стремились с максимальной эффективностью использовать ресурсы компьютера и возможности Internet-канала, так что Teleport может существенно замедлить работу других программ, особенно таких, которые связываются с Internet, и лучше запускать его на ночь. Teleport великолепно "заглатывает" узлы, копируя их целиком или частично, умеет строить и "зеркала", воспроизводящие исходную структуру каталогов, и так называемые "плоские копии", в которых она игнорируется. Вообще по числу параметров загрузки Teleport Pro занимает первое место среди рассмотренных нами автономных браузеров; возможно, ему следует присудить первое место и по сложности настройки, но для продукта, ориентированного на профессионалов, это не такой уж страшный недостаток.

Ресурсы серверов Teleport тоже не щадит. На узлах, где есть файлы, закрытые для программ-роботов, он может без зазрения совести выдать себя за Internet Explorer или Netscape Navigator, <предъявив> соответствующий идентификатор агента, а встретив серверную карту-меню (server-side image map), преобразует ее в клиентскую (client-side), <прозванивая> (или, как чаще говорят, "пингуя" - от английского ping) каждый пиксел: эта процедура отнимает массу времени и в ряде случаев создает серьезную нагрузку на сервер. (Большинство автономных браузеров не обрабатывают серверные карты-меню. Из рассмотренных нами программ помимо Teleport этим занимается еще только одна программа. Она разработана той же компанией Tennyson Maxwell и в полном соответствии со своей сущностью называется Internet Marauder - "Сетевой мародер".)

Пакет Go Ahead Got It!, наоборот, никому не мешает, а только помогает. Он обеспечивает интеллектуальную загрузку Web-страниц по ходу стандартной процедуры просмотра. (Копирование узлов, в явном виде заданных пользователем, тоже имеется, но его возможности уступают аналогичным возможностям Teleport.) Got It! следит за перемещениями пользователя по Internet и, пока он просматривает очередную страницу, автоматически загружает в кэш те страницы, на которые эта страница ссылается. Когда пользователь захочет перейти по ссылке, страница загрузится из кэша, и время на ожидание тратить не придется.

Программа контролирует объем кэша и автоматически удаляет из него наименее нужные документы, самостоятельно оценивая их важность для пользователя. Более того, она периодически проверяет, не изменились ли оригиналы тех документов, копии которых хранятся в кэше, и в случае изменений обновляет последние. Причем периодичность проверок различна для разных документов и регулируется интеллектуальным алгоритмом. И все это в фоновом режиме, практически незаметно для пользователя!

Выбор той или иной разновидности автономного браузера, очевидно, зависит от конкретных потребностей, да и от общего отношения к Internet и ее ресурсам. Дилемма напоминает фроммовскую "иметь или быть": Teleport ориентирован на пассивное накопление информации, Got It! - на активный отбор действительно нужных материалов.

Наш выбор

Автономные браузеры умеют не только загружать информацию из Internet. Спектр их возможностей включает встроенные средства навигации, браузеры, поисковые средства, отслеживание изменений в оригиналах документов и автоматическое обновление копий, ускорение работы традиционных браузеров (как в случае Got It!). Что из этого жизненно необходимо, а чем можно пренебречь, зависит от конкретных задач, встающих перед пользователем.

В нашем случае речь шла о выполнении аналитических работ, связанных с поиском и анализом информации в Internet по определенным предметным областям, и требовалось автоматизировать процесс сохранения и обобщения найденных материалов. В результате требования к функциональным возможностям программы оказались следующими:

  • минимальные ограничения на тип, объем и т. д. загружаемых файлов и максимальная переносимость дополнительных элементов: кадров (frames), Java-аплетов, карт-меню и т. п.
  • широкие возможности управления загрузкой;
  • возможность обновления и расширения создаваемой библиотеки материалов из Internet;
  • переносимость и универсальность библиотеки, т. е. возможность ее дальнейшего использования независимо от платформы и программного продукта, с помощью которых она создавалась;
  • открытость библиотеки для внешних поисково-аналитических средств;
  • минимальные затраты на приобретение и интеграцию всех компонентов, обеспечивающих работу с библиотекой.

Проанализировав существующие программы, мы пришли к выводу, что требованиям универсальности и открытости в большей степени удовлетворяют программы, хранящие загруженные документы в том же формате, в каком они хранятся на серверах, - во всех остальных случаях неизбежны проблемы с совместимостью. Из-за недостатков, прямо связанных с использованием специального формата, мы отказались, например, от пакета Folio Web Retriever 2.1 компании Folio, имеющего замечательный набор поисково-аналитических инструментов.

Для нас оказались неприемлемыми также автономные браузеры, авторы которых стремились в первую очередь к интеграции различных информационных ресурсов в единую библиотеку или созданию удобных средств навигации в такой библиотеке (классическим примером может служить программа Smart Bookmarks 3.0.6 компании FirstFloor Software): все эти браузеры, с одной стороны, привязывают к себе пользователя, а с другой - имеют довольно бедные возможности загрузки.

Автоматическое обновление копий Web-узлов - весьма ценная возможность, однако ее реализация во всех рассмотренных нами программах, кроме одной, имеет существенный изъян: старый вариант после обновления бесследно исчезает, а ведь замененные и удаленные документы могли содержать ценную информацию. Исключение составляет пакет NetAttache Pro 2.50e компании Tympani Development Inc., который создает <моментальные снимки> узлов на определенный момент времени, но, к сожалению, крайне примитивно: просто при каждой загрузке узла создается его отдельная копия независимо от того, какие документы изменились и изменились ли вообще. Понятно, что в результате непроизводительно расходуются и дисковое пространство, и время соединения.

В итоге мы остановили свой выбор на Teleport Pro 1.28 с его широчайшим выбором вариантов загрузки, способностью <расправляться> с серверными картами-меню и эффективно организованным периодическим обновлением копий узлов (хотя и без возможности сохранения старой версии). Это решение предполагает использование внешних компонентов для поиска и анализа материалов, поскольку соответствующих встроенных средств в Teleport нет.

Сравнительные характеристики (относящиеся в основном к возможностям загрузки) девятнадцати автономных браузеров, которые мы сочли наиболее интересными, приведены в таблице. Ниже мы кратко остановимся на особенностях каждой программы.


Black Widow 3.55 (SoftByte Labs)

http://www.softbytelabs.com

Перед началом загрузки узла Black Widow строит его карту и предлагает пользователю отметить на ней те файлы, которые следует загрузить. Очень удобно, что при выборе файлов можно применить фильтр с использованием символов подстановки. Профиль сканируемого узла пользователь может сохранить для дальнейшего использования и объединить с новыми профилями. Программа имеет встроенный браузер.


Folio Web Retriever 2.1 (Folio Corp.)

http://www.folio.com

Продукт можно приобрести по адресу: http://www.software.net/PKSN023180/prod.htm

Пакет Folio Web Retriever 2.1 обеспечивает загрузку и хранение информации, а также содержит средства для аналитической работы с ней. Хотя в его названии фигурирует слово Web, он способен извлекать данные не только с Web-серверов, но и с серверов, работающих по протоколам FTP, Gopher и WAIS.

Загруженные документы, как уже упоминалось, хранятся в специальном формате (он называется Folio Infobase). Для доступа к ним в Web Retriever реализована собственная система, которая обеспечивает обычные переходы по гипертекстовым ссылкам, а также поиск в базе документов и работу с оглавлением проекта (Table of Contents; проектом называется группа связанных между собой загружаемых страниц).

Оглавление проекта представляет собой дерево (разрешается отображать от 1 до 9 уровней), просматривая которое легко найти нужный раздел. Поисковые запросы могут содержать ключевые слова и словосочетания, логические операторы (And, Or, Not, Xor), символы подстановки (* и ?), скобки. Реализован поиск синонимов и однокоренных слов (увы, не для русского языка), а также поиск в определенных элементах документов. Соответствующую разметку пользователь вносит сам: он может выделять фрагменты текста, делать заметки и ссылки, ставить закладки. Предусмотрены также поля различных типов (текстовый, целый, вещественный, дата, время), которые приписываются выделенному тексту. При поиске по таким полям в запросах допускаются операторы сравнения: например, создав поле Price (<цена>) и приписав его всем ценам, упоминаемым в документах проекта, в дальнейшем можно быстро получить список цен, которые меньше определенного значения, больше него или равны ему.

Встроенные средства редактирования проекта позволяют создавать оглавление, работать со стилями, вставлять в документы статические и OLE-объекты. При необходимости все изменения, внесенные пользователем, помещаются в специальный <теневой файл> (shadow file), а сама база документов сохраняется в неизменном виде (в Web Retriever есть защита проектов от несанкционированного доступа).

Но все эти продвинутые возможности были перечеркнуты для нас тем обстоятельством, что Web Retriever некорректно работает с русскоязычными Web-узлами. Кроме того, в нем не предусмотрено периодическое обновление информации: можно лишь назначить запуск проекта на определенный момент времени.


Go Ahead Got It! 3.0.3 (Go Ahead Software, Inc.)

http://www.goahead.com

Эта программа является интеллектуальным агентом, значительно ускоряющим работу со стандартным браузером путем кэширования информации; она также работает как обычный автономный браузер. Кэшируемая информация сохраняется в оригинальном виде, воспроизводящем структуру каталогов Web-узла.

С функциональной точки зрения Got It! состоит из трех модулей - Fetcher (загрузка), Predictor (опережающая загрузка) и Pruner (очистка кэша).

Модуль Fetcher загружает в кэш Web-узлы и обновляет имеющиеся там их копии. Он работает в фоновом режиме, практически не замедляя работу пользователя с браузером. Got It! отслеживает появление новой информации и оповещает пользователя об обновлениях.

Модуль Predictor в то время, когда пользователь просматривает Web-страницу, загружает в кэш те страницы (включая или не включая, в зависимости от настройки, графику, java-аплеты и звуковые файлы), ссылки на которые на ней имеются. При переходе по ссылке следующая страница будет загружаться из кэша. При необходимости этот модуль можно отключить.

Модуль Pruner следит за состоянием кэша и, когда он заполнится, удаляет наименее ценную информацию. Удалению подлежат прежде всего старые файлы, к которым пользователь ни разу не обращался, затем те, к которым не обращался дольше всего. Процесс продолжается до тех пор, пока не освободится требуемый объем дискового пространства.

Для каждой страницы, хранящейся в кэше, Got It! определяет время жизни, по истечении которого страница обновляется. Оно зависит от числа обращений пользователя к странице и от частоты обновления содержания оригинала, хранящегося в Internet; впрочем, можно задать интервал обновления вручную (ежечасно, ежедневно, еженедельно).

Для управления в Got It! служит прекрасно продуманный HTML-интерфейс. Программа проста в управлении и настройке, и с ней приятно работать.


Grab-a-Site 3.0 (Blue Squirrel, Inc.)

http://www.bluesquirrel.com

Небольшая программа для загрузки Web-узлов.


HotСargo Express 1.2 (DocuMagix Inc.)

http://www.documagix.com/products/hotcargo_express

Встроенный диспетчер закладок. Показывает обновленные документы.


InContext Flash Site 1.01 (InContext Systems)

http://www.incontext.com

Этот автономный браузер позволяет загружать Web-страницы, Web-узлы, а также создавать карты узлов перед загрузкой информации. При работе с картой узла он позволяет использовать фильтры (по типу и по размеру файлов). Загружаемая информация сохраняется в специальных каталогах (по типам файлов), файлы переименовываются. Программу можно запустить непосредственно из среды браузера, в ней есть встроенный диспетчер закладок с возможностью импорта закладок Netscape и <фаворитов> Internet Explorer.


InSite 0.9 (Александр Шенфельд)

http://www.engr.orst.edu/~schonfal/lsp.html

Программа сканирует Web-узел или один из его каталогов и строит список имеющихся там файлов. Этот список можно затем отсортировать и отфильтровать, определяя тем самым файлы для загрузки.


Internet Collector 1.01 (Рами Эльдесоки)

http://builder.cnet.com/Downloads/PC/Result/TitleDetail/0,1004,0-35238,00.html

Программа работает с Microsoft Internet Explorer версии 3.0 или выше и автоматически сохраняет последовательность переходов пользователя с одной Web-страницы на другую в виде файла закладок. Заказывать загрузку страниц или целых узлов можно прямо во время просмотра, а просматривать полученные страницы - как в окне IE, так и в окне программы. Internet Collector позволяет вводить комментарии к страницам и индексировать их, содержит систему поиска, позволяющую найти искомую страницу по названию, заголовкам, содержанию, комментариям и подписям к рисункам. Это великолепный продукт, сочетающий лучшие черты автономных браузеров разных классов.


Internet Marauder 1.4 (Tennyson Maxwell)

http://www.tenmax.com

Этот пакет компании Tennyson Maxwell представляет собой облегченный вариант ее основного автономного браузера Teleport Pro, рассчитанный не на профессионалов, а на массового пользователя. Internet Marauder проще, чем Teleport, имеет весьма дружественный интерфейс и содержит программу-мастер для настройки параметров. Невысокая цена при достаточно богатых функциональных возможностях делает этот продукт весьма привлекательным.


MemoWeb 1.75 (Goto Software)

http://www.memoweb.com

Особенностями этого автономного браузера являются встроенные функции создания индекса всех графических файлов, загруженных с узла (они приводятся к заранее заданному разрешению, например 64i64), и просмотра этих файлов.


Near Site build 555 (Info Evolution Ltd)

http://www.nearsite.com

Программа Near Site build сочетает свойства диспетчера закладок и средства загрузки (кэширования) Web-узлов. Отличается удобным HTML-интерфейсом и простотой настройки, содержит встроенную систему поиска, позволяющую искать документы по ключевым словам в заголовке и в тексте. Можно ограничить поиск определенным узлом и диапазоном дат.


NetAttache Pro 2.50e (Tympani Development Inc.)

http://www.tympani.com

При работе с NetAttache пользователь создает разделы (briefs), каждый из которых будет содержать один или несколько элементов (entries). Имеется три вида элементов: Web, Search и Yahoo. Первые соответствуют обычным страницам, вторые - результатам обработки запросов к поисковым системам (пользователь сам выбирает, какую поисковую систему использовать), третьи - разделам каталога Yahoo. NetAttache позволяет создавать и хранить <снимки> узлов на определенный момент времени (который автоматически фиксируется), давая тем самым возможность вернуться к старым вариантам Web-узла.


Smart Bookmarks 3.0.6 (FirstFloor Software, Inc.)

http://www.firstfloor.com

Эта программа - диспетчер закладок. В ней пользователю предлагается создавать каталоги, закладки и агенты. В закладках указываются URL, описание, ключевые слова и агент. Описание и ключевые слова используются для поиска закладки. Три агента являются встроенными - это List/Searches (составление списка документов и поиск), Local Copy (создание локальной копии) и What's New? (получение информации об обновлениях). При создании собственного агента пользователь задает его название, описание и ключевые слова, расписание работы, свойства мониторинга обновлений узла (возможен мониторинг страниц и мониторинг ссылок) и параметры сохранения изучаемых страниц на локальном компьютере (допустимая глубина ссылок - до двух уровней).


Teleport Pro 1.28 (Tennyson Maxwell)

http://www.tenmax.com

Этот автономный браузер обладает самыми мощными средствами загрузки Web-узлов. В нем предусмотрено шесть различных вариантов такой загрузки:

  • создание "плоской" копии: все документы помещаются в один каталог (с сохранением связей);
  • создание "зеркала" - точной копии узла с сохранением структуры каталогов;
  • копирование с Web-узла файлов определенного типа и размера;
  • выявление структуры узла (связей между документами); при этом с узла копируются HTML-файлы;
  • копирование файлов из определенных каталогов сервера;
  • копирование страниц узла, содержащих хотя бы одно из заданных ключевых слов.

Для каждого из перечисленных вариантов предусмотрена настройка режимов, которая может осуществляться как автоматически, так и вручную. Ручная настройка позволяет, кроме того, комбинировать некоторые варианты загрузки.

Настройка определяет, какие типы файлов загружать, каким должен быть их минимальный и максимальный размер, на какую глубину продвигаться по ссылкам, создавать ли локальные ссылки для загружаемых страниц, как преобразовывать карты-меню в локальные, что делать с кадрами (frames) и формами, сколько раз повторять попытку соединения, если сервер не отвечает, и множество других параметров. В Teleport Pro для одного проекта разрешается задать несколько стартовых адресов; в этом случае Teleport будет производить загрузку, используя разные входы. Проекты можно запускать как параллельно, так и по очереди. Расписание запуска предусматривает задание даты, времени и периодичности запуска, а также максимальной продолжительности работы.

Результаты работы Teleport отображаются в двухпанельном окне: слева находится дерево проекта, в котором представлены уже обработанные на данный момент Web-страницы, справа - список файлов, соответствующих выделенной странице карты (это HTML-файл и встроенные файлы: графические, звуковые и т. д.). При щелчке правой кнопкой мыши по значку страницы или файла в этом окне на экране появляется меню, позволяющее открыть объект в браузере, загрузить его на локальный компьютер, обновить, скопировать URL и т. д.


Tierra Highlights2 2.0.223 (Tierra Communications)

http://www.tierra.com/

Программа осуществляет регулярный мониторинг заданных Web-страниц, и информирует пользователя об их изменении, позволяет задать ключевые слова, которые обязательно должны присутствовать в измененном (добавленном) фрагменте документа и содержит функцию сравнения версий, причем измененные абзацы выделяются цветом.


WebVCR 2.01 (NetResults Corporation)

http://www.netresultscorp.com/

Эта программа позволяет "записывать" Web-узлы и затем "проигрывать" их в режиме автономной работы компьютера (без подключения к Internet). "Записи" хранятся в специальном формате (в виде файлов с расширением .wtc и .wtf), но важным достоинством WebVCR является возможность экспорта из этого формата в стандартные форматы Web (с сохранением первоначальной структуры узла).


WebWhacker 3.0 (Blue Squirrel, Inc.)

http://www.bluesquirrel.com/

У этой программы интерфейс в стиле Windows: пользователь видит перед собой рабочий стол, на котором размещаются библиотеки - хранилища документов (Storage). Библиотеки содержат каталоги (как правило, по темам), а те, в свою очередь, - Web-узлы. Загрузив Web-узел, пользователь может искать документы по ключевым словам (к сожалению, русский язык не поддерживается) и по дате последнего обновления.


WebSnake 1.23 (Anawave Software, Inc.)

http://www.anawave.com/

Эта программа во многом близка к Teleport Pro. В ней пять вариантов загрузки: создание карты узла, создание <зеркала>, создание <плоской> копии, поиск и загрузка страниц по ключевым словам и, наконец, создание списка имеющихся на узле адресов электронной почты. Параметры настройки позволяют ограничить обработку ссылок пределами данного URL, сервера или домена, задать максимальное число, максимальный суммарный объем и максимальный размер загружаемых файлов, указать их типы и многое другое.

Программа поддерживает запуск по расписанию (можно задать дату, время и периодичность запуска). Интересной ее особенностью является возможность переноса сценариев на языках JavaScript и VBScript. К недостаткам WebSnake следует отнести то, что не допускается загрузка нескольких узлов одновременно. Правда, загрузка файлов узла выполняется в многопоточном режиме.


Большой список автономных браузеров с краткими описаниями можно найти по адресу http://www.davecentral.com/offline.html и на серверах http://www.download.com/ в разделе Internet: Offline Browsers, http://www.tucows.com/ в разделе Browsers and Accessories: Offline Browsers

Аналитические статьи по автономным браузерам есть на странице http://cws.internet.com/32agents-reviews.html


Об авторе: Михаил Васильевич Ощепков - специалист по информационным системам, работает в компании "Центр компьютерного моделирования" (Москва). Тел.: (095)917-06-52, http://www.csc.ru, e-mail: mike@csc.ru

ДИСКо Качалка

Поскольку "ДИСКо Качалка" выпущена сравнительно недавно, она не успела попасть в этот обзор. Мы уже сообщали о ней в разделе "Новые продукты" (см. "Мир ПК", № 8/98, с. 58), но в обзоре автономных браузеров - по крайней мере если он адресован отечественному читателю - без "Качалки" никак не обойтись, тем более что компания "ДИСКо" подготовила новую версию программы - 2.00.

"Качалка" - пока единственный автономный браузер, учитывающий особенности русскоязычных Internet-узлов: предусмотрено задание кодировки, в которой предпочтительно получать документы, а с тех серверов, где все файлы продублированы в нескольких кодировках, они копируются только в одном экземпляре. Другая интересная особенность "Качалки" - наличие не одного, а целых двух графических представлений структуры узла: дерева каталогов и дерева ссылок; пользователь может по желанию работать либо с одним, либо с другим.

Что касается стандартных характеристик, то "Качалка" хранит все файлы в оригинальном формате, позволяет указать несколько стартовых адресов и обрабатывает все перечисленные узлы параллельно, предусматривает установку глубины обработки отдельно для внешних и для внутренних ссылок, запрет на копирование заданных узлов и файлов определенных типов, ограничения суммарного объема файлов и общего времени работы. В новой версии добавился специальный запрет на копирование внешних иллюстраций (велика вероятность, что такая иллюстрация представляет собой рекламный баннер).

"Качалка" не имеет встроенного расписания, но позволяет запуск из внешнего диспетчера. С его помощью можно организовать и периодическое обновление информации: при повторном запуске миссии (аналог проекта в Teleport) файлы, которые не были изменены с предыдущего сеанса, заново не копируются. Файлы, удаленные с сервера, "Качалка" из копии не удаляет, что имеет и свои достоинства (а вдруг там что-то ценное?), и недостатки (если в файлах ничего ценного нет, приходится вычищать их вручную).

Конечно, "Качалка" не может похвастаться таким обилием возможностей, как, например, Teleport, но она проста в освоении и в использовании, недорога (15 долл.), имеет немало приятных особенностей. Программа распространяется компанией "Арсеналъ".

"Арсеналъ", (095) 974-79-89, http://www.ars.ru

М. Суханова
929