«Арсеналъ» разводит деревья | Computerworld Россия | Издательство «Открытые системы»


Александр Каплинский: «Главное, что должна обеспечить технология Tree X, - это очистку Web от «мусорных» данных»

«Хороши ли наши Web-технологии?» - видимо, таким вопросом задались несколько месяцев назад специалисты компании «Арсеналъ» и, вздохнув, ответили: «Нет, не очень». Как известно, Всемирная паутина строится на принципах гипертекста. С одной стороны, это очень удобно: все содержимое Сети представляется в виде огромной мультимедийной энциклопедии, путешествовать по которой легко и удобно. С другой - быстро найти нужную информацию оказывается весьма непросто. Конечно, есть в Сети поисковые машины, но собираемая ими информация проверяется в лучшем случае раз в две недели. Есть узлы - каталоги ресурсов Internet, но они могут лишь в самых общих чертах сказать, что же хранится на данном сервере. В браузерах имеются системы закладок, но в них хранятся ссылки лишь на те узлы, где пользователь сам хотя бы раз побывал или где ему рекомендует побывать производитель данного браузера. В такой динамической системе, как Web, почти неизбежно происходит так, что на части ссылок хранятся адреса уже «умерших» страниц, а другая часть, новые страницы по интересующим конкретного пользователя темам, еще неизвестна. Есть в Web и возможность подписки на отдельные HTML-страницы или группы страниц, но она требует значительного трафика, поэтому на практике такая возможность применяется редко.

А что если организовать подписку не на сами страницы, а на наборы ссылок на них? В «Арсенале» и три месяца назад начали разрабатывать новую концепцию анализа хранимой в Web информации, получившую название Tree X (Tree eXchange - «обмен деревьями»). Основная идея концепции - предоставить пользователям возможность собирать ссылки на интересующую их информацию и представлять структуру ссылок в виде деревьев. Эти изыскания были обнародованы 24 сентября на выставке SofTool.

Возможны два варианта реализации Tree X. Первый основан на применении «толстого» клиента. В этом случае на клиентскую машину устанавливается специальная программа, которая будет получать из Internet наборы ссылок, затем разбирать, анализировать и составлять древовидную карту. Это дерево ссылок будет храниться на клиенте.

Пользователь обращаться к нему с помощью обычных браузеров. Инициатива по созданию, проверке и обновлению карт-деревьев исходит именно от пользователя, он сам решает, что и когда делать с деревьями.

В рамках второго варианта с применением «тонкого» клиента предполагается, что программа устанавливается на узлах провайдеров и владельцев поисковых машин. Принцип действия остается прежним - за исключением того, что работу по генерации дерева ссылок будет выполнять машина провайдера или владельца поискового сервера. По мере генерации дерево будет пересылаться пользователю.

Сбор ссылок также может производиться в двух вариантах. Первый - с применением специального протокола TXP (Tree eXchange Protocol), являющегося модификацией HTTP. Для сбора ссылок HTTP не очень удобен, так как с помощью его одного невозможно точно определить, является ли содержимое Web-страницы статическим или динамическим. В последнем случае ссылку на такую страницу давать нецелесообразно, так как ее содержание меняется слишком часто.

Итак, если удаленный сервер способен сам отделять зерна от плевел и передавать клиентам с помощью TXP уже отфильтрованную (или, по крайней мере, пригодную к эффективной фильтрации) информацию, то задача генерации деревьев значительно упрощается. В этом случае между сервером и клиентом, по сути, происходит обмен деревьями ссылок. Если же сервер не поддерживает протокол TXP, то тогда программе «сборки» деревьев придется действовать согласно второму варианту - анализировать те данные, которые способен предоставить данный сервер, и на основе этого генерировать деревья.

Когда дерево построено, клиенту остается лишь время от времени проверять корректность ссылок и обновлять свое дерево. Примечательна быстрота проверки ссылок. По словам Михаила Донского, президента компании «ДИСКо», чтобы удостовериться в корректности одной ссылки, требуется обмен примерно 80 байтами данных. Это означает, что на проверку дерева из 5 тыс. ссылок требуется 400 Кбайт. При скорости доступа в Сеть 28,8 Кбит/с такая проверка займет около 2,5 минут.

Tree X только зарождается. Еще не выработана политика ее продвижения, не созданы коммерческие продукты. Сейчас трудно сказать, востребует ли реальный пользователь эту технологию, но в том, что Tree X обещает хорошие плоды, сомневаться не приходится. Если провайдеры и владельцы поисковых машин примут эту технологию на вооружение, общая нагрузка на Сеть может даже снизиться за счет того, что, во-первых, поисковые серверы перестанут собирать «страницы-пятиминутки», а во-вторых, что более существенно, поисковые машины прекратят предлагать короткоживущие и «мертвые» страницы пользователям, и те не смогут перекачивать их с серверов поиска.