Integrum Techno предлагает услугу подписки на поисковый запрос

Агента можно «завести» двумя способами — либо подписаться на общедоступный агент, либо составить запрос самому

Это делается, например, для оценки популярности компании или для анализа действий конкурентов. Характерной особенностью такой задачи является периодическое повторение одинаковых запросов к поисковым системам, а такие действия можно легко автоматизировать. Именно для этого в основном и предназначена технология поисковых агентов. Агенты эффективно действуют в системах поиска информации по публикациям прессы.

Компания Integrum Techno, основная деятельность которой связана с распространением прессы по подписке, но в электронном виде, не упустила случая воспользоваться этой технологией. Для поиска информации по печатным изданиям применяется поисковая система «Артефакт». Система первоначально была разработана под DOS, сейчас же перенесена на NT. Всего в «Артефакте» накоплено около 40 Гбайт информации. В систему помещается и множество газет, которые к Internet пока не подключены; они присылают свою информацию по электронной почте.

Для поисковых систем характерна дилемма: быстрый поиск документов, но медленное добавление новой информации или быстрое добавление новостей, но медленная выдача результатов поиска. Поисковые системы в Internet обычно оптимизированы для быстрой выдачи ссылок, но пополняют они информацию редко — раз в неделю. Создатели «Артефакта» пытались добиться компромисса — ускорить загрузку документов, но при этом и быстро выдавать ответы пользователю. Сейчас в день загружается несколько тысяч новых документов.

Следует отметить, что «Артефакт» — это не единая база, а несколько специализированных баз, различающихся по источникам информации. Разделение информации выполняется автоматически, «ручные» работы перенесены на плечи поставщиков. С помощью специального языка сценариев обработки потоковой информации данные, поступающие в «Артефакт», унифицируются. Эти качества системы позволяют эффективно использовать технологию поисковых агентов.

Многим клиентам приходится ежедневно прогонять примерно одинаковые запросы для контроля изменений информации за определенное время. Однако постоянно набирать сложные запросы вручную, увеличивая вероятность ошибок, нерационально. Кроме того, полученные ответы приходится фильтровать, чтобы исключить повторения. Поэтому Integrum Techno предложила своим клиентам такую услугу, как подписка на поисковый запрос (push-агент). Эта услуга предназначена тем, кому надо постоянно контролировать ситуацию по определенному вопросу. К ней предъявляется два требования: полнота и отсутствие дублей. Для поддержки push-агентов поисковая машина должна работать постоянно и в нее постоянно должна подгружаться информация, а ведь именно это и является главной особенностью «Артефакта». Кроме того, для поддержки технологии агентов необходима дополнительная программа планирования и периодического запуска запросов.

Push-агенты функционируют следующим образом: в базе данных фиксируются запросы пользователей, затем с некоторой периодичностью система выбирает эти запросы и посылает их в «Артефакт», полученные результаты высылаются подписчику по электронной почте. При этом выбираются только новые документы. Клиенту пересылается подборка документов с файлом оглавления и все тексты сообщений, объединенных в Zip-файл. Для определения агента надо указать периодичность запуска запроса и количество документов в выборке. Ограничение выборки связано с тем, что подписчику передаются не ссылки на документы, а сами документы, за которые нужно платить. Предусмотрено два типа агентов: стандартный и бизнес-агент. Стандартный агент выдает в день не более десяти документов, а бизнес-агент — три раза в день не более 50. Предполагается, что такой подход выгоден для клиентов — меньше времени тратится на рутинные операции и удельная стоимость информации уменьшается.

Агента можно «завести» двумя способами — либо подписаться на общедоступный агент, либо составить запрос самому. Сделать это можно удаленным образом через Web-интерфейс, не обращаясь в службу технической поддержки Integrum Techno. Общие агенты неизменны: их нельзя отредактировать, на них можно только подписаться. Агенты, созданные самими клиентами, разрешается редактировать в любое время (правда, за деньги), но его, кроме автора, никто не видит. Для создания агента нужно определить запрос, его тип, набор баз данных для поиска и некоторые дополнительные параметры. За создание и редактирование запроса индивидуального агента пользователь должен заплатить определенную сумму. Выдача результатов происходит по электронной почте. Сейчас у Integrum Techno работает около 350 агентов.

Агенты собраны в отдельном модуле, который планирует выдачу запросов поисковой машине «Артефакт». В определенный момент агент запускается, получает результаты и отсылает их пользователю. Поисковый сервер, в частности, занимается и биллингом. В принципе, программу-агента можно расположить и на площадке клиента, поскольку она умеет работать с «Артефактом» удаленно, через Internet. Да и сам «Артефакт» можно установить на машины клиентов, дополнив его модулем поисковых агентов. У Integrum Techno есть около 50 клиентов, которые купили «Артефакт». Все они обладают большим банком информации — имеют свои внутренние бюллетени и, кроме того, получают информацию от Integrum Techno. Некоторые из них рассматривают возможность покупки и модуля агентов.

Конечно, совершенствованием технологии агентов занимаются не только в Integrum Techno. Аналогичная подписка на запрос есть у поисковой системы Yandex, но если от «Артефакта» можно получать новые документы три раза в день, то от Yandex — лишь раз в неделю. Фактически система Integrum Techno представляет собой поисковую службу новостей Internet, поскольку некоторую часть своей базы она загружает с новостных серверов Сети. Как и другие профессиональные новостные службы, эта поисковая система является платной, что вполне логично.


«Артефакт»

Разработчик. Компания Integrum Techno. Основная специализация компании — распространение периодических изданий в электронной форме. «Артефакт» используется для организации поиска в распространяемых изданиях
История. Разработка начата в 70-х годах на IBM/360. Ее авторы участвовали в создании первой версии поисковой системы «Агама», которая в дальнейшем была переименована в «Апорт», а также ИПС МИРС
Базовые технологии. Платформа — Windows NT, генерация результатов в XML
Новшества. Появилась возможность определения поисковых агентов, которые выделяют новые поступления, отвечающие заданному запросу

Поделитесь материалом с коллегами и друзьями