Что же такое Web-спам?

На обложке октябрьского выпуска журнала Computer (IEEE Computer Society, Vol. 38, No. 10, October, 2005) тема номера обозначена как «Рубежи поиска» (Frontiers of Search) и ей посвящены пять больших статей плюс небольшая заметка приглашенного редактора Нарена Рамакришнана (Naren Ramakrishnan). Поисковые процессоры являются широко распространенными универсальными интерфейсами к информации, не связанными с конкретными категориями пользователей, географическими областями или целями поиска информации, поэтому развитие технологии поиска представляет интерес для каждого пользователя Internet, а не только для профессионалов. Специальный выпуск, посвященный поисковым серверам, позволяет составить картину текущих тенденций в этой области и понять, как они повлияют на использование Сети в будущем.

Первая статья тематической подборки называется «Спам: теперь он не только в почтовых ящиках» (Spam: It?s Not Just for Inboxes Anymore) и написана Золтаном Гьенги (Zoltan Gyongyi) и Гектором Гарсиа-Молина (Hector Garcia-Molina) из Стэндфордского университета. Несмотря на обещания софтверных компаний и поставщиков услуг, спам в электронной почте настолько же привычен и надоедлив, как и поток рекламных воззваний в обычной почте. Однако часто удивляет и даже немного пугает, когда невинный поиск ближайшей шиномонтажной мастерской приводит на страницы про повышенные процентные ставки, недорогие лекарства, юридическую помощь или болезненную косметическую хирургию. Это похоже на то, как если бы вы кликнули по всем наихудшим ссылкам в своем почтовом ящике, и кто знает, что происходит, пока вы находитесь на нежеланной странице? Наши поздравления, вы стали жертвой Web-спама. На первый взгляд, это похоже на вопиющее злоупотребление поискового процессора, но при более пристальном рассмотрении складывается более размытая картина — некоторые виды Web-спама являются очевидной диверсией. Например, в ответ на введенный в Google запрос в «Kaiser pharmacy online» выдавалась страница, выглядевшая в точности так же, как результирующая страница Google, но все ссылки вели на несколько сайтов, продающих дешевые лекарства по рецептам. Ясно, что такая подстановка неточной результирующей страницы является попыткой подрыва репутации Google и заслуживает метки «спам». В качестве примера не столь очевидной ситуации авторы рассматривают Web-сайт World News Network, ссылка на который выдается в Google третьей в списке в ответе на запросы «world news» и «news network» в компании таких известных новостных ресурсов, как BBC, CNN и Fox. Но WNN в действительности не является новостным ресурсом — это компания, владеющая несколькими тысячами Web-сайтов, каждый из которых представляет собой онлайновую газету, посвященную конкретным темам конкретной географической области. При более тщательном анализе оказалось, что большая часть контента этих локальных изданий посвящена не местным бизнес-новостям, а более общим событиям, таким как война в Ираке. Эти сайты тесно связаны между собой, но на них не ссылаются сайты, не относящиеся к WNN. Хотя все статьи поступают из уважаемых источников, таких как Associated Press, CNN и New York Times, редко встречаются ссылки на реальные источники. Авторы считают WNN примером «серой зоны» Сети: агрегирование новостей может быть полезным, но обеспечивает ли WNN что-либо действительно ценное или же существует только для получения дохода от размещения рекламы на своих страницах, как, кстати, и ряд российских новостных сайтов? Размытость картины спама дополняют субъективность искателей информации и аспект свободы самовыражения. При задании Google и Yahoo запроса «miserable failure» («плачевная неудача») в первых рядах в ответе появляется ссылка на официальную биографию президента Джорджа Буша. Конечно, методы спама влияют на ранжирование результатов поиска, но данный случай не является очевидным примером Web-спама, поскольку одобрение или порицание чего бы то ни было зависят от индивидуальных предпочтений. Так что и странный результат является все-таки результатом, представляющим некоторую ценность. Таким образом, определить, что такое Web-спам, не так уж просто. С одной стороны это очевидный способ воздействия на людей, с другой стороны, эта проблема вряд ли нова. Каждый день люди встречаются с массой попыток воздействия — дружеские советы, телевидение, газеты, политическая пропаганда и т.д. Однако, несмотря на наличие серой зоны, Web-спам представляет собой серьезную проблему. Web-спам подрывает репутацию доверенных источников информации, и это делает его более опасным, чем спам по электронной почте. Человеку свойственно расценивать все возможные источники влияния на себя с той или иной долей скептицизма. Спамеры электронной почты подрывают доверие только у очень доверчивых людей. Большая часть людей с большим скептицизмом относится к рекламе на Web-страницах. В отличие от этого, Web-спам подрывает кредит доверия у людей, полагающихся на поисковые процессоры. Google, Yahoo и MSN обеспечивают результаты, удовлетворяющие наши потребности в информации, и они завоевали репутацию поставщиков надежных, беспристрастных и достоверных ссылок. Мы доверяем этим службам и распространяем это доверие на возвращаемые ими результаты. В случае спама в электронной почте, который почти всегда лишь причиняет неудобство, мы не ждем от него какой-либо пользы и просто его удаляем. Но мы склонны относиться с результатам поиска, как к беспристрастным и достоверным. В сообществе поисковых служб полагают, что Web-спам будет все более распространенным и изощренным. Статистические отчеты показывают, что в 2002 году поисковые серверы индексировали от 6 до 8% страниц спама, а в 2003-2004 годах спам составил уже 15-18%. В другом исследовании обнаружено, что примерно в 9% результатов поиска среди первых десяти выданных ссылок содержалась, по крайней мере, одна ссылка на спам, а в 68% случаев ссылки на спам содержались среди первых 200 ссылок. Компании, производящие и поддерживающие поисковые средства, сопротивляются этим атакам путем штрафования явных нарушителей, но в этом могут помочь и пользователи, ознакомившись с уловками Web-спамеров и более тщательно оценивая результаты поиска. Противодействие целям спамеров добиться большого числа обращений на свои страницы путем игнорирования ссылок на спам может помочь обратить эту разрушительную тенденцию. Основная часть статьи содержит обзор существующих методов организации Web-спама, а также характеристику средств его обнаружения.

Авторы следующей статьи — Роберт Капра и Мануэль Перез-Квинонес (Robert Capra, Manuel Perez-Quinones). Статья озаглавлена «Использование поисковых серверов для первичного и вторичного поиска информации» (Using Web Search Engines to Find and Refind Information). Поисковые серверы, получающие в день около 550 млн. запросов, играют сегодня решающую роль в обнаружении и фильтрации огромного объема данных, доступных во Всемирной Паутине, однако, несмотря на доступность все более точных и эффективных алгоритмов поиска, даже опытные пользователи испытывают затруднения при повторном нахождении информации, ранее найденной в Web. Более того, часто пользователи не знают, как получить повторный доступ к требуемым данным. Даже если пользователи осознают ценность информации, они часто испытывают трудности при использовании существующих организационных инструментов, подобных закладкам. Как отмечают некоторые исследователи, основным недостатком поисковых серверов общего назначения является то, что нахождение релевантной информации — это итеративный процесс и почти невозможно запомнить точный запрос, который использовался для нахождения конкретной информации. Таким образом, для обеспечения удобных средств повторного нахождения информации недостаточно тонкой настройки алгоритма поиска. Ранние поисковые средства не оптимизировались в расчете на доступ к уже просмотренной информации, в частности, не учитывалась история предыдущей работы пользователя. Однако теперь во многих поисковых серверах и Web-браузерах поддерживаются усовершенствованные возможности, такие как локализация результатов поиска и настройка панелей для повышения удобства и полезности. Некоторые из этих новых возможностей начинают фокусироваться на помощи пользователям при управлении информацией, которую они находят в Web, например, путем обеспечения доступа к истории предыдущего поиска.

Статью «Интеллектуальные поисковые агенты, использующие управляемые Web пояснительные диалоги на естественном языке» (Intelligent Search Agents Using Web-Driven Natural-Language Explanatory Dialogs) представили Анита Феррейра (Anita Ferreira) и Джон Аткинсон (John Atkinson). Пользователи Сети сталкиваются сегодня с колоссальной информационной перегрузкой, и хотя для обхода отдельных Web-сайтов хватает минимального обучения, для поиска информации на основе запросов и навигации между сайтами требуется больший опыт. Авторы исследуют генерацию интерактивных диалогов на естественном языке для организации библиографического поиска в Web. Подход концентрируется на развитии парадигмы информационного поиска с применением модели вычислительной лингвистики и более удобных поисковых агентов.

Бхарат Кумар Мохан (Bharath Kumar Mohan) написал статью «Поиск воспитателей в сетях ассоциаций» (Searching Association Networks for Nurturers). Поиск в Web включает не только просеивание страниц и гиперссылок — появляются специальные сети ассоциаций, более качественно обслуживающие запросы, специфичные для конкретной предметной области, путем использования принципов и паттернов. Особенно полезен поиск в таких сетях ассоциаций с целью нахождения воспитателей (nurturer). Появляющиеся вокруг этих «воспитателей» новые узлы также становятся важными в Сети. Нахождение «воспитателей» может улучшить поиск в Web, особенно при обеспечении ответов на постоянные запросы. Разработчики поисковых серверов все больше говорят о совершенствовании пользовательских запросов, пытаясь обеспечить некоторые результаты на основе обратной связи с пользователями и сообществами либо требуя от пользователя накладывать на запросы контекст. Контекст поиска позволяет применять настроенные правила и эвристики для совершенствования результатов.

В качестве примеров приводятся: поисковый сервер ZoomInfo (zoominfo.com), который обеспечивает наилучшие результаты при поиске информации о принадлежности людей к организациям; специализированные торговые сайты, ориентированные на обеспечение ответов относительно различных категорий товаров; сайты наподобие CiteSeer (citeseer.ist.psu.edu) и Google Scholar (scholar.google.com), которые обеспечивают информацию о ранжировании исследовательских статей, основываясь на индексах цитируемости. В каждой из этих вертикалей поиска улучшению результатов способствует использование знания и понимания особенностей предметной области. С точки зрения поискового сервера Web представляет собой множество перекрывающихся сетей ассоциаций, каждая из которых может обеспечивать ответы на различные запросы. Для улучшения обработки запросов базовая сеть ассоциаций Web «страница — гипер?ссылка — страница» уточняется более конкретными сущностями и связями. Хотя такие сети расширяют возможности поиска и повышают его точность, их оказывается недостаточно для обработки постоянных запросов. Для выполнения таких запросов нельзя использовать ранжирование на основе анализа ссылок, поскольку в ассоциативных сетях обычно бывает мало ссылок на свежие документы. При ранжировании новых документов может помочь учет соответствующих первопроходцев. Среди «успешных воспитателей» могут быть блоггеры, инициирующие поступление статей и комментариев; центральные страницы, содержащие ссылки на информацию о новых технологиях и продуктах; новостные ресурсы, специализирующиеся на различного рода разоблачениях; рецензенты, предоставившие в прошлом положительные рецензии на наилучшие фильмы до их выхода на экран. При появлении новых документов они могут ранжироваться на основе качества их первопроходцев. Например, блоги, написанные людьми, которые в прошлом неоднократно инициировали интенсивные обсуждения, могут получать ранг выше, чем другие. Артефакты, принимаемые хорошим воспитателем, также ранжируются выше. Предлагаемый подход был опробован автором при создании экспериментальной поисковой системы над библиографической базой данных DBPL.

Последняя статья тематической подборки называется «Поиск в Semantic Web» (Search on the Semantic Web). У статьи шесть авторов, первый из них — Ли Динг (Li Ding). В начале эпохи Web люди искали интересующие их страницы путем навигации от страниц с запомненными адресами. Быстрый рост числа страниц привел к появлению Web-каталогов, подобных Yahoo, в которых вручную организовывались тематические иерархии ссылок на Web-страницы. Продолжающийся рост Web заставил пополнить эти каталоги поисковыми серверами, такими как Lycos, HotBot и AltaVista, автоматически обнаруживающими новые и измененные Web-страницы, добавляющими ссылки на них в базу данных и индексирующими их по ключевым словам и свойствам. Сегодня в инфраструктуре Web доминируют поисковые серверы Google и Yahoo, которые в значительной степени определяют современное восприятие Web. Большая часть знаний в Web представляется в виде текста на естественном языке с редкими графическими иллюстрациями — их удобно читать людям, но трудно понимать компьютерам. Такое представление знаний также ограничивает возможности поисковых серверов по индексированию, поскольку они не могут вывести смысла терминов. Даже при расширяющемся использовании представления информации на XML компьютеры все равно должны будут использовать семантику предметной области для обработки тегов и литеральных символов. При использовании подхода Semantic Web компьютеры могут использовать символы с правильно определенной, интерпретируемой машиной семантикой для совместного использования знаний. Поиск в Semantic Web отличается от традиционного поиска в Web в нескольких отношениях. Во-первых, знания, сохраняемые в Semantic Web, ориентированы на публикацию машинами для машин. Хотя аннотации и разметка, поддерживаемые Semantic Web, могут помочь пользователям находить читаемые человеком документы, они скорее составляют промежуточный уровень между пользователем и поисковыми серверами Semantic Web. Во-вторых, знания, представленные на языках Semantic Web, например, на языке Resource Description Framework (RDF) отличаются как от неструктурированного текста, размещаемого на большинстве Web-страниц, так и от полностью структурированной информации, хранящейся в базах данных. Для работы с такой квазиструктурированной информацией требуются развитые методы индексирования и выборки. В RDF, RDF Schema и Web Ontology Language присутствуют семантические возможности, выходящие за пределы обычного XML. Эти возможности позволяют определять термины, связи между ними, вводить ограничения и аксиомы, которые должны соблюдаться для правильно построенных данных. В-третьих, даже внутри отдельного документа Semantic Web может содержаться смесь фактов, определений классов и свойств, логических ограничений и метаданных. Для полного понимания документа может потребоваться значительный логический вывод, так что разработчики должны решить, какой логический вывод могут осуществлять поисковые серверы и когда они должны это делать. В процессе вывода производятся дополнительные факты, ограничения и метаданные, для которых может также понадобиться индексирование. Традиционные поисковые серверы не пытаются понимать содержимое документа, поскольку эта задача слишком трудна, и для ее решения требуются дальнейшие исследования в области понимания смысла текста. Наконец, графовая структура коллекции семантических документов существенно отличается от структуры, порождаемой коллекцией HTML-документов. Это различие влияет как на разработку эффективных стратегий автоматического обнаружения оперативных семантических документов, так и на создание соответствующих метрик для сравнения их важности. В поисковом сервере Swoogle для Semantic Web, разработанном группой eBiquity из Мэрилендского университета, используется не один унифицированный метод поиска, а стратегия, включающая четыре аспекта: выполнение метапоиска над традиционными поисковыми серверами Web для нахождения кандидатов; использование специализированного механизма поиска для обхода каталогов, в которых обнаруживаются семантические документы; сбор URL при обработке обнаруженных семантических документов; сбор URL семантических документов и каталогов, содержащих семантические документы, представленные пользователями. Для оказания помощи пользователям и программным агентам для нахождения требуемого знания в Semantic Web Swoogle обнаруживает, индексирует и анализирует онтологии и факты, содержащиеся в семантических документах.

Единственная большая статья октябрьского номера, не вошедшая в тематическую подборку, написана большой группой авторов из компании Cluster Technology. Первый в списке авторов — Монк-Пинг Леонг (Monk-Ping Leong). Статья называется «CPE: параллельная библиотека для приложений финансовой инженерии» (CPE: A Parallel Library for Financial Engineering Applications). Параллельная вычислительная обработка обеспечивает эффективное и относительно недорогое решение вычислительно сложных научных и финансовых проблем. Параллельная среда Clustertech parallel environment (CPE) является библиотекой классов C++, облегчающей разработку крупномасштабных параллельных приложений, в частности, приложений финансовой инженерии. При создании CPE преследовались цели обеспечения эффективности и переносимости. В настоящее время CPE может использоваться на платформах Unix, Linux и Windows, обеспечивая ориентированные на прикладную область объектно-ориентированные библиотеки для решения дифференциальных уравнений в частных производных и стохастических дифференциальных уравнений конечно-разностными методами и методом Монте-Карло. CPE скрывает от пользователей производимые при вычислении коммуникационные и синхронизационные действия, обеспечивая эмуляцию среды традиционного последовательного программирования. Возможности управления параллелизмом обеспечиваются за счет потенциальной перегрузки методов, применяемых по умолчанию. Библиотеки классов, специфичные для прикладной области, строятся поверх набора высокопроизводительных параллельных классов, что обеспечивает эффективные коммуникации и управление. Искушенные пользователи могут разрабатывать программы, выполняемые прямо на параллельных платформах, но для большинства коммерческих приложений требуется интеграция параллельных программ с программным обеспечением, существующем на персональных компьютерах пользователей. CPE обеспечивает простые механизмы для вызова параллельных вычислений и управления ими в удаленном режиме, а также для обмена данными между параллельными и персональными компьютерами.

Всего вам доброго, до следующей встречи, Сергей Кузнецов (kuzloc@ispras.ru).