Человек против спама

Network World, США

Билл Еразунис, создатель фильтра CRM114, считает, что главная беда большинства существующих средств антиспама — их недостаточная гибкость

Билл Еразунис: «Теперь все не так. Теперь мы убеж?дены, что электронная почта — средство ненадежное: ‘О, я никогда этого не получал. Наверное, мой фильтр это отсеял’» В течение рабочего дня Биллу Еразунису скучать не приходится. Старший научный сотрудник лаборатории Mitsubishi Electric Research Laboratories, Еразунис занимается разработкой самых разных устройств, от датчиков, которые контролируют загрязнение воды, и сенсорных столов для совместной работы небольших групп до самозаполняющейся кружки для пива. Но самое интересное для Еразуниса начинается после работы. Последние семь лет в свободное время он работает над CRM114 Discriminator, свободно распространяемым фильтром, в котором используется вероятностные критерии для определения того, является ли сообщение электронной почты спамом. CRM114 применяется отдельными пользователями, корпорациями и некоторыми провайдерами. Успех этой разработки обусловил расширение служебных обязанностей Еразуниса. С апреля Еразунис будет заниматься вопросами борьбы со спамом официально — в дополнение к своим многочисленным служебным обязанностям. 30 марта он выступил в роли председателя пятой ежегодной конференции по спаму, организованной Массачусетским технологическим институтом. Еразунис ответил на вопросы старшего редактора еженедельника Network World Кары Гарретсон.

Каким образом вы начали заниматься проблемой борьбы со спамом?

Меня очень раздражал спам, поэтому несколько лет назад я сказал своему менеджеру: «Мы должны что-то делать со спамом». Он ответил: «Да не думай ты об этом, Билл. Спам никогда не выльется в серьезную проблему». На вопрос, могу ли я заниматься этой задачей в свое свободное время, он сказал: «Запретить тебе это я не могу».

Я собирался создать систему, которая использовала бы так называемый показатель репутации. То есть если я уже получал письмо от этого человека раньше, то, скорее всего, это не спам. Если же не получал, то, скорее всего, письмо — это спам. Затем я понял, что подобный механизм будет работать не очень хорошо. Тогда я обратился к модели эвристик. Но они действуют реактивно. Результаты, которые можно получить с помощью Apache SpamAssassin, обеспечивают точность 90-95%, но я хотел большего. Поэтому я начал заниматься статистической фильтрацией.

Изменилась ли в 2006 году ситуация в худшую сторону и если да, то почему?

Количество спама увеличивается, но большинство фильтров достаточно хорошо помогают с ним бороться. Однако в 2006 году объем спама вырос по крайней мере вдвое. Протестировав корпоративные фильтры, мы пришли к выводу, что спаммеры не совершенствуют свои методы, а просто рассылают больше спама.

Каковы перспективы на 2007 год?

Увы, обнадежить никого не могу. С определенным оптимизмом могут смотреть в будущее клиенты очень крупных Internet-провайдеров, поскольку эти провайдеры пропускают через фильтры огромное количество текстов. Всем остальным не стоит рассчитывать на то, что количество спама уменьшится, если только они не настроят фильтры почти идеально. Тем, кто не пользуется услугами крупных Internet-провайдеров или хорошими фильтрами, возможно, придется вообще махнуть рукой на электронную почту. При отсутствии фильтров она уже практически бесполезна. Когда-то в отношении ARPANet, предшественницы Internet, была уверенность, что она не потеряет управляемость даже при угрозе ядерного уничтожения. Теперь все не так. Теперь мы убеждены, что электронная почта — средство ненадежное: «О, я никогда этого не получал. Наверное, мой фильтр это отсеял». Впрочем, это стимулирует обычное человеческое общение, поскольку нет уверенности, что ваш адресат не проигнорирует то, что вы ему послали.

И каким образом вы настраиваете свой фильтр?

Настройка довольно проста. Если вы работаете с Yahoo Mail, Gmail или Thunderbird от Mozilla, вы просто щелкаете по кнопке с надписью «Это спам» или, если имеется такая кнопка, «Нет! Это не спам». Таким образом настраиваемый фильтр получает данные. При этом выполняются достаточно серьезные математические вычисления: фильтр производит итеративные вычисления статистических показателей. Но всего этого пользователи не видят. Им достаточно щелкнуть клавишей, и произойдет чудо: система сама будет обучаться, с каждым разом становясь немного умнее.

Насколько производителям средств антиспама удается поспевать за появлением все новых видов подобного «контента»?

Мне не нравится то, что продают производители фильтров. В нашей лаборатории есть пара коммерческих фильтров, и мне пришлось их отключить, поскольку они недостаточно гибкие. Далеко не все, что не адресовано вам напрямую, является спамом. Некоторые производители утверждают: «Мы никогда не теряем электронную почту». Но это происходит потому, что они ее просто не принимают.

Какой из трюков, к которым прибегают спаммеры, вам нравится больше всего?

Взгляните на это с точки зрения психологической войны: для того чтобы донести информацию для врага, вы ставите ее в начало. Вы берете первые несколько строк сообщения, в которых говорится: «У нас есть товар X», — это своего рода антитрюк. Есть трюк, который заставляет меня думать, что спаммеры используют профили своих абонентов. Однажды я получил спам, который отловил мой фильтр. В этом сообщении был текст, посвященный теме, над которой я работаю, один из аспектов использования молибдена и ванадия, и это меня и обмануло. Я подумал, что, возможно, статья по химии предназначалась для меня, и мне ее прислал коллега по работе, а потому щелкнул по приведенной ссылке. Это оказался порносайт. Люди с точностью 99,5-99,9% распознают спам в течение первых десяти секунд. Люди, безусловно, — лучшие фильтры. Самое интересное, что «ванадиевый» спам не обманул мой фильтр. Фильтр сообщил мне, что это была плохая статья по химии и что мне она не понравится. Возможно, это значит, что мой фильтр лучше разбирается в химии, чем я.

Спам-фильтр для специалиста по борьбе со спамом

CRM114, получивший свое название от радиоприемника времен «холодной войны», использованного в фильме Dr. Strangelove, представляет собой программу, распределяющую текст по категориям. Эта программа оперирует фразами, а не отдельными словами. Как правило, она используется для поиска спама среди сообщений электронной почты. В отличие от других фильтров, которые анализируют слова в сообщении электронной почты, сравнивая их с терминами, которые часто встречаются в нежелательных сообщениях, CRM114 ведет поиск совпадений в списке фраз. Благодаря этому, как подчеркнул автор CRM114 Билл Еразунис, он учитывает больше нюансов, чем традиционные фильтры, проверяющие по одному слову за раз. Этот фильтр также использует сразу несколько других технологий поиска спама. Кроме того, он имеет свой собственный язык программирования для подключения его к архитектуре электронной почты.