Служба новостей IDG, Лондон

Разработчики новой системы фильтрации намерены вручную классифицировать огромный тестовый массив электронной почты

Джон Грэхэм-Камминг полон решимости создать новое оружие, способное помочь в уничтожении нежелательных почтовых сообщений. Англичанин Грэхэм-Камминг, живущий в Тулузе, бывалый борец со спамом, создал Popfile — инструмент классификации электронной почты с открытым кодом. Он также написал Polymail — программную библиотеку, которую другие разработчики используют в качестве основы для собственных спам-фильтров.

Спам составляет около 80% всей электронной почты, хотя и не так назойлив, как мог бы быть, если бы не довольно совершенные системы фильтрации.

Впрочем, спамеры не сдаются и находят технические способы доставки своих посланий, после чего разрабатываются более тонкие фильтры, и гонка вооружений делает очередной виток.

Для своего нового проекта Джон Грэхэм-Камминг обращается ко всем добровольцам с просьбой потратить часть своего личного времени на классификацию 100 тыс. сообщений электронной почты, которые использовались для тестирования точности спам-фильтров. Он создал сайт www.spamorham.org, на котором все желающие могут помечать сообщения как spam либо ham (обычная почта)

«Не думаю, что от спама можно избавиться, — считает Грэхэм-Камминг. — Совершенно очевидно, что спамеры прекратят массовые рассылки, только когда будут лишены возможности зарабатывать деньги».

В новом проекте Грэхэм-Камминг обращается ко всем добровольцам с просьбой потратить часть своего личного времени на классификацию 100 тыс. сообщений электронной почты, которые использовались для тестирования точности спам-фильтров. Он создал сайт www.spamorham.org, на котором все желающие могут помечать сообщения как spam либо ham (обычная почта).

В набор сообщений электронной почты включен массив NIST 2005 Public Spam Corpus. Но главным поставщиком тестовой почты стала печально известная энергетическая компания Enron, чья пагубная практика финансовой отчетности привела ее к банкротству в 2001 году. Электронная почта многих служащих Enron была изъята следователями и со временем стала общедоступной.

«Сообщения электронной почты сотрудников Enron являются популярной тестовой базой для исследования спама — это исключительно богатый набор частных сообщений электронной почты и спама, аналог которому трудно отыскать», — пояснил Грэхэм-Камминг.

Идея заключается в том, чтобы каждое сообщение электронной почты было отклассифицировано десять раз для выяснения мнения большинства. На данный момент классификация завершена примерно для трети всех сооб?щений.

«Большинство сообщений может легко классифицировать любой человек, мало-мальски знакомый с электронной почтой. Однако в целом мнение машины и человека расходится примерно в одном случае из десяти», — отметил Грэхэм-Камминг.

«Не вызывает удивления появление мошеннических сообщений электронной почты, которые часто выглядят совершенно корректными, однако вводят в заблуждение и заставляют людей разглашать персональную информацию. Для человека такие письма представляют наибольшую трудность», — пояснил Грэхэм-Камминг.

«Исследование может помочь сформировать обновленный блок сообщений электронной почты, которые точно классифицированы на предмет того, являются они спамом, или нет, — отметил Грэхэм-Камминг. — К тому же оно может открыть новые знания о попытках мошенничества, которые продолжают буйно развиваться, несмотря на совершенствующиеся средства защиты».