Как может лингвистика помочь в организации автоматической защиты от спама?

По данным «Лаборатории Касперского», сегодня от 80 до 97% всех электронных сообщений в Internet — спам. Существуют различные методы борьбы с ним, но ни один из них не дает стопроцентной гарантии защиты. Совместное использование семантических методов с другими способами фильтрации корреспонденции существенно увеличивает эффективность, однако семантический анализ пока не вышел за пороги исследовательских лабораторий. Кроме того, спам многоязычен, и необходимо корректно его отсортировать, не потеряв действительно нужные послания, что особенно важно для бизнес-пользователей, ведущих обширную переписку с зарубежными контрагентами. Однако и это еще не все — организаторы спамовых рассылок, зная, что человек — самое слабое звено в системе защиты, все активнее применяют методы социальной инженерии, что существенно затрудняет отсеивание ненужной почты.

Методы социальной инженерии апеллируют к человеческим слабостям и могут быть очень разрушительными не только в сфере спамовых рассылок. Такие методы психологического воздействия, как обещание легких денег, распространение чего-то бесплатного, игра на чувствах, угрозы и шантаж и т.п., были известны и до появления электронной почты, однако сейчас задача мошенников упростилась — им не приходится лично контактировать с жертвами, круг которых сильно расширился, а главное, спамеры хорошо организованы и обычно выполняют конкретный заказ.

Чтобы спровоцировать нужное действие, достаточно правильно составить письмо. Такие приемы базируются на особенностях человеческого восприятия и лингвистических факторах (особенно в письмах, где отсутствуют такие аспекты, как внешний вид, голос, интонация и т.д., позволяющие распознать подвох). Однако эти техники можно выявить автоматически.

На основе сравнительного и описательного анализов мы провели классификацию спама, проанализировали грамматические, лексические и синтаксические особенности, определили их частотность, выявив, в частности, значительную роль эмотивной лексики, например междометий, не называющих эмоций, а лишь сигнализирующих о них («ах», «ой», «увы»). В результате была построена математическая модель спам-сообщения, которая в большом проценте случаев дает точный результат при автоматическом отсеивании сорных сообщений. В основе этой модели лежит нейронная сеть с применением алгоритма обратного распространения ошибки. Согласно данной модели, задача распознавания спама сводится к следующим этапам.

  1. Определение специфических грамматических средств, используемых спамерами.
  2. Определение эмотивных средств.
  3. Классификация спама.
  4. Построение алгоритма распознавания на основе искусственных нейронных сетей.
  5. Обучение нейронной сети.
  6. Построение парсера (анализатора) предложений (в данный момент — на примере французского языка), позволяющего автоматически определять значения произвольных признаков, используемых при распознавании.

Классификация спама

Среди тематик спама, независимо от языка, доминирует различного рода реклама, торговля товарами (медикаменты) и услугами (туризм и образование), но если приглашения на семинары и симпозиумы, в том числе и мистического плана, популярны почти повсеместно, то, например, предложение выучить английский язык методом «двадцать пятого кадра» будет чаще встречаться в российском сегменте Сети. На российском рынке также часто встречаются предложения о ликвидации фирм или оптимизации налогообложения, но такие темы не столь привлекательны в других странах.

Всю рекламу можно подразделить на две категории: реклама, носящая ярковыраженный эмоциональный характер, и информационная. В первом случае сообщение начинается с броского заголовка — обычно это достигается за счет особого синтаксиса: вопросительного или восклицательного предложения, а на уровне лексики — слова, относящиеся к сфере коммерции. Информационная реклама в спам-письмах отличается от легальных сообщений обилием местоимений, ссылок и множества восклицательных предложений, а также форм Imperatif (повелительное наклонение), Futur Simple (простое будущее), Infinitif Present (инфинитив настоящего времени) в сочетании с глаголом в Present (настоящее время). Это связано с тем, что читатель воспринимает действие, выраженное глаголом в изъявительном наклонении, как реальное, а следовательно, подсознательно не сомневается в том, что оно должно сбыться (подразумевается, что это случится обязательно). В случае использования прямого императива (повелительного наклонения) спамер «отдает приказ», который также «не обсуждается» («закажи сейчас», а не «вы можете заказать»). Оба приема широко применяются как в рекламе, так и в социальной инженерии.

Популярны также предложения быстрого заработка, фишинг (цель — получение конфиденциальной информации, обычно рассылка ведется от имени банка или другой реально существующей организации), цепочечные письма («письма счастья» и страшилки), «нигерийские письма» и письма, якобы пришедшие не по адресу. Сообщения этой группы нацелены на такие свойства человеческой натуры, как жадность, любопытство (интересно посмотреть, что могли отправить другому адресату), лень (нежелание перепроверить поступившую информацию), доверчивость (легальные организации не просят пароли и pin-коды), скука.

Реклама, предложения быстрого заработка и фишинг маскируются под легальную рассылку и очень похожи на личную переписку, поэтому их сложнее отфильтровать. Сам факт массовости здесь не скрывается, а даже используется в качестве «прикрытия». Типичными для такого рода спама являются предложения перейти по ссылке «если сообщение не отображается правильно, нажмите сюда», «если вы не хотите больше получать подобные сообщения, нажмите сюда». Часто вам «объясняют», почему вы получили это письмо: «Вы получили это сообщение, так как вы зарегистрированы на Amoureux.com». Фильтрация таких рассылок осуществляется по ключевым словам и не представляет особых сложностей.

Доля спама, замаскированного под личную переписку, относительно невелика, но к нему следует относиться с большей осторожностью — существует опасность потери нужного письма, а сам процесс фильтрации довольно сложен. Зачастую даже человеку сложно определить, является ли сообщение спамом.

Метод Франт

Обычно фильтры, анализирующие контент, делают акцент на лексическом аспекте языка, в то время как метод Франт ориентирован на грамматику.

Одним из универсальных признаков спама является процентное содержание местоимений и притяжательных детерминативов (показателей при существительном, выражающих грамматическое значение определенности, например артикли, местоименные прилагательные) в общем числе словоформ. Просматриваются следующие тенденции.

  • Существует обратная зависимость между содержанием местоимений и притяжательных детерминативов и объемом письма, например, в личных письмах, приближенных к сообщениям, можно встретить до 50% местоимений и притяжательных детерминативов: «ma chere ca va?» («как дела, дорогая?»).
  • Разные слои населения в различной степени употребляют местоимения, например, молодежь активнее использует местоимения (10-30%),чем взрослые люди(12-15%). В официальных и сгенерированных письмах доля местоимений относительно низка(5-10%).

Всю входящую корреспонденцию можно разделить на пять категорий: спам; сгенерированные письма, не являющиеся спамом (легальные рассылки, различные почтовые уведомления и т.д.); короткие письма; обычные письма (как деловые, так и личные); письма молодежи. Как видно из таблицы, несмотря на то что классификация построена по различным признакам и достаточно условна, она хорошо отражает названные зависимости.

По доле местоимений и содержанию эмотивных слов спам перекрывается с легальной почтой в зоне сгенерированных писем — в письмах, написанных людьми, их 3-5%, в то время как в сгенерированных он колеблется около нуля. Как правило, в спаме количество эмотивных слов не превышает 1%.

Полученные признаки тесно связаны с тематикой и структурой сообщения. Так, нигерийские письма составлены согласно узусу (общепринятому носителями конкретного языка употреблению языковых единиц) деловой переписки, но если для официальной переписки характерно использование конструкции a l’attention de (такому-то) с указанием должности или фамилии, то в спам-письмах мы видим a votre attention (вам). Очевидно, что такой признак неприменим для рекламного спама или для писем счастья. Узуальное употребление прямого императива ограничено во французском языке, так как считается недостаточно вежливой формой, но почти повсеместно встречается в спаме. Это связано с тем, что спамер стремится контролировать действия получателя письма и пытается лишить его выбора (особенно часто он встречается именно в цели сообщения). То же самое касается форм изъявительного наклонения. Действие, выраженное формой реального времени, мыслится как реальное («когда будет написана статья», а не «если статья будет написана»). В рекламном спаме, как правило, присутствует предложение больше не получать подобные письма. Если пользователь решит воспользоваться этой «услугой», то, во-первых, спамер узнает, что адрес действующий, а во-вторых, перейдя по ссылке, пользователь может загрузить себе вредоносный код.

Лингвистика против социальной инженерии

В результате исследований была разработана программа, способная по введенным признакам определить, является ли сообщение спамом. Используемая в ней нейронная сеть работает с десятком основных признаков: процентное содержание местоимений и притяжательных детерминативов; процентное содержание эмотивной лексики; наличие обращения; наличие ссылки; наличие списков; использование императива; наличие символа "@"; предложение больше не получать такие письма; письмо начинается с вопросительного или восклицательного предложения; графическое выделение отдельных слов.

Программа работает в режиме обучения и тестирования, а сам алгоритм основан на трехслойном персептроне Розенблата (Розенблат Ф. Принципы нейродинамики. — М.: Мир, 1965). Существует возможность распараллелить вычисления для уменьшения времени работы алгоритма. Одним из преимуществ данного метода является расширяемость — алгоритм будет продолжать работать и при увеличении количества признаков.

Построенная модель контентной фильтрации позволяет с большой точностью определить, является ли сообщение спамом. На контрольной выборке результат оказался достоверным в 95% случаев. При этом пропускается 1% спам-сообщений. Число ложных срабатываний составляет 4%. Все ложные срабатывания относятся к сгенерированным письмам, что связано с их лингвистическими особенностями. Кроме того, зачастую сами пользователи относят подобные письма к спаму. Это так называемая промежуточная зона — «полуспам».

Поскольку предложенный метод акцентирует грамматический аспект и практически не учитывает лексику, можно интегрировать его с обычными спам-фильтрами.

Рассмотрим следующий пример.

Cher(e) Je me nomme <…> Des l’arrivee de ces fonds en dans votre pays, vous allez les recupwrer et les sauvegarder et engager les demarches pour m’aider а venir m’etablir dans votre pays. J’ai prevu pour vous les 15 % du montant total de mes biens. Repondez-moi le plus tot possible. Veuillez m’excuser pour les fautes d’autographe car ma langue maternelle est I’ANGLAIS. Aicha Sankoh. EMAIL: aicha sankoh01@yahoo.fr

Уважаемый(ая), меня зовут <…> Как только деньги придут, вы заберете их себе и будете хранить до моего приезда в вашу страну. Я предлагаю вам 15% от всей суммы. Ответьте мне как можно быстрее. Извините за орфографические ошибки. Мой родной язык — АНГЛИЙСКИЙ. Аиша Санко, EMAIL: aicha sankoh01@yahoo.fr

В обращении отсутствует имя (должность), используется форма прямого императива: Repondez-moi. Кроме того, мы видим, что есть выделенные слова: I’ANGLAIS, EMAIL. Доля местоимений и притяжательных детерминативов в этом сообщении составляет 7%. Доля слов, носящих эмоционально-оценочный характер, — 1%. Обученная нейронная сеть показывает, что это сообщение является спамом с коэффициентом 0,697, а не спамом — с 0,287.

Некоторые из полученных признаков не связаны с языком, на котором написано сообщение, другие же напрямую зависят от национального языка и узуса. Это позволяет утверждать, что спам обладает как универсальными характеристиками (предложение больше не получать подобные письма существуют на многих языках), так и уникальными (содержание местоимений и притяжательных детерминативов не будет показательным, к примеру, для русского языка, так как в нем отсутствует категория детерминации). Признаки, связанные со строением французского языка, можно распространить на романские языки. Остальные признаки связаны с особенностями мышления человека в целом, а значит, могут быть применены к различным языкам нероманского происхождения.

***

Полученные результаты позволяют говорить о том, что существуют предпосылки для создания спам-фильтра нового поколения, основанного на языковых особенностях нежелательных писем и более эффективного, чем широко используемые сегодня методы.

Юрий Айдаров (aydarov@psu.ru) — старший преподаватель, Лиана Ермакова (liana87@mail.ru) — ассистент кафедры процессов управления и информационной безопасности Пермского государственного университета.


Международная конференция по проблемам компьютерной безопасности

Задача ежегодной конференции IT-Security Conference for New Generation — объединить специалистов, молодых ученых и исследователей, изучающих проблемы компьютерной безопасности, для обмена опытом, развития инноваций и культуры защиты информации.

Конференция (www.kaspersky.ru/it_security_conference_about), организованная международной группой компании «Лаборатория Касперского» при содействии издательства «Открытые системы» призвана также обеспечить поддержку молодых ученых, проводящих исследования в области информационной безопасности. К участию приглашаются студенты высших учебных заведений, аспиранты и молодые ученые.

В очном туре первой конференции, прошедшей в августе 2008 года, приняли участие 18 работ, в заочном — 37. Победителем стала Лиана Магдановна Ермакова из Пермского государственного университета с докладом «Методы автоматизации семантического анализа нежелательной массовой почтовой рассылки в сети Интернет на французском языке», по материалам которого была подготовлена данная статья.