Машинное обучение против фрода

Большие денежные потоки, миллиарды транзакций и платежных операций для миллионов клиентов создают благоприятные условия для охотников за содержимым чужих банковских счетов. Действия мошенников наносят не только прямой материальный ущерб, но и подрывают доверие к финансовому учреждению, нанося серьезный удар по его репутации. Значительно увеличилось сегодня количество целевых атак, при которых выбирается конкретная жертва, а сама атака тщательно готовится и проводится разными группами злоумышленников, специализирующимися на конкретном виде деятельности: разработке и продаже вредоносного кода, взломе каналов связи, обналичивании и пр., что приводит к появлению новых схем мошенничества.

По способу воздействия на банковские системы фрод делится на внешний и внутренний, в котором задействованы сотрудники банка. Фрод также можно разделить по каналам его реализации: отделения банка — неправомерное совершение расходных операций по счету, мошенничество с зачислением компенсаций, выплат, возмещений, временное заимствование средств, незаконные операции со «спящими» счетами, сторнирование; банковские и платежные карты — скимминг (компрометация карты в платежных терминалах и АТМ), CNP-фрод (Card Not Present, компрометация данных карты при осуществлении покупок в Интернете); фишинг — введение в заблуждение клиента для осуществления расходных операций; дистанционное банковское обслуживание — компрометация канала, изменение клиентской информации, несанкционированные переводы, подмена реквизитов получателя в платежном поручении и пр. Для каждой из мошеннических схем характерны свои действия по подготовке, реализации и выводу и обналичиванию денег, обусловленные особенностями канала обслуживания, способом компрометации, составом похищенных данных и пр.

Наиболее эффективный способ защиты от внешних и внутренних мошенников — применение кросс-канальных систем противодействия мошенничеству, способных контролировать платежные и сессионные операции клиентов банка, оценивать действия сотрудников банка, быстро выявлять новые схемы мошенничества в различных каналах обслуживания, а также препятствовать выводу средств со счетов клиентов. Главная особенность кросс-канальной системы противодействия мошенничеству — это возможность агрегировать большие объемы данных из различных источников, что позволяет видеть операции в контексте действий клиента и сотрудника в различных каналах. Основные задачи кросс-канальной системы противодействия мошенничеству:

анализ и обработка потоков финансовых и нефинансовых операций, совершенных в различных системах;
применение бизнес-правил и алгоритмов для обнаружения подозрительной активности;
выявление нехарактерных для клиента или сотрудника моделей поведения;
выявление последовательности событий, обладающих признаками мошенничества;
предоставление удобных инструментов для проведения расследований и анализа данных.

Основываясь на опыте, полученном при выполнении проекта в одном из крупных российских банков, разберем основные подходы к созданию систем антифрода на базе средств машинного обучения.

Для обнаружения мошеннических операций традиционно широко используются экспертные системы, содержащие множество статистических правил и логических выражений, направленных на выявление подозрительных транзакций, однако такой подход имеет ряд недостатков.

Большое число ложных срабатываний. Аналитики банка способны проверить вручную лишь ограниченное количество подозрительных случаев — их расследование отнимает значительные ресурсы, а блокировка легитимных операций, ошибочно принятых за мошеннические (false positive), создает неудобства для клиентов и снижает доверие к банку.
Невозможность вручную выявить все закономерности и обнаружить мошенничество по новым схемам. Схемы атак и особенности профилей злоумышленников и их жертв для различных каналов мошенничества могут кардинально отличаться.
Сильная зависимость от экспертизы антифрод-аналитиков. Системы, основанные на наборе правил, целиком зависят от опыта аналитика и не способны автоматически учитывать результаты расследований предыдущих срабатываний.

Использование методов машинного обучения совместно со статистическими правилами помогает снизить риски, связанные с ограничениями экспертных систем, — в частности, сократить количество случаев, когда легитимные транзакции ошибочно определяются как мошеннические, и увеличить число успешно выявленных действительно мошеннических транзакций (true positive). Алгоритмы машинного обучения позволяют обнаружить неочевидные для человека зависимости, быстро анализируя огромные объемы данных.

Для обнаружения фрода используются алгоритмы обучения как с учителем (supervised learning), так и без учителя (unsupervised learning). В первом случае речь идет в основном об алгоритмах классификации, когда имеется обучающая выборка с заранее известными ответами, а во втором — таких ответов нет. Последовательности транзакций могут быть рассмотрены как текст, и тогда оказываются полезны методы анализа текстовых данных и обработки естественного языка (Natural Language Processing, NLP).

С помощью алгоритмов классификации, обучив модель на исторических данных, можно прогнозировать вероятность, с которой транзакция может оказаться мошеннической. Различать типы мошенничества поможет применение двух подходов: бинарной и многоклассовой классификации. При этом используются следующие основные алгоритмы: случайный лес (Random Forest) [1]; градиентный бустинг (Gradient boosted models) [2]; логистическая регрессия (Logistic Regression) [3]; наивный байесовский классификатор (Naive Bayes) [4]; машины опорных векторов (Support Vector Machines).

Для работы алгоритмов классификации необходимо иметь набор данных, например за какой-то ограниченный период времени, с подтвержденно мошенническими и легитимными транзакциями. Однако при разметке транзакций неизбежно возникают сложности: делать это часто приходится вручную по информации, взятой из актов расследований мошенничества за выбанный для построения моделей период. Выборку мошеннических транзакций можно получить и с помощью машинного парсинга (автоматического синтаксического разбора) документов расследований, но из-за их слабой структурированности хорошего качества такой выборки добиться сложно.

При обучении с учителем неизбежна несбалансированность классов: количество легитимных транзакций в сотни тысяч раз превышает число мошеннических. В таком случае используются следующие методы: балансировка данных (undersampling и oversampling); фильтрация (отсечение системных операций и транзакций на нулевые суммы и т. д.); обогащение выборки путем «доразметки» дополнительных транзакций, с высокой вероятностью определенных экспертом как мошеннические. Кроме того, применяются методы частичного обучения (semi-supervised learning), в которых используются как транзакции, для которых известно, являются они фродом или нет, так и транзакции, для которых этого ответа нет.

Для решения задач обучения без учителя мы не используем разметку обучающей выборки на целевые классы — подходы этой группы ориентированы на обнаружение взаимосвязей, закономерностей и аномалий в данных. Сильная несбалансированность классов — весомый аргумент в пользу использования именно обучения без учителя, при котором выделяются группы объектов, непохожих на большинство остальных, что позволяет сузить область поиска. Основные подходы включают кластеризацию и поиск аномалий (выявление выбросов и новизны). С помощью кластеризации объекты в выборке разделяются на группы (кластеры) — принадлежность транзакции к конкретному кластеру может быть добавлена как один из признаков в обучающую выборку либо использована для выявления групп объектов, сильно отличающихся от всех остальных. Поиск аномалий включает выявление выбросов в обучающей выборке и новых объектов, отсутствующих в данных на обучении, которые мы определяем как непохожие на объекты выборки.

Для кластеризации в задачах определения фрода наиболее эффективны алгоритмы K-means [1] и DBSCAN [5], для сокращения размерности пространства признаков используются методы PCA и DPCA, а отсечения подозрительных точек лучше проводить с помощью оценки статистик Q и T2.

Обнаружение выбросов и новизны в данных — это поле для таких методов, как сингулярное разложение (Singular Value Decomposition), изолирующий лес (Isolation Forest) и др.

Последовательности транзакций могут быть рассмотрены как текст, и здесь часто используются методы TF-IDF [1], word2vec, латентное размещение Дирихле (LDA) и рекуррентные нейронные сети (Recurrent Neural Networks) [6].

Для решения задачи выявления внутреннего мошенничества в банке-заказчике мы разработали модели детектирования операторов-мошенников и счетов, владельцы которых стали жертвами злоумышленников. Были подготовлены наборы признаков для счетов и операторов. Наиболее значимыми оказались признаки, основанные на последовательностях действий в рамках мошеннических схем. Применение таких моделей позволило в пять раз по отношению к базовым показателям простых моделей увеличить число обнаруженных мошеннических транзакций.

***

При решении задач выявления мошенничества большое значение имеют предварительный тщательный анализ данных и выбор правильной методологии построения и валидации эффективности моделей, так как в противном случае велика вероятность того, что придется провести переобучение моделей. Не существует одного стандартного решения, которое бы одинаково хорошо подходило для любых задач выявления мошенничества, — в каждом конкретном случае необходим индивидуальный подход, учитывающий все особенности проблемы и требования к работе системы борьбы с фродом.

Литература

Виктор Китов. Практические аспекты машинного обучения // Открытые системы.СУБД. — 2016. — № 1. — С. 14–17. URL: https://www.osp.ru/os/2016/01/13048648 (дата обращения: 28.05.2017).
Игорь Кураленок, Александр Щекалев. GPU в задачах машинного обучения // Открытые системы.СУБД. — 2013. — № 8. — С. 44–46. URL: https://www.osp.ru/os/2013/08/13037858/ (дата обращения: 28.05.2017).
Константин Буров. Обнаружение знаний в хранилищах данных // Открытые системы.СУБД. — 1999. — № 5–6. — С. 67–77. URL https://www.osp.ru/os/1999/05-06/179852 (дата обращения: 28.05.2017).
Леонид Черняк. Новая жизнь старой теории // Открытые системы.СУБД. — 2008. — № 3. — С. 58–61. URL: https://www.osp.ru/os/2008/03/5017152/ (дата обращения: 28.05.2017).
Венкатеш Ганти, Йоханнес Герке, Раджу Рамакришнан. Добыча данных в сверхбольших базах данных // Открытые системы.СУБД. — 1999. — № 9–10. — С. 53–60. URL: https://www.osp.ru/os/1999/09-10/177842 (дата обращения: 28.05.2017).
Жианчанг Мао, Энил Джейн. Введение в искусственные нейронные сети // Открытые системы.СУБД. — 1997. — № 4. — С. 16–24. URL: https://www.osp.ru/os/1997/04/179189/ (дата обращения: 28.05.2017).

Василий Зайченко (VZaychenko@technoserv.com) — руководитель направления по противодействию мошенничеству центра компетенций по информационной безопасности, Марина Земскова (MZemskova@technoserv.com) — аналитик баз данных, департамент больших данных, «Техносерв» (Москва).