Конфронтационное, противоборствующее или вредоносное машинное обучение (Adversarial Machine Learning, AML) составляет предмет зарождающейся области исследований, занимающейся проблемами обеспечения безопасности с использованием алгоритмов машинного обучения в системах искусственного интеллекта, в том числе методами защиты от потенциальных угроз. В основном рассматриваются угрозы, связанные с возможностью изменения работы моделей машинного обучения путем преднамеренного внесения искажений во входные данные. AML имеет дело с уязвимостями, присутствующими в алгоритмах машинного обучения, поэтому его следует отличать от атак, совершаемых с помощью машинного обучения, равно как и от систем безопасности на его основе.

Автоматизированная камера видеонаблюдения пользуется алгоритмами машинного обучения, в режиме реального времени следя за людьми, входящими и покидающими здание. Мимо здания проходит человек в футболке, однако камера его не обнаруживает: на футболку нанесен специальный рисунок, «скрывающий» человека от камеры. Такой рисунок можно создать и оптимизировать для какой-либо целевой системы, используя методы атак, разработанные в ходе исследований в сфере AML [1].

Одним из первых реальных объектов AML-атак стали системы фильтрации спама. Антиспам-фильтры, работающие с помощью машинного обучения, со временем совершенствуются, запоминая реакции пользователя, который отмечает пропущенные сообщения в качестве нежелательных или, наоборот, переносит в ящик входящих сообщения, расцененные фильтром как спам. Атакующие могут поставить себе на службу процесс обучения спам-фильтра, изменяя содержание нежелательных сообщений, например, путем внесения в них слов, которые обычно присутствуют в легитимных письмах, но отсутствуют в спамерских. В конечном итоге это приводит к тому, что фильтр неверно классифицирует легитимные сообщения с такими словами в качестве потенциально нежелательных. Результативность фильтра существенно снижается, вследствие чего пользователь его отключает. Такое вмешательство называют «атакой отравления» (poisoning attack): злоумышленник проводит манипуляции с обучающими данными, чтобы нарушить («отравить») процесс обучения. Атаки отравления занимают основное место среди всех атак, анализируемых в рамках AML. Первое систематическое исследование в этой области было проведено в 2006 году [2]. Сегодня наиболее активно исследуют AML-атаки, направленные против алгоритмов глубинного обучения, которые широко применяются благодаря своей высокой результативности при решении многих когнитивных задач. В работе [3] приведены результаты обобщающего исследования развития AML за десять лет и описаны механизмы безопасности, действующие по принципу предотвращения атак и устранения их последствий. Методы AML признаны отдельным классом атак в отношении средств машинного обучения. Американский Национальный институт стандартов и технологий (NIST) опубликовал систематизированную таксономию методов AML, в которой перечислены основные технологии такого рода.

Каталог основных AML-атак

Жизненный цикл системы машинного обучения можно поделить на два основных этапа: собственно обучение, когда вводят обучающие данные и настройки для формирования обученной модели, и эксплуатация, когда обученную модель развертывают и она работает с сервисами. В особых случаях (например, при машинном обучении в режиме онлайн, когда модель постоянно обновляется за счет непрерывного ввода рабочих данных и откликов пользователя) рабочая и обучающая стадии чередуются. Классический пример онлайн-обучения — упомянутый механизм действия антиспам-фильтра. С учетом двухэтапного жизненного цикла системы машинного обучения можно выделить пять основных видов AML-атак (см. рисунок).

Основные виды AML-атак. Атаки уклонения и атаки против конфиденциальности готовятся на этапе эксплуатации системы. Они предусматривают манипулирование рабочими данными либо для уклонения от обнаружения, либо для получения конфиденциальных сведений о модели машинного обучения или ее пользователях (например, посредством атаки кражи модели или извлечения данных); при этом для итеративного обновления атакующих выборок обычно требуется обратная связь от модели машинного обучения. Атаки «отравления» и «черного входа» дополнительно требуют от атакующего манипуляций с учебными данными и (или) моделью машинного обучения на этапе ее разработки

Атаки «отравления» (poisoning). При таких атаках выполняются манипуляции с обучающими данными с целью ухудшения результативности работы сервисов машинного обучения (например, «отравление» антиспам-фильтра). Целями таких атак могут быть либо снижение общей производительности системы, приводящее к отказу в обслуживании, либо конкретные ошибки классификации в ходе эксплуатации (например, направленные против определенного пользователя или набора образцов). Атаки отравления проводятся на этапе обучения, то есть атакующему нужна возможность ввода отравляющих образцов данных в обучающую выборку или в обновления модели. Характеристики систем на базе машинного обучения сильно зависят от качества и репрезентативности обучающих наборов данных, поэтому такие системы могут быть очень чувствительны к атакам отравления. В случае с фильтрацией спама, когда результативность падает ниже определенного уровня, сервис становится бесполезным или даже вредным. «Отравлению» подвержены приложения многих типов, в том числе средства обнаружения вредоносных программ и сетевые системы распознавания вторжений.

Атаки «черного входа» (backdoor). Такие атаки проводятся в два этапа. Вначале в атакуемую модель на этапе обучения внедряют специальные паттерны — как правило, путем отравления обучающих данных. Затем, на стадии эксплуатации, атака переходит в активный режим путем передачи целевой модели входных данных, содержащих триггер. В результате модель начинает выдавать неверные выходные данные в соответствии с планом злоумышленника. Например, классификатор дорожных знаков может ошибочно определить знак «стоп» в качестве знака ограничения скорости. На сам знак остановки для этого наклеен специальный стикер, который выполняет роль триггера. Ввиду широкого использования открытых обучающих данных и заранее обученных моделей, они являются уязвимыми для манипуляций и атак черного входа.

Атаки уклонения. Атакующий формирует вредоносные входные данные (образцы) таким образом, чтобы целевая модель машинного обучения выдавала неверные прогнозы. Типичный пример атаки уклонения, направленной против системы компьютерного зрения, — это распознавание содержащего вредоносные шумы изображения собаки в качестве изображения кошки. Другой пример атаки — применение специального рисунка на футболке или оправе очков, который позволяет обходить системы безопасности и биометрической аутентификации. Вероятность проведения атаки уклонения указывает на ограничения модели машинного обучения. Следует также отметить, что вредоносные образцы могут обладать переносимостью: образец, подготовленный для определенной модели, будет эффективным и с другими моделями, которые выполняют такую же или похожую задачу.

Атаки кражи моделей. Такие атаки проводятся на этапе эксплуатации. Отправляя запросы к целевой модели, атакующий может создать ее приблизительный аналог; при этом злоумышленники также могут получить параметры модели, используя уязвимости системы. Применение сочетания методов позволяет проводить мощные атаки уклонения в отношении целевой модели. Атака кражи модели может быть классифицирована как хищение интеллектуальной собственности.

Атаки извлечения данных. В ходе таких атак злоумышленники пытаются выделить обучающие данные с использованием целевой модели или как минимум в ходе ее работы определить, принадлежит ли конкретный элемент данных к учебной выборке. Когда целевые обучающие данные являются конфиденциальными и личными (биометрическая информация, медицинские карты и др.), атаки извлечения ведут к серьезным нарушениям приватности. Например, при наличии возможности отправить запрос к системе распознавания лиц, в ходе подобной атаки можно синтезировать приблизительное изображение лица человека, интересующего злоумышленников.

Разные сервисы и приложения с механизмами машинного обучения уязвимы для различных типов угроз. Например, облачный сервис машинного обучения, использующий очень популярную модель, может быть подвергнут атаке кражи модели с целью непредусмотренного использования ее возможностей. А приложение для конечного устройства, применяющее небольшую модель машинного обучения, может стать мишенью для атаки хищения, в ходе которой атакующие извлекут параметры модели из устройства путем эксплуатации уязвимостей системы.

Примеры AML-атак

Перечисленные далее атаки изначально были разработаны в исследовательских лабораториях, после чего их эффективность была проверена в реальных условиях. Между результатами, полученными в лабораториях, и атаками реального мира имеются определенные различия, но некоторые атаки оказываются весьма успешными. Обычно они осуществляются путем манипуляций с реальными обучающими данными или с помощью воспроизведения исследовательских методов в реальных условиях.

«Отравление» текстового бота. В 2016 году для Twitter был разработан чат-бот Tay, рассчитанный на общение с пользователями 18–24 лет. Бот быстро обучился на онлайн-переписках, но начал выдавать непредвиденные результаты. После взаимодействия с пользователями Twitter, которые «отравили» лексикон бота, он начал сыпать оскорблениями. В итоге всего через 16 часов после запуска Tay пришлось отключить.

Атака уклонения, направленная против системы распознавания речи. Имеются примеры создания вредоносных образцов для автоматизированных систем распознавания речи. В частности, разработана атака на систему автоматизированного преобразования текста в речь Mozilla DeepSpeech. В рамках такой атаки к распознаваемой речи примешиваются практически неслышные шумы, после чего система начинает распознавать любую фразу в качестве одной и той же, выбранной атакующими. Эта атака требует наличия исчерпывающих знаний о целевой модели. Впоследствии была разработана еще одна атака уклонения под названием Devil's Whisper, нацеленная на коммерческие системы распознавания речи. Для реализации этой атаки уже не требуется знание параметров модели. Атака была направлена против следующих облачных сервисов преобразования речи в текст, имеющих собственные API: Google Cloud Speech-to-Text, Microsoft Bing Speech Service, IBM Speech-to-Text и Amazon Transcribe. Была показана возможность проведения данной атаки в отношении голосовых ассистентов и умных колонок Google Assistant, Google Home, Microsoft Cortana и Amazon Echo. Для ее осуществления создавались вредоносные образцы с управляющими вставками, которые на слух невозможно было отличить от «чистых» аудиозаписей. Если бы этим методом воспользовались злоумышленники, они могли бы помимо воли пользователя активировать различные сервисы с помощью неслышных команд.

Атака уклонения в отношении систем компьютерного зрения. Существуют примеры создания вредоносных образцов, направленных против реально применяемых систем классификации изображений и распознавания объектов. Чтобы «скрыть» от классификаторов изображений объекты реального мира, на них наносили распечатки со специальным рисунком. Основным фактором эффективности такой атаки были физические условия, а именно расстояние до объекта и угол зрения. В ходе экспериментов с реальными дорожными знаками была продемонстрирована высокая результативность атаки при нахождении дистанции и угла в определенных пределах. Системы распознавания образов обычно рассчитаны на обнаружение и классификацию множества различных объектов. К примеру, фронтальная камера, установленная на автомобиле, может распознавать и классифицировать дорожные знаки и сигналы светофора. Исследователи разработали рисунки, позволяющие сделать дорожные знаки «невидимыми» для детектора объектов YOLO v2. В ходе экспериментов было показано, что такую атаку можно успешно провести не только в лабораторных условиях, но и на реальной дороге. Несмотря на подобные подтверждения возможности успеха физических атак на модели машинного обучения, на сегодня описаны лишь единичные примеры реальных атак и масштабный анализ их эффективности и возможностей еще не проводился.

Атака уклонения, направленная против лазерных дальномеров. На сегодня созданы трехмерные физические вредоносные образцы. Их проектируют, а затем распечатывают на 3D-принтере. Такой образец позволяет скрыть объект от лазерного дальномера, установленного на автомобиле, а усовершенствованный вариант атаки позволяет распространить «невидимость» и на соседние объекты. Если разместить вредоносный образец наверху автомобиля, он становится частично незаметным для лазерного дальномера, против которого направлена атака.

Атака кражи модели. Такие атаки проводились путем имитации систем машинного перевода Google, Bing и Systran. Их приблизительные подобия были построены с использованием набора данных, включающего запросы к перечисленным системам и их ответы. Конечная цель таких атак — избежать точного машинного перевода. С помощью моделей-копий формируются вредоносные образцы, которые применяются к работающим целевым моделям. Эксперимент, проведенный с машинным переводом с английского на немецкий, показал, что такие вредоносные образцы эффективны при работе с реальными системами. Например, систему Google с помощью вредоносного образца удалось заставить перевести фразу «Спасите, на улице жара больше 102o F!» как «Спасите, на улице больше 22o C!», что соответствует 72o F.

Противодействие AML-угрозам

AML-атаки создают угрозы физической и информационной безопасности, а также конфиденциальности. Важность защиты систем машинного обучения от состязательных атак оценили не только исследователи, интерес к ней проявили бизнес и организации по стандартизации. Перечислим имеющиеся сегодня основные меры противодействия AML-угрозам.

Анализ угроз. В ходе первичного анализа составляется общий обзор потенциальных угроз в отношении сервисов на основе машинного обучения и определяются уязвимые интерфейсы, на которые нужно обратить внимание разработчикам и сервис-провайдерам. Microsoft совместно с некоммерческой организацией MITRE ведет опорную таблицу угроз AML, которую в рамках анализа безопасности можно использовать в качестве справочника по известным на сегодня методам атак против систем машинного обучения. Похожую таблицу, содержащую перечень известных атак и базовых рекомендаций по защите, публикует компания Tencent. По результатам анализа можно выбирать наиболее действенные средства защиты.

Предотвращение угроз. Отдел безопасности искусственного интеллекта Европейского института телекоммуникационных стандартов подготовил технический отчет по стратегии предотвращения угроз ETSI-SAI-005-GR. В нем описаны доступные методы предотвращения основных видов атак, в том числе санация данных, обнаружение вредоносных образцов и усиление модели. Кроме того, в документе описываются и обобщаются существующие методы защиты от AML-угроз, с опорой на которые можно строить стратегии предотвращения, обнаружения и реагирования.

Обеспечение безопасности на этапе проектирования. Подход security by design рекомендован в качестве проактивного механизма безопасности. Защита достигается путем внедрения процессов обеспечения безопасности в жизненный цикл разработки и эксплуатации системы машинного обучения. При этом можно пользоваться методами DevSecOps, реализованными для процессов разработки программного обеспечения. В контексте разработки систем машинного обучения соответствующий процесс дополняется средствами непрерывной интеграции, доставки и обучения, однако этой теме пока посвящено мало исследований. Основные этапы данного подхода: введение требований к безопасности, реализация механизмов обеспечения безопасности и верификация выполнения требований к безопасности. Первый из этих этапов может быть признан обязательным на законодательном уровне, выполнение двух остальных требует мощной технической поддержки, в том числе механизмов усиления и тестирования безопасности.

По мере того как системы машинного обучения становятся частью повседневной жизни, идет прогресс в области разработки инструментов, облегчающих защиту систем от AML-угроз. Однако сейчас в данной области наблюдается «гонка вооружений», так что впереди у нее еще большой путь.

***

С учетом масштабов применения машинного обучения актуальны дальнейшие исследования в сфере AML и интеграции средств предотвращения атак в системы и сервисы на основе машинного обучения. При этом требуется нечто большее, чем просто обеспечение защищенности, — необходимо добиться того, чтобы системам машинного обучения можно было доверять, в связи с чем также требуются соответствующие исследования.

Литература

1. S. Thys, W. Van Ranst, T. Goedeme. Fooling automated surveillance cameras: Adversarial patches to attack person detection. In Proc. IEEE/CVF Conf. Comput. Vision Pattern Recognit. (CVPR) Workshops. — 2019. P. 49–55.

2. M. Barreno, B. Nelson, R. Sears, A. D. Joseph, J. D. Tyger. Can machine learning be secure? In Proc. ACM Symp. Inf., Comput. Commun. Security. — 2006. P. 16–25. doi:10.1145/1128817.1128824.

3. B. Biggio, F. Roli. Wild patterns: Ten years after the rise of adversarial machine learning // Pattern Recognit. — 2018. — Vol. 84. — P. 317–331. doi:10.1016/j.patcog.2018.07.023.

Сяо Ин Линь (lin.hsiao.ying@huawei.com)  —  старший научный сотрудник, Huawei International; Баттиста Биджио (battista.biggio@unica.it)  —  доцент, Университет Кальяри (Италия).

Hsiao-Ying Lin, Battista Biggio, Adversarial Machine Learning: Attacks From Laboratories to the Real World? IEEE Computer, May 2021, IEEE Computer Society. All rights reserved. Reprinted with permission.