Искусственный интеллект у всех на слуху, а глубинное обучение наделяют чуть ли не волшебными возможностями. Но это не магия, а сложная методика ассоциативного обучения на основе алгоритмов и достаточного набора данных. При этом нынешний прогресс в значительной степени обусловлен ростом мощности процессоров и резким увеличением объемов доступных данных, а не каким-то особым прорывом в научных исследованиях [1].

Популярность машинного обучения способствует росту его применения, причем часто лишь под влиянием ажиотажа и без должного понимания принципов действия. Однако подобные внедрения сопряжены с систематическими рисками, которые нужно учитывать еще на этапе разработки систем машинного обучения.

Таксономия атак

Специалисты по информационной безопасности давно начали создавать такие таксономии [2]. Основанные на реальных данных, они служат ориентиром для инженеров при выборе компромиссов в процессе проектирования систем.

Сегодня во всем мире работает множество систем машинного обучения — от «прозрачных ящиков», имеющих полностью открытый код и обученных на общедоступных данных, до «черных», получающих входные данные по закрытым протоколам после обработки неустановленными функциями преобразования и передающих результаты через проприетарные API. Между двумя этими крайностями есть другие варианты, в том числе системы машинного обучения с открытым кодом, но проприетарными гиперпараметрами и обучающими данными, а также «черные ящики», действующие по принципу переноса обучения с «прозрачных ящиков» [3].

Атаки против систем машинного обучения можно поделить на два вида: манипуляции — изменение поведения системы путем модификации входных данных, обучающих данных или самой модели; атаки извлечения, в ходе которых происходит незаметное получение из системы конфиденциальной информации. Кроме того, можно классифицировать атаки по их направленности: на входные данные, на обучающие данные и на модель. Таким образом, можно построить таксономию из шести категорий (см. таблицу).

Обеспечение безопасности систем машинного обучения

Атаки в виде манипуляций с входными данными (другие названия: «состязательный пример» — adversarial example, «атака уклонения» — evasion attack) описаны достаточно подробно. Атакующий создает входные данные для действующей системы, и при обработке выдается не тот результат, на который рассчитывали создатели системы: неверная классификация знака остановки, ошибочная идентификация спама, неверная интерпретация высказываний.

Атаки манипуляции с обучающими данными («атаки отравления» — poisoning, или каузативные атаки — causative) воздействуют на рабочую модель в процессе обучения. Злоумышленник модифицирует корпус данных, применяемый для обучения системы, с целью влияния на ее дальнейшее поведение. Например, атакующий может опубликовать неверные данные для искажения процессов медицинской диагностики или финансового прогнозирования. Печально знаменит случай с ботом Tay, созданным в исследовательском подразделении Microsoft, которого интернет-тролли превратили в расиста путем манипуляции с учебными данными.

Вместе с тем мало известно об атаках путем манипуляций с моделями, хотя теоретически такой пример легко представить: атакующий публикует модель — «прозрачный ящик», в которую заложено некоторое скрытое поведение с расчетом на то, что испорченной моделью воспользуются третьи стороны. Этот тип атак определенно заслуживает внимания с учетом роста применения методики переноса обучения, а также в связи с тем, что в мире машинного обучения принято публиковать код и параметры модели по нестрогим лицензиям Open Source.

Когда результаты работы модели общедоступны, а входные данные хранятся в секрете, возможны атаки извлечения входных данных («атаки инверсии модели» — model inversion) из доступных источников: выяснение сведений из медицинских карт по дозировке, рекомендованной моделью; синтез узнаваемого изображения лица по таким скудным данным, как результат классификации и рейтинг уверенности модели распознавания лиц.

Атаки извлечения обучающих данных (разновидность атак инверсии модели) нацелены на получение сведений о корпусе данных, используемых при обучении модели. Следует отметить, что исследования в сфере машинного обучения фокусируются больше на самих принципах обучения, чем на обучающих данных, которые в неменьшей степени влияют на поведение модели. При этом реально применяемые системы нередко включают частные и другие конфиденциальные данные.

Атаки извлечения модели могут быть направлены против любых систем машинного обучения, не являющихся полностью прозрачными. Цель таких атак — открыть «ящик» и скопировать поведение или параметры. Например, кража частной модели, которая в результате становится прозрачной для злоумышленника, позволяет ему провести соответствующие атаки.

Внутреннее представление данных в системах машинного обучения оказывает большое влияние на их безопасность, и для предотвращения атак необходим контроль над входными данными, результатами их обработки и внутренним представлением.

Системы машинного обучения обычно проверяют на наборе данных, взятом из того же распределения, что и обучающая выборка. Это позволяет предотвратить подгонку под конкретные примеры из массива данных для тренинга, однако при этом отсутствуют какие-либо гарантии относительно генерализации для других распределений рабочих данных. Именно эту слабую сторону используют атаки манипуляции с входными данными — они направлены на ту область их пространства, для которой неизвестно поведение системы. При этом в ходе атак манипуляции с данными учебное распределение изменяется так, чтобы соответствовать целям атакующего. Предотвратить такие атаки поможет знание внутреннего представления информации в системе для всего возможного пространства входных данных, а не только обучающего распределения. Представления, характеризующиеся нестабильностью, уязвимостью для коррекции, могут быть легко и незаметно искажены, поэтому оптимизация принципов представления данных позволяет улучшить безопасность систем машинного обучения.

Улучшение принципов представления данных не только будет способствовать устойчивости к динамическим состязательным атакам, но и поможет в более сложных ситуациях. Такая система будет защищена от катастрофических отказов, когда данных мало или они слишком «шумные», особенно при работе в условиях, сильно отличающихся от учебных.

Принципы представления данных играют большую роль в целом ряде смежных областей и хорошо исследованы. Например, в численных методах и статистике подробно описаны явления некорректной постановки задачи, коллинеарности и выпадающих значений. Их негативное влияние на результаты вычислений моделируется в рамках таких концепций, как число обусловленности и статистический рычаг (леверидж), а затем компенсируется при помощи методов регуляризации и обнаружения выбросов.

Чрезмерная сосредоточенность на методах обучения без учета вариативности представления данных может повысить риски, связанные с применением систем машинного обучения, — следует, опираясь на достижения в смежных областях, дополнительно исследовать проблему представления данных, что позволит систематически улучшать безопасность.

Методы распознавания аномалий можно применять непосредственно к входным данным, используя какую-либо меру их типичности — как в период обучения, так и на этапе эксплуатации модели. Во время обучения это позволит защититься от аномальных входных данных с большим левериджем, способных «отравить» модель. В процессе рабочего применения («инференса» в случае искусственных нейронных сетей) распознавание аномалий поможет при оценке типичности тестовых входных данных по сравнению с учебными — таким путем можно независимо от модели оценивать вероятность того, что система машинного обучения будет работать, как запланировано. В обоих случаях показатели аномальности, соответствующие наблюдаемому дрейфу данных, могут указывать, в каких случаях происходит интерполяция, а в каких — экстраполяция.

При помощи специального преобразования входных данных можно защититься от атак манипуляции. Сырые входные данные могут иметь большую вариативность, нерелевантную по отношению к решаемым задачам. Как следствие, система машинного обучения может включать часть этой избыточной информации в «заученных» ею скрытых представлениях данных — вредная, лишняя информация будет примешиваться к полезной, и система может стать уязвимой для атак. Например, легкий шум на изображении способен вызвать серьезные ошибки классификации при работе системы распознавания, которая принимает черепаху за огнестрельное оружие, а знак остановки — за знак ограничения скорости. Известные атаки манипуляции с входными данными как раз полагаются на такой незначительный шум, используя его перемешивание со значащим сигналом в выученном представлении.

Это явление давно известно. Например, в задачах линейной инверсии при устранении размытости изображений некорректный числовой оператор недостаточного ранга нельзя при наличии шума инвертировать без учета представления. Информацию из подпространств, связанных с малыми сингулярными значениями, нужно ослаблять или отбрасывать, что необходимо учитывать при разработке систем машинного обучения.

Биологические сенсорные системы постоянно снижают воздействие лишних данных и отбрасывают их — например, данные телеметрии, выходящей за диапазон частот, доступных органам слуха и зрения человека. Прием сырых входных данных биологическими системами ограничен требованиями конкретных задач, возможностями и рисками. Такие ограничения обусловили эволюцию систем зрения и слуха различных видов млекопитающих, птиц и насекомых (у разных видов живых существ они отличаются по многим характеристикам).

Забота о защищенности систем машинного обучения на этапе их проектирования должна опираться на знание особенностей архитектуры обеспечения безопасности, в том числе особенностей используемых представлений данных, а также допускать возможность инженерных компромиссов. Кроме того, нужно предусматривать последствия интеграции системы машинного обучения в более крупную систему. Авторы множества работ по безопасности и конфиденциальности систем машинного обучения в основном уделяли внимание вопросам эксплуатации, акцентируясь на проблемах защиты действующих систем и сохранения целостности их данных. Теперь на очереди решение глобальной задачи разработки принципов анализа архитектуры типичной системы машинного обучения с точки зрения рисков. В ходе такого анализа должны учитываться типичные ошибки проектирования.

***

Защита современной системы машинного обучения должна обеспечиваться еще на этапе ее создания. При этом следует полагаться на таксономии известных атак и применять методы анализа архитектуры с учетом возможных рисков и внутреннего представления данных.

Литература

1. Y. LeCun, Y. Bengio, G. Hinton. Deep learning // Nature. — 2015. — Vol. 521. — P. 436–444. doi: 10.1038/nature14539.

2. G. McGraw, G. Hoglund. Exploiting Software. Reading, MA: Addison Wesley, 2004.

3. B. Wang, Y. Yao, B. Viswanath, H. Zheng, B. Y. Zhao. With great training comes great vulnerability: Practical attacks against transfer learning. In Proc. 27th USENIX Security Symp., 2018. — P. 1281–1297.

Гари Макгроу (gem@garymcgraw.com), сооснователь; Ричи Бонетт (richiebonett@gmail.com), Харольд Фигероа (harold.figueroa@gmail.com), Виктор Шепардсон (victor.shepardson@gmail.com) — научные сотрудники, Институт машинного обучения в Берривиле.

Gary McGraw, Richie Bonett, Harold Figueroa, Victor Shepardson, Security Engineering for Machine Learning. IEEE Computer, August 2019, IEEE Computer Society. All rights reserved. Reprinted with permission.