Традиционные подходы к обеспечению безопасности ИИ все сильнее расходятся с тем, как на самом деле работают автономные агенты в корпоративных средах. К такому выводу пришли исследователи из Google, Калифорнийского университета в Сан-Диего, Университета штата Висконсин в Мэдисоне и ряда других учреждений. Организации сегодня не в состоянии защитить ИИ-агентов, повышая устойчивость базовых моделей, поэтому контроль безопасности нужно обеспечивать на системном уровне.
Модель искусственного интеллекта, обеспечивающую работу агента, нельзя считать надежным компонентом. Сама по себе защита на уровне промптов и семантические барьеры не в состоянии обеспечить безопасность, если агенты получают доступ к корпоративным инструментам, памяти, API, браузерам и исполняемым средам. Можно провести аналогию с операционной системой, где защиту необходимо выстраивать снаружи, по всему периметру.
Авторы исследования выделяют пять принципов, которых, по их мнению, следует придерживаться: минимум привилегий, обеспечение устойчивости доверенной вычислительной базы, полная проверка, безопасные информационные потоки и учет человеческого фактора.
В качестве доказательства исследователи представили результаты анализа 11 реальных атак на агентов ИИ, сопоставив каждую из них с нарушаемыми принципами. В число этих атак помимо всего прочего вошли: утечка данных из приложения ChatGPT для macOS, утечка кода Claude, уязвимость, приводящая к утечке Copilot в Microsoft, и атака AgentFlayer на Cursor с помощью вредоносного запроса Jira. Во всех 11 случаях был нарушен принцип безопасного обмена информацией, а в большинстве из них – еще и принцип наименьших привилегий.
Чтобы применить указанные принципы на практике, рекомендуется учитывать три важных момента. Во-первых, отделять инструкции от данных, поскольку языковые модели смешивают их в едином потоке токенов, не проводя различия между источниками. Во-вторых, определять политику наименьших привилегий, поддающуюся проверке. Усложняется это тем, что политики безопасности для агентов пишутся на естественном языке и меняются по мере развития, что затрудняет их преобразование в применяемые системой правила. Третий вопрос заключается в организации управления информационными потоками и отслеживании перемещения конфиденциальных данных в рамках модели.
Исследователи поставили под сомнение одно из основных предположений, определявших направленность усилий по обеспечению безопасности ИИ на предприятиях в течение последних двух лет. В соответствии с ним эффективные модели и методы согласования и быстрой защиты в конечном итоге сделают системы ИИ достаточно безопасными для развертывания на предприятии. Авторы утверждают, что к агентам искусственного интеллекта следует относиться скорее как к операционным средам или распределенным системам, чем к обычным корпоративным приложениям, поскольку они сочетают в себе логику, автономность, постоянство памяти и выполнение внешними инструментами на одном операционном уровне.
Гарантии безопасности не могут быть получены исключительно за счет улучшения промптов, тонкой настройки выравнивания или смягчающих мер на стороне модели. Нужна более строгая изоляция, границы исполнения, соблюдение принципа наименьших привилегий и контроль наблюдаемости рабочих процессов.
Существующие инструменты корпоративной безопасности не имеют достаточного представления о том, как ИИ-агенты рассуждают, вызывают инструменты, сохраняют память и выполняют определенные действия на практике. Корпоративные стеки безопасности создавались для мониторинга детерминированных приложений и активности конечных точек, а не для систем, которые способны на автономное планирование, вероятностный анализ и динамическую организацию рабочего процесса.
В ходе испытаний ежедневно отслеживалось более 10 тыс. сеансов ИИ-агентов примерно на 7200 хостах, в результате чего были выявлены сотни инцидентов с утечкой данных, охватывающие 26 категорий атак. В тесте ADR-Bench было обнаружено 67% атак при нулевом количестве ложных срабатываний. По сравнению с тремя базовыми решениями результаты по критерию F1 выросли в 2-4 раза. В общедоступном тесте инъекции промптов AgentDojo при выполнении 93 задач были выявлены все атаки при трех ложных срабатываниях.