Исследование AI Threat Intelligence and Security Research, проведенное компанией Cisco для изучения угроз, связанных с ИИ, показало, что ориентация исключительно на опубликованные стандарты безопасности может привести к систематической недооценке масштабов потенциальных инцидентов. Именно такой подход к оценке закрытых моделей ИИ перед их приобретением и внедрением широко распространен во многих организациях.
В опубликованном Cisco отчете сопоставляются результаты одношагового (single-turn) и многошагового (multi-turn) состязательного тестирования 15 закрытых (проприетарных) моделей, разработанных OpenAI, Anthropic, Google, Amazon и xAI. В ходе тестирования выполнено 30090 одношаговых запросов и 6986 многошаговых атак. Выяснилось, что эти подходы дают разные рейтинги моделей, а также различные карты уязвимостей и профили рисков. Каждая протестированная модель не справилась с существенной долей многошаговых атак.
Основные выводы исследования:
— вероятность успешной многошаговой атаки (attack success rate, ASR) варьировалась от 7,89% до 88,30 % для всех 15 моделей, в то время как этот показатель одношаговой атаки составлял от 2,19% до 64,91%;
— в 8 из 15 моделей разница между результатами тестирования в двух режимах — более 15%;
— семейство моделей Anthropic Claude показало наименьший показатель ASR при одношаговых атаках (от 2,19% до 3,64%), но продемонстрировало от 11,16% до 16,20% при многошаговых атаках;
— максимальное число ошибок безопасности в одношаговых атаках наблюдалось в трех сценариях тестирования: взвешенное значение ASR в 37,50% получено при имитации доверенного пользователя, заставляющей модель «притворяться» другой системой (Imposter AI), 29,21% — показатель «мягкого» перефразирования для маскировки вредоносного запроса (Soft Paraphrase) и 27,7% — изменения системных инструкций (System Prompts).
Проведенная ранее оценка восьми LLM с открытым исходным кодом, опубликованная Cisco в ноябре 2025 года, показала, что вероятность успеха многошаговых атак в 2–10 раз выше, чем одношаговых. По данным отчета, многошаговая уязвимость — это структурное свойство современных систем ИИ, независимо от того, являются ли веса модели общедоступными или проприетарными, а также от приоритета при разработке — в безопасности или функциональности. Риск значительно возрастает, когда те же модели используются в агентских рабочих процессах.
Полученные результаты ставят под сомнение распространенное представление о закупках корпоративного ИИ, поскольку практически безопасных моделей не существует. Компаниям не следует выбирать модель только по одношаговым рейтингам или заявлениям вендоров о безопасности, им нужны собственное многошаговое тестирование и оценка реальных сценариев использования модели. Вне зависимости от того, какую ИИ-модель выберут в организации, необходимы средства ограничения ее поведения в реальном времени (runtime guardrails), меры безопасности на уровне приложений и тестирование перед развертыванием, утверждают в Cisco.