OpenAI разрабатывает защиту AI-агентов от атак социальной инженерии

OpenAI разработала комплексный подход к защите AI-агентов от атак типа prompt injection, рассматривая эту проблему через призму социальной инженерии. По мере того как модели становятся более автономными и получают возможность просматривать веб-сайты, читать документы и взаимодействовать с внешними инструментами, способность противостоять манипулятивному контенту становится критической задачей безопасности. Ранние атаки были относительно простыми — например, редактирование статей в Википедии с прямыми инструкциями для AI-агентов. Однако по мере совершенствования моделей атаки эволюционировали, включая элементы социальной инженерии. В 2025 году OpenAI зафиксировала пример атаки через электронное письмо, которое убеждало AI-ассистента извлечь персональные данные сотрудников и отправить их в системы проверки соответствия, выдавая себя за авторизованный запрос. При тестировании такая атака срабатывала в 50% случаев.

Ключевое отличие стратегии OpenAI заключается в том, что компания не полагается исключительно на фильтрацию входных данных, а проектирует системы таким образом, чтобы ограничить последствия манипуляции даже в случае успешной атаки. Этот подход заимствован из практики управления социальной инженерией в отношении людей — например, операторы служб поддержки имеют ограничения на выдачу возвратов и подарочных карт, а системы отслеживают подозрительную активность. OpenAI комбинирует этот социально-инженерный подход с традиционными методами безопасности, включая анализ источник-приемник, который выявляет, как недоверенный внешний контент может объединяться с возможностями агента для выполнения опасных действий.

В ChatGPT реализованы несколько конкретных защитных механизмов. Основной из них — функция Safe URL, которая обнаруживает попытки передачи информации третьим лицам и либо запрашивает подтверждение пользователя, либо блокирует действие, предлагая агенту альтернативный способ выполнения задачи. Аналогичные защиты применяются к навигации в Atlas и поиску в Deep Research. ChatGPT Canvas и ChatGPT Apps работают в изолированной среде, которая отслеживает неожиданные коммуникации и требует согласия пользователя. Кроме того, OpenAI продолжает исследовать уязвимости моделей перед социальной инженерией и интегрирует полученные знания как в архитектуру безопасности приложений, так и в процесс обучения AI-моделей.

Параллельно OpenAI приобрела компанию Promptfoo и интегрирует её технологии в платформу Frontier для построения и управления корпоративными AI-агентами, которая была запущена 5 февраля 2026 года. Технологии Promptfoo обеспечивают автоматизированное красное тестирование, оценку уязвимостей в многошаговых рабочих процессах агентов и непрерывный мониторинг рисков и соответствия нормативным требованиям. Эти инструменты позволяют выявлять слабые места до развертывания и отслеживать потенциальные проблемы безопасности, которые могут быть незаметны при анализе отдельных взаимодействий. Такой комплексный подход отражает растущее понимание OpenAI того, что по мере развития AI-агентов их устойчивость к социальной инженерии должна превосходить человеческую, хотя практическая реализация варьируется в зависимости от конкретного приложения.

Новые технологии и стратегии безопасности позволяют AI-агентам реагировать на манипуляции и защищать конфиденциальные данные пользователей.

Источник: https://openai.com/index/designing-agents-to-resist-prompt-injection/

OpenAI разрабатывает защиту AI-агентов от атак социальной инженерии

Комментарии(0)

Читайте также