OpenAI представляет IH-Challenge для улучшения иерархии инструкций

OpenAI представила датасет IH-Challenge, предназначенный для обучения больших языковых моделей (LLM) строгому приоритету инструкций, чтобы повысить безопасность и устойчивость к атакам типа prompt injection. Исследование опубликовано 10 марта 2026 года и фокусируется на проблеме конфликтующих директив от различных источников: системных политик безопасности, указаний разработчиков, запросов пользователей и данных из внешних инструментов. Модели должны следовать иерархии System > Developer > User > Tool, где более высокоприоритетные инструкции имеют абсолютный приоритет, а низкоприоритетные игнорируются при противоречии. Например, если системный промпт запрещает обсуждение темы, модель обязана отказать пользователю, даже при вежливой формулировке запроса; аналогично, вредоносные инструкции в выводах инструментов должны быть проигнорированы.

Разработка IH-Challenge решает ключевые проблемы традиционного обучения с подкреплением (reinforcement learning). Ранее методы страдали от маскировки ошибок следования инструкциям под иерархические сбои, субъективности оценок LLM-судей и "переотказов" — склонности моделей отвергать безвредные запросы ради безопасности. Новый датасет использует простые задачи с объективной проверкой через Python-скрипты: высокоприоритетная инструкция (например, "Отвечай только 'Да' или 'Нет'") за ней следует низкоприоритетная, пытающаяся её нарушить. Это исключает тривиальные обходные пути и обеспечивает обобщение на реальные сценарии. По сравнению с подходом на базе GPT-3.5 Turbo 2024 года, IH-Challenge добавляет четвёртый уровень (developer) и автоматизированную верификацию, устраняя неточности LLM-оценок.

Внутренняя модель OpenAI GPT-5 Mini-R, обученная на IH-Challenge, показала значительные улучшения по бенчмаркам: повышенная safety steerability (лучшее следование системным политикам без излишней осторожности), устойчивость к prompt injection и сохранение общих возможностей. OpenAI подчёркивает, что это фундаментально для безопасности автономных AI-агентов, интегрируемых с внешними данными. Для рынка последствия позитивны: разработчики получат более надёжные модели, минимизируя риски утечек данных и нарушений политик; пользователи — полезные ответы без ложных отказов. В отрасли это усилит конкуренцию, стимулируя Anthropic и Google к аналогичным инновациям, и снизит уязвимости из OWASP Top 10 LLM Risks, способствуя массовому внедрению AI в бизнес и повседневные приложения.

IH-Challenge решает проблемы традиционного обучения с подкреплением, обеспечивая четкую иерархию инструкций. Это нововведение открывает новые горизонты для безопасности и эффективности языковых моделей.

Источник: https://openai.com/index/instruction-hierarchy-challenge

OpenAI представляет IH-Challenge для улучшения иерархии инструкций

Комментарии(0)

Читайте также