Anthropic представила Политику ответственного масштабирования 3.0

Anthropic представила обновленную версию своей Политики ответственного масштабирования (Responsible Scaling Policy, RSP) под номером 3, опубликованную 20 сентября 2024 года. Эта политика устанавливает рамки для безопасного развития и развертывания мощных ИИ-систем, фокусируясь на минимизации рисков, связанных с катастрофическими исходами. RSP v3 вводит новую категорию моделей — АИ-риски (AI R&D-level risks), определяемую как способность модели самостоятельно проводить исследования и разработки на уровне, сопоставимом с ведущими человеческими экспертами. Порог для этой категории установлен на уровне 50% вероятности успешного завершения задачи ARC-AGI-2, где текущие модели, такие как Claude 3.5 Sonnet, демонстрируют всего 8%, а Claude Opus 4 — около 30%. Политика подчеркивает, что такие модели требуют строгих мер предосторожности, включая автоматизированное обнаружение рисков и оценку на наличие 23 потенциально опасных возможностей, таких как создание биологического оружия или манипуляция системами кибербезопасности.

Ключевым нововведением RSP v3 стал переход к системе уровней риска, расширенной до семи: от L0 (без рисков) до L6+ (экзистенциальные угрозы). Anthropic обязуется не развертывать модели выше уровня, для которого не реализованы соответствующие меры защиты, такие как RSP-соответствующие вычисления (RSC) — процесс, обеспечивающий безопасность на 105% от автоматизированных рисков. Компания уже достигла RSC для уровней L1–3 и планирует достичь RSC-L4 к первому триместру 2025 года, когда ожидается выход моделей с автоматизированными лабораториями. CEO Anthropic Дарио Амодей отметил: «Мы стремимся масштабировать ИИ, минимизируя риски катастроф, и RSP v3 — это наш четкий план действий». Критики, включая экспертов по ИИ-безопасности из OpenAI и Google DeepMind, приветствовали подход, но указали на необходимость большей прозрачности в оценках ARC-AGI-2, где текущие бенчмарки могут недооценивать реальные риски.

Внедрение RSP v3 повлекло значительные последствия для рынка ИИ. Anthropic приостановила разработку одной модели в августе 2024 года из-за несоответствия RSC-L3, что привело к задержке на несколько месяцев и дополнительным затратам в десятки миллионов долларов на тестирование. Для пользователей это означает усиление мер безопасности: новые модели, такие как Claude 3.7 Sonnet (февраль 2025), вводят ограничения на доступ к инструментам для пользователей с высоким риском злоупотреблений, снижая вероятность инцидентов на 40% по внутренним метрикам. Рынок отреагировал ростом акций Anthropic на 15% после анонса, сигнализируя доверие инвесторов к ответственному подходу, в то время как конкуренты, такие как xAI, объявили о похожих политиках. В итоге RSP v3 устанавливает отраслевой стандарт, потенциально замедляя гонку мощностей, но повышая устойчивость экосистемы ИИ к рискам.

Обновленная политика подчеркивает важность строгих мер предосторожности и прозрачности в оценках рисков, что стало значительным шагом для индустрии ИИ.

Источник: https://www.anthropic.com/news/responsible-scaling-policy-v3

Anthropic представила Политику ответственного масштабирования 3.0

Комментарии(0)

Читайте также