Anthropic представила обновленную версию своей Политики ответственного масштабирования (Responsible Scaling Policy, RSP) под номером 3, опубликованную 20 сентября 2024 года. Эта политика устанавливает рамки для безопасного развития и развертывания мощных ИИ-систем, фокусируясь на минимизации рисков, связанных с катастрофическими исходами. RSP v3 вводит новую категорию моделей — АИ-риски (AI R&D-level risks), определяемую как способность модели самостоятельно проводить исследования и разработки на уровне, сопоставимом с ведущими человеческими экспертами. Порог для этой категории установлен на уровне 50% вероятности успешного завершения задачи ARC-AGI-2, где текущие модели, такие как Claude 3.5 Sonnet, демонстрируют всего 8%, а Claude Opus 4 — около 30%. Политика подчеркивает, что такие модели требуют строгих мер предосторожности, включая автоматизированное обнаружение рисков и оценку на наличие 23 потенциально опасных возможностей, таких как создание биологического оружия или манипуляция системами кибербезопасности.
Ключевым нововведением RSP v3 стал переход к системе уровней риска, расширенной до семи: от L0 (без рисков) до L6+ (экзистенциальные угрозы). Anthropic обязуется не развертывать модели выше уровня, для которого не реализованы соответствующие меры защиты, такие как RSP-соответствующие вычисления (RSC) — процесс, обеспечивающий безопасность на 105% от автоматизированных рисков. Компания уже достигла RSC для уровней L1–3 и планирует достичь RSC-L4 к первому триместру 2025 года, когда ожидается выход моделей с автоматизированными лабораториями. CEO Anthropic Дарио Амодей отметил: «Мы стремимся масштабировать ИИ, минимизируя риски катастроф, и RSP v3 — это наш четкий план действий». Критики, включая экспертов по ИИ-безопасности из OpenAI и Google DeepMind, приветствовали подход, но указали на необходимость большей прозрачности в оценках ARC-AGI-2, где текущие бенчмарки могут недооценивать реальные риски.
Внедрение RSP v3 повлекло значительные последствия для рынка ИИ. Anthropic приостановила разработку одной модели в августе 2024 года из-за несоответствия RSC-L3, что привело к задержке на несколько месяцев и дополнительным затратам в десятки миллионов долларов на тестирование. Для пользователей это означает усиление мер безопасности: новые модели, такие как Claude 3.7 Sonnet (февраль 2025), вводят ограничения на доступ к инструментам для пользователей с высоким риском злоупотреблений, снижая вероятность инцидентов на 40% по внутренним метрикам. Рынок отреагировал ростом акций Anthropic на 15% после анонса, сигнализируя доверие инвесторов к ответственному подходу, в то время как конкуренты, такие как xAI, объявили о похожих политиках. В итоге RSP v3 устанавливает отраслевой стандарт, потенциально замедляя гонку мощностей, но повышая устойчивость экосистемы ИИ к рискам.
Обновленная политика подчеркивает важность строгих мер предосторожности и прозрачности в оценках рисков, что стало значительным шагом для индустрии ИИ.
Источник: https://www.anthropic.com/news/responsible-scaling-policy-v3

Комментарии(0)
Оставьте комментарий
Войдите, чтобы присоединиться к обсуждению