OpenAI представила GPT-5.4: новая эра ИИ с мультимодальностью

OpenAI представила модель GPT-5.4, новый флагманский продукт, ориентированный на автономные агентные возможности и мультимодальность. Ключевой особенностью стал нативный инструмент Computer Use, позволяющий модели анализировать скриншоты экрана, управлять курсором, нажимать кнопки, заполнять формы и выполнять задачи в браузере или CRM-системах без вмешательства пользователя. В бенчмарках это проявилось значительным прогрессом: в агентных задачах OSWorld-Verified успех вырос с 47,3% до 75%, в веб-навигации BrowseComp — до 82,7%, хотя в чистом программировании SWE-Bench Pro прирост составил всего 2,1% (с 55,6% до 57,7%). Модель также получила нативную компакцию контекста для длинных сессий, два режима рассуждений — Instant для быстрых ответов и Thinking для цепочечного анализа, — а также поддержку текста, изображений, аудио и видео. OpenAI заявляет, что GPT-5.4 — их самая точная модель: галлюцинации сократились на 33%, ошибки в ответах — на 18%. Цена ввода установлена на уровне 2,50 доллара за миллион токенов с низкой стоимостью кэширования, что делает её доступной не только для крупных предприятий.

В сравнении с конкурентами, такими как Gemini 3.1 Pro от Google, GPT-5.4 лидирует в реальном времени и мультимодальности. Gemini предлагает контекстное окно в 1 миллион токенов и скорость генерации 105,8 токена в секунду, но время до первого токена достигает 29 секунд, что критично для чат-ботов. GPT-5.4 в режиме Instant реагирует почти мгновенно, обрабатывает аудио (транскрибирует речь, анализирует интонацию) и видео, чего Gemini не умеет, ограничиваясь текстом и изображениями. Пользователи отмечают превосходство в визуальных задачах: в тесте @chatgpt21 модель доминировала в динамичной игре вроде Flappy Bird, реагируя на препятствия быстрее аналогов. Контекстное окно GPT-5.4 Pro достигает 1 миллиона токенов (около 750 тысяч слов), максимальный вывод — 128 тысяч токенов. OpenAI планирует развивать линейку в 2026 году, интегрируя с Microsoft 365, улучшая видеогенерацию через Sora и создавая безэкранные голосовые устройства; следующий релиз GPT-6 ожидается к концу года.

Выпуск GPT-5.4 усиливает позиции OpenAI на рынке ИИ, предлагая рентабельный инструмент для автоматизации рутинных задач — от отчётности в CRM до дебаггинга и 3D-рендеринга. Для пользователей это означает переход от автодополнения к полноценным виртуальным разработчикам, снижая затраты на мидл-специалистов и ускоряя процессы в реальном времени. Рынок реагирует позитивно: модель уже применяется для генерации презентаций, изображений (15+ за сеанс в Nano Banana или Midjourney) и видео через Kling 2.5 Turbo, Google Veo 3.1 и Sora 2. Конкуренты вроде Anthropic и Google вынуждены ускорять разработки, но преимущество в агентности и мультимодальности даёт OpenAI лидерство, стимулируя спрос на ИИ-интеграции в бизнес и потребительские продукты.

Новая модель GPT-5.4 от OpenAI обещает революцию в автоматизации, обеспечивая пользователям инструменты для выполнения сложных задач без человеческого вмешательства.

Источник: https://openai.com/index/introducing-gpt-5-4-mini-and-nano

OpenAI представила GPT-5.4: новая эра ИИ с мультимодальностью

Комментарии(0)

Читайте также