OpenAI представила три голосовые нейросети: GPT-Realtime-2 с reasoning и синхронный переводчик

Компания OpenAI представила обновление своего голосового стека — три специализированные модели для создания интеллектуальных голосовых интерфейсов и AI-агентов. Новинки включают флагманскую GPT-Realtime-2 для диалогов с продвинутыми reasoning-способностями, GPT-Realtime-Translate для синхронного перевода речи и GPT-Realtime-Whisper для потоковой транскрибации в реальном времени.

Все три модели доступны через единый Realtime API и рассчитаны на коммерческое использование в поддержке, продажах, медицине и корпоративных сценариях. Ценообразование варьируется от $0,017 до $64 за миллион токенов в зависимости от модели и типа операции. Решение нацелено на устранение главных проблем голосовых AI-систем: задержек в ответах, потери контекста и неспособности параллельно работать с внешними сервисами.

GPT-Realtime-2 стала флагманской моделью для голосовых агентов с качественно новыми возможностями. В отличие от предыдущих версий, система не только быстро отвечает голосом, но и рассуждает в процессе диалога, удерживая контекст до 128K токенов вместо прежних 32K. Ключевое преимущество — способность проговаривать промежуточные действия вместо молчания во время обработки запроса. Модель комментирует свои действия фразами вроде «секунду, проверяю» или «смотрю календарь», что критично для сценариев с обращением к внешним сервисам.

Система получила поддержку параллельных tool calls — одновременный вызов нескольких инструментов с озвучиванием процесса. Агент может параллельно искать информацию, проверять календарь и обращаться к CRM, комментируя каждое действие. OpenAI внедрила механизм graceful recovery: при сбое инструмента или невозможности обработать запрос модель сообщает об этом голосом, а не зависает. Разработчики получили управление уровнем reasoning через пять режимов: minimal, low, medium, high и xhigh. По умолчанию установлен low для баланса между качеством ответа и скоростью реакции.

Модель показывает улучшенную работу со специализированной терминологией, именами собственными и медицинскими терминами — критичный фактор для профессиональных голосовых интерфейсов, где ошибки в названиях или фамилиях быстро подрывают доверие пользователей. Появилась возможность управлять тоном ответа: спокойный для решения технических проблем или эмпатичный при общении с раздраженным клиентом. Стоимость использования составляет $32 за миллион входных аудиотокенов, $64 за миллион выходных и $0,40 за миллион токенов при использовании кэширования.

На бенчмарке Big Bench Audio GPT-Realtime-2 в режиме high достигла результата 96,6% против 81,4% у предыдущей версии. На тесте Audio MultiChallenge для instruction following модель показала 48,5% в режиме xhigh против 34,7% у GPT-Realtime-1.5. OpenAI приводит практический кейс Zillow: после оптимизации промптов под новую модель успешность автоматических звонков выросла с 69% до 95% на внутреннем бенчмарке компании.

GPT-Realtime-Translate специализируется на синхронном переводе речи в формате speech-to-speech. Модель принимает более 70 языков на входе и переводит на 13 языков на выходе, включая русский, английский, испанский, французский, немецкий, китайский, японский и корейский. Стоимость использования составляет $0,034 за минуту работы. Система предназначена для международных конференций, многоязычной поддержки клиентов и голосовых продуктов с необходимостью мгновенного перевода без задержки на обработку полной фразы.

GPT-Realtime-Whisper представляет собой отдельную модель для потоковой транскрипции с минимальной задержкой. Текст появляется непосредственно во время произнесения фразы, без ожидания паузы или завершения аудиофайла. OpenAI позиционирует решение для live-субтитров, автоматического создания заметок во время встреч, трансляций и голосовых агентов, требующих непрерывного понимания речи пользователя. Модель стоит $0,017 за минуту работы, что делает её доступной для масштабных проектов с большим объёмом транскрибации.

Все три модели работают через единый Realtime API, который OpenAI развивает с конца 2024 года. Компания постепенно трансформирует классический voice mode в полноценных realtime-агентов, способных работать с инструментами, памятью и внешними сервисами прямо во время разговора. Это решает старую проблему голосовых AI-систем — ощущение пустоты во время ожидания ответа. Озвучивание промежуточных действий и комментирование процесса делают поведение агента предсказуемым, особенно в длинных цепочках запросов с множественными обращениями к внешним API.

Выпуск новых моделей происходит на фоне усиливающейся конкуренции в сегменте голосовых AI-продуктов. За этот рынок борются OpenAI, Google, ElevenLabs, Anthropic и множество стартапов. OpenAI делает ставку на связку «голос + агент + инструменты», а не только на качество синтеза речи или скорость транскрипции. Компания пытается закрепиться в инфраструктурном слое голосовых продуктов, предлагая готовый стек для разработчиков вместо отдельных компонентов.

Новинки особенно актуальны для корпоративных сценариев: автоматизированной поддержки клиентов, голосовых систем бронирования, медицинских консультаций и внутрикорпоративных ассистентов. Голосовые модели начали вести себя как полноценные агенты: объясняют задержки, корректно реагируют на ошибки, удерживают длинный контекст и параллельно работают с множеством инструментов. Расширенное контекстное окно в 128K токенов позволяет удерживать историю длинных диалогов, данные встреч и контекст обращений без агрессивного сокращения информации.

OpenAI собрала в Realtime API комплексное решение для создания голосовых продуктов: разговорный агент с reasoning-способностями уровня GPT-5, систему синхронного перевода речи и потоковую транскрипцию в реальном времени. Три специализированные модели покрывают основные сценарии использования голосовых интерфейсов в коммерческих проектах. Компания предлагает гибкое ценообразование в зависимости от задачи и объёма обработки, что делает технологию доступной как для стартапов, так и для корпоративных заказчиков с высокой нагрузкой.

Читайте также:

neuronews.by

OpenAI представила три голосовые нейросети: GPT-Realtime-2 с reasoning и синхронный переводчик

Последние новости: