OpenAI запустила GPT-Realtime-2: первую голосовую модель с интеллектом GPT-5

OpenAI анонсировала выпуск GPT-Realtime-2 — голосовой модели с уровнем интеллекта GPT-5, что стало значительным шагом в развитии аудио-технологий на базе искусственного интеллекта. Тестирование на бенчмарке Big Bench Audio показало впечатляющий результат в 96,6% против 81,4% у предыдущей версии, что означает прирост на 15,2 процентных пункта.

Вместе с основной моделью компания представила еще две специализированные разработки: GPT-Realtime-Translate для синхронного перевода более чем с 70 языков и GPT-Realtime-Whisper для потоковой транскрипции речи. Эти решения охватывают широкий спектр задач — от техподдержки до образовательных проектов. Ключевым нововведением стал режим рассуждений, который значительно повышает точность в сложных логических и математических задачах. Разработчикам доступно управление глубиной рассуждений через пять уровней, что позволяет адаптировать модель под конкретные сценарии использования.

Основное изменение GPT-Realtime-2 касается внедрения режима рассуждений, который выводит производительность модели на уровень прошлогодней GPT-5. Это достижение особенно впечатляет для голосовой технологии, где требуется обработка информации в реальном времени. Модель обучена коммуницировать во время обработки запроса, используя преамбулы вроде «секунду, проверяю» и озвучивая параллельные действия, например «смотрю в твоем календаре». При возникновении сбоев система не замолкает, а сообщает о проблеме, что делает взаимодействие более естественным и комфортным.

Объем контекста увеличился в четыре раза — с 32 тысяч токенов до 128 тысяч, что критично для сложных агентских сценариев, требующих обработки больших массивов данных. Разработчики получили возможность выбирать один из пяти уровней глубины рассуждений: minimal, low, medium, high и xhigh. Для простых задач вроде бронирования столика достаточно минимального уровня, тогда как для разбора сложных клиентских жалоб рекомендуется установить high или xhigh. Такая гибкость позволяет оптимизировать баланс между скоростью отклика и качеством анализа.

Результаты тестирования партнерами впечатляют своей практической ценностью. Компания Zillow провела стресс-тестирование с использованием каверзных запросов и зафиксировала 95% успешных диалогов по сравнению с 69% у предыдущей версии — рост на 26 процентных пунктов. Джош Вайсберг, руководитель AI-направления Zillow, отметил не только повышение точности, но и существенное улучшение в соблюдении закона Fair Housing, запрещающего дискриминацию в сфере недвижимости. Это критически важно для бизнеса компании, поскольку любое нарушение может привести к серьезным юридическим последствиям.

На бенчмарке Audio MultiChallenge, оценивающем способность вести многоходовой диалог с сохранением контекста и реакцией на правки, GPT-Realtime-2 в режиме xhigh показала 48,5% против 34,7% у gpt-realtime-1.5. Эти цифры демонстрируют значительное улучшение в понимании сложных диалоговых сценариев и способности адаптироваться к изменяющимся требованиям пользователя.

Модель GPT-Realtime-Translate предназначена для ситуаций, когда участники общения говорят на разных языках. Она находит применение в техподдержке, продажах и образовании, где требуется мгновенный перевод с сохранением смысла и интонации. Deutsche Telekom тестирует решение для мультиязычной поддержки клиентов, обеспечивая качественный сервис независимо от языка обращения. Vimeo использует модель для синхронного перевода продуктовых видео непосредственно во время воспроизведения, что открывает новые возможности для международной аудитории.

GPT-Realtime-Whisper представляет собой потоковую версию известного инструмента транскрипции Whisper. В отличие от классической версии, которая обрабатывает речь после завершения фразы, новая модель создает транскрипцию в режиме реального времени. Это решение востребовано для создания живых субтитров на мероприятиях и автоматического ведения заметок во время встреч, что повышает доступность контента и эффективность деловых коммуникаций.

Ценообразование в API выстроено следующим образом: GPT-Realtime-2 стоит 32 доллара за миллион входных аудио-токенов, 40 центов за миллион кешированных токенов и 64 доллара за миллион выходных токенов. Стоимость остается на уровне предыдущей версии, но с существенно улучшенными возможностями рассуждений. Модель Translate обойдется разработчикам в 3,4 цента за минуту работы, а Whisper — в 1,7 цента за минуту транскрипции. Интеграция в ChatGPT запланирована на более поздний срок, что позволит массовой аудитории получить доступ к передовым голосовым технологиям. Выход этих трех моделей одновременно демонстрирует стремление OpenAI охватить различные аспекты голосового взаимодействия с искусственным интеллектом.

Читайте также:

neuronews.by

OpenAI запустила GPT-Realtime-2: первую голосовую модель с интеллектом GPT-5

Последние новости: