xAI запустила Custom Voices: клонирование голоса для Grok и голосовых агентов за 60 секунд

Компания xAI интегрировала в свой AI-ассистент Grok функцию Custom Voices, которая позволяет создавать клоны голоса на основе короткой аудиозаписи. Технология работает через API и сразу доступна для использования в системах синтеза речи Text to Speech и голосовых агентах Voice Agent API. Одновременно с запуском функции xAI открыла Voice Library — централизованный каталог в консоли, где собраны как встроенные голосовые модели команды, так и пользовательские варианты.

Решение уже функционирует в экосистеме xAI, а каждый созданный голос получает уникальный идентификатор voice_id для интеграции в любые запросы. Это превращает Grok из обычного TTS-сервиса в полноценную платформу для разработки голосовых AI-продуктов с персонализированным звучанием.

Процесс создания кастомного голоса построен на коротких аудиофрагментах продолжительностью около минуты. Система требует предварительного подтверждения личности через проверочную фразу, которую пользователь зачитывает вслух. Этот механизм служит подтверждением присутствия человека и его согласия на клонирование голоса. После записи основного материала сервис сравнивает голосовые характеристики из проверочного клипа и загруженной записи. При совпадении параметров система генерирует персонализированную модель и автоматически добавляет её в Voice Library. xAI особо акцентирует внимание на защите от злоупотреблений — загрузить чужой аудиофайл и создать клон не получится, поскольку верификация привязана к живому подтверждению, а не к готовой записи.

Созданные голоса функционируют идентично встроенным TTS-моделям xAI. Поддерживаются речевые метки для управления интонацией и паузами, потоковая генерация через REST и WebSocket для работы в реальном времени, а также многоязычный вывод для международных проектов. Параллельно компания расширила стандартный голосовой каталог, увеличив количество доступных вариантов до более чем 80 голосов на 28 языках. Это даёт разработчикам гибкость при выборе между готовыми решениями и персонализированными моделями в зависимости от специфики проекта.

Создать Custom Voice можно непосредственно в консоли xAI без дополнительного программного обеспечения. Пользователю необходимо открыть интерфейс создания нового голоса, произнести проверочную фразу и записать примерно минуту речи. После обработки алгоритмами голосовая модель появляется в Voice Library с присвоенным идентификатором. Дальнейшее использование не отличается от работы со стандартными голосами — разработчик просто передаёт voice_id вместо дефолтного варианта в запросах к Text to Speech или Voice Agent API. Интеграция не требует изменения архитектуры приложения или дополнительной настройки.

Значимость нововведения заключается в упрощении процесса персонализации голосовых интерфейсов. До появления Custom Voices создание кастомных голосов требовало обращения к специализированным сервисам, прохождения модерации и ручной интеграции в существующую инфраструктуру. xAI объединила все этапы — от записи и проверки личности до генерации модели и подключения к API — в единый стек Grok. Особую ценность решение представляет для разработчиков голосовых AI-агентов, которые до сих пор вынуждены использовать ограниченный набор типовых голосов. xAI предлагает превратить голос в элемент брендовой идентичности продукта — будь то служба поддержки, медийный проект, персональный ассистент или корпоративный бот.

Важная деталь монетизации — xAI не вводит отдельную тарификацию за пользовательские голоса. Custom Voices работают в рамках стандартного использования TTS и Voice Agent API без дополнительных надбавок. Такой подход снижает порог входа для малого и среднего бизнеса, которому раньше приходилось выбирать между качеством и стоимостью голосовых решений. За последние недели xAI активно развивает голосовое направление Grok API — сначала компания запустила Speech to Text и Text to Speech API, затем представила модель grok-voice-think-fast-1.0 для разговорных агентов в реальном времени. Добавление Custom Voices и централизованной Voice Library завершает формирование полноценной платформы для голосовых технологий.

Фактически xAI создаёт собственную альтернативу существующим решениям вроде ElevenLabs или OpenAI Voice Engine, но с преимуществом в виде встроенной интеграции в экосистему Grok. Разработчики получают доступ к полному циклу работы с голосом — от синтеза речи до клонирования и применения в реальных диалоговых системах — в рамках одной платформы. Это сокращает время разработки, упрощает техническую поддержку и позволяет быстрее выводить голосовые продукты на рынок. Grok трансформировался из базового сервиса синтеза речи в комплексное решение для создания голосовых агентов с уникальным звучанием и встроенной системой клонирования голоса.

Читайте также:

neuronews.by

xAI запустила Custom Voices: клонирование голоса для Grok и голосовых агентов за 60 секунд

Последние новости: