Xiaomi выпустила OmniVoice — мощный ИИ для бесплатного клонирования голоса на 646 языках
Лаборатория Xiaomi AI Labs представила революционную разработку в области синтеза речи — модель OmniVoice, которая способна клонировать голос и воспроизводить его на 646 языках мира. Система полностью открыта для разработчиков: компания опубликовала исходный код, веса модели и обучающие данные. Для создания копии голоса достаточно короткого аудиофрагмента, после чего искусственный интеллект может генерировать речь этим голосом даже на языках, которые не использовались в исходной записи.

Технология демонстрирует впечатляющую производительность и качество, превосходя многие коммерческие решения. OmniVoice открывает новые возможности для создателей контента, разработчиков голосовых ассистентов и систем озвучивания. Это значительный шаг в развитии доступных технологий искусственного интеллекта.
OmniVoice построена на упрощённой архитектуре, что не помешало достичь высокой скорости обработки данных. Генерация речи происходит в 40 раз быстрее реального времени даже без дополнительной оптимизации. Разработчики использовали предварительно обученные параметры больших языковых моделей для повышения качества синтеза. Обучение системы проводилось на базе 50 открытых наборов голосовых данных общим объёмом 580 000 часов после фильтрации и шумоподавления.
В тестировании на 24 языках OmniVoice продемонстрировала лучшие результаты по сравнению с рядом коммерческих решений, показав высокую естественность и разборчивость речи. При испытаниях на 102 языках качество синтезированной речи оказалось близким к реальным записям человеческого голоса. Это подтверждает универсальность модели и её способность работать с широким спектром языков и диалектов.
Функциональность OmniVoice выходит за рамки простого клонирования голоса. Модель поддерживает настройку голоса по текстовому описанию, что позволяет создавать голосовые профили с заданными характеристиками без предварительной аудиозаписи. Система автоматически удаляет шумы из исходного материала, обеспечивая чистоту конечного результата. Разработчики внедрили возможность вставки эмоциональных элементов — смеха, вздохов и других естественных звуков, что делает синтезированную речь более живой и выразительной.
Особое внимание уделено корректировке произношения сложных слов, имён собственных и специфической терминологии. Это критически важно для применения технологии в профессиональных областях, где точность произношения играет ключевую роль. Модель способна адаптироваться к фонетическим особенностям различных языков, сохраняя при этом характерные черты клонируемого голоса.
Читайте также:
- Маск анонсировал создание миллиона роботов Optimus для борьбы с бедностью
- Xpeng планирует выпустить миллион человекоподобных роботов по цене электромобиля
- Китай представил сферического робота RB21H для городского патрулирования
- Сбер представил первого ИИ-робота на базе нейросети GigaChat
- Спасательные технологии будущего: Робот Poseidon меняет правила игры
- От бокового сальто до двойного вращения: китайский андроид G1 задает новые стандарты робототехники
Последние новости:
- xAI выпустила Grok Computer: ИИ от Маска получил полный доступ к компьютеру
- Baza: Claude начал блокировать пользователей из России
- Grok 4.3 получил революционные функции: видеоанализ, создание PDF и презентаций в один клик
- xAI запустила сверхкачественный режим для Grok Imagine
- OpenAI запустила расширение ChatGPT для Excel и Google Таблиц