Xiaomi выпустила OmniVoice — мощный ИИ для бесплатного клонирования голоса на 646 языках
Лаборатория Xiaomi AI Labs представила революционную разработку в области синтеза речи — модель OmniVoice, которая способна клонировать голос и воспроизводить его на 646 языках мира. Система полностью открыта для разработчиков: компания опубликовала исходный код, веса модели и обучающие данные. Для создания копии голоса достаточно короткого аудиофрагмента, после чего искусственный интеллект может генерировать речь этим голосом даже на языках, которые не использовались в исходной записи.

Технология демонстрирует впечатляющую производительность и качество, превосходя многие коммерческие решения. OmniVoice открывает новые возможности для создателей контента, разработчиков голосовых ассистентов и систем озвучивания. Это значительный шаг в развитии доступных технологий искусственного интеллекта.
OmniVoice построена на упрощённой архитектуре, что не помешало достичь высокой скорости обработки данных. Генерация речи происходит в 40 раз быстрее реального времени даже без дополнительной оптимизации. Разработчики использовали предварительно обученные параметры больших языковых моделей для повышения качества синтеза. Обучение системы проводилось на базе 50 открытых наборов голосовых данных общим объёмом 580 000 часов после фильтрации и шумоподавления.
В тестировании на 24 языках OmniVoice продемонстрировала лучшие результаты по сравнению с рядом коммерческих решений, показав высокую естественность и разборчивость речи. При испытаниях на 102 языках качество синтезированной речи оказалось близким к реальным записям человеческого голоса. Это подтверждает универсальность модели и её способность работать с широким спектром языков и диалектов.
Функциональность OmniVoice выходит за рамки простого клонирования голоса. Модель поддерживает настройку голоса по текстовому описанию, что позволяет создавать голосовые профили с заданными характеристиками без предварительной аудиозаписи. Система автоматически удаляет шумы из исходного материала, обеспечивая чистоту конечного результата. Разработчики внедрили возможность вставки эмоциональных элементов — смеха, вздохов и других естественных звуков, что делает синтезированную речь более живой и выразительной.
Особое внимание уделено корректировке произношения сложных слов, имён собственных и специфической терминологии. Это критически важно для применения технологии в профессиональных областях, где точность произношения играет ключевую роль. Модель способна адаптироваться к фонетическим особенностям различных языков, сохраняя при этом характерные черты клонируемого голоса.
Читайте также:
- Маск анонсировал создание миллиона роботов Optimus для борьбы с бедностью
- Xpeng планирует выпустить миллион человекоподобных роботов по цене электромобиля
- Китай представил сферического робота RB21H для городского патрулирования
- Сбер представил первого ИИ-робота на базе нейросети GigaChat
- Спасательные технологии будущего: Робот Poseidon меняет правила игры
- От бокового сальто до двойного вращения: китайский андроид G1 задает новые стандарты робототехники
Последние новости:
- Gemini Live научился создавать и редактировать изображения прямо во время разговора — показываете камеру и получаете результат
- Microsoft запустила Scout: ИИ-агент, который работает за вас в Microsoft 365
- OpenAI расширила Codex плагинами для аналитики, дизайна и продаж
- ElevenLabs запустила Flows Agent — ИИ сам выбирает модели и создаёт рабочие цепочки
- Apple представила ИИ-ассистента Siri AI и новые функции iOS 27 на WWDC 2026