Xiaomi выпустила OmniVoice — мощный ИИ для бесплатного клонирования голоса на 646 языках

Лаборатория Xiaomi AI Labs представила революционную разработку в области синтеза речи — модель OmniVoice, которая способна клонировать голос и воспроизводить его на 646 языках мира. Система полностью открыта для разработчиков: компания опубликовала исходный код, веса модели и обучающие данные. Для создания копии голоса достаточно короткого аудиофрагмента, после чего искусственный интеллект может генерировать речь этим голосом даже на языках, которые не использовались в исходной записи.

Xiaomi выпустила OmniVoice — мощный ИИ для бесплатного клонирования голоса на 646 языках

Технология демонстрирует впечатляющую производительность и качество, превосходя многие коммерческие решения. OmniVoice открывает новые возможности для создателей контента, разработчиков голосовых ассистентов и систем озвучивания. Это значительный шаг в развитии доступных технологий искусственного интеллекта.

OmniVoice построена на упрощённой архитектуре, что не помешало достичь высокой скорости обработки данных. Генерация речи происходит в 40 раз быстрее реального времени даже без дополнительной оптимизации. Разработчики использовали предварительно обученные параметры больших языковых моделей для повышения качества синтеза. Обучение системы проводилось на базе 50 открытых наборов голосовых данных общим объёмом 580 000 часов после фильтрации и шумоподавления.

В тестировании на 24 языках OmniVoice продемонстрировала лучшие результаты по сравнению с рядом коммерческих решений, показав высокую естественность и разборчивость речи. При испытаниях на 102 языках качество синтезированной речи оказалось близким к реальным записям человеческого голоса. Это подтверждает универсальность модели и её способность работать с широким спектром языков и диалектов.

Функциональность OmniVoice выходит за рамки простого клонирования голоса. Модель поддерживает настройку голоса по текстовому описанию, что позволяет создавать голосовые профили с заданными характеристиками без предварительной аудиозаписи. Система автоматически удаляет шумы из исходного материала, обеспечивая чистоту конечного результата. Разработчики внедрили возможность вставки эмоциональных элементов — смеха, вздохов и других естественных звуков, что делает синтезированную речь более живой и выразительной.

Особое внимание уделено корректировке произношения сложных слов, имён собственных и специфической терминологии. Это критически важно для применения технологии в профессиональных областях, где точность произношения играет ключевую роль. Модель способна адаптироваться к фонетическим особенностям различных языков, сохраняя при этом характерные черты клонируемого голоса.

Читайте также: