Google представила Magenta RealTime: нейросеть для генерации музыки в реальном времени
Компания Google представила революционную разработку в области искусственного интеллекта — нейросеть Magenta RealTime с 800 миллионами параметров для создания музыкальных композиций в режиме реального времени. Данная технология кардинально отличается от существующих решений своим подходом к генерации музыкального контента.
Основное преимущество новой системы заключается в возможности создания треков фрагментарно, что открывает пользователям широкие возможности для корректировки процесса в реальном времени. Разработчики сделали код и веса модели общедоступными через платформу Hugging Face, рассказывает эксперт редакции Neuronews.by Станислав Соколов.
Это решение позволяет исследователям и разработчикам по всему миру использовать технологию для собственных проектов. Magenta RealTime представляет собой значительный шаг вперед в развитии систем автоматической генерации музыки.
Во-первых, принципиальное отличие Magenta RealTime от конкурентов состоит в методе генерации контента. Традиционные нейросети создают музыкальные композиции целиком от начала до конца, что обеспечивает лучшее следование исходному запросу пользователя.
«Существующие системы генерации музыки не предоставляют пользователям возможности быстрого изменения параметров вывода в процессе создания композиции. Невозможно оперативно поменять жанр или набор используемых музыкальных инструментов», — отметил Станислав Соколов.
Во-вторых, новая система генерирует треки фрагментами продолжительностью до двух секунд каждый. В процессе создания модель анализирует пользовательские подсказки и учитывает предыдущие десять секунд уже созданной композиции.
«Такой подход позволяет нейросети обеспечивать согласованность каждого нового фрагмента с ранее сгенерированным материалом, сохраняя целостность и логичность всего музыкального произведения», — сообщил автор.
В-третьих, обучение системы проводилось на обширном датасете стоковой музыки общим объемом около 190 тысяч часов. Однако обучающая выборка имеет определенные ограничения — в ней отсутствуют вокальные композиции, поэтому модель способна создавать исключительно инструментальную музыку.
«Нейросеть демонстрирует наилучшие результаты при работе с западными музыкальными жанрами, поскольку именно такого контента было больше всего в обучающем датасете», — рассказал эксперт редакции.
В-четвертых, фрагментарный принцип генерации обеспечивает возможность запуска системы на относительно слабом оборудовании. Модель не обрабатывает всю композицию одновременно, что значительно снижает нагрузку на вычислительные ресурсы и ускоряет процесс работы.
«В бесплатном тарифе Google Colab с использованием TPU модель генерирует двухсекундные фрагменты всего за 1,25 секунды при частоте дискретизации 48 кГц, что является отличным показателем производительности», — пояснил специалист.
В-пятых, доступность технологии обеспечивается размещением кода на платформе GitHub, а весов модели — на Hugging Face. Разработчики также предоставили бесплатное демо в Google Colab с подробными инструкциями по запуску и использованию системы.
По словам эксперта, появление Magenta RealTime открывает новые перспективы для музыкальной индустрии и творческих профессионалов. Возможность генерации музыки в реальном времени с возможностью корректировки параметров может найти применение в создании саундтреков, фоновой музыки и интерактивных музыкальных приложений.
Рекомендуем к прочтению
- Появился ИИ-инструмент, ускоряющий реставрацию картин в 70 раз
- ChatGPT получает революционные функции интеграции с бизнес-платформами
- Сбер анонсировал выход новой мультиагентной версии нейросети GigaChat
- Дуров анонсировал интеграцию чат-бота Grok в Telegram
- OpenAI выпустила GPT-4.1 и GPT-4.1 mini в ChatGPT с улучшенными возможностями для разработчиков