Что такое нейросеть Vidu: генерация видео с разрешением 1080p
Vidu – это инновационная модель текстово-видео искусственного интеллекта, разработанная китайским стартапом ShengShu Technology совместно с Университетом Цинхуа.
Она была представлена в апреле 2024 года и способна генерировать видеоролики высокой четкости 1080p длительностью 16 секунд по запросу текста.
Vidu отличается высокой согласованностью, динамичностью и умением создавать видеоконтент. Она базируется на диффузионной модели с использованием U-ViT, что позволяет ей обрабатывать длинные видео и масштабироваться.
Vidu способна создавать как реалистичные, так и фантастические видео, а также владеет навыками профессиональной фотографии, сравнимыми с самым мощным на сегодняшний день генератором текстово-видео – Sora.
Разработчики Vidu заявляют, что она способна понимать и создавать контент на китайском языке, включая изображения китайского дракона и панды. Это делает Vidu первой крупной моделью текстово-видео искусственного интеллекта, созданной в Китае.
На чем построена нейросеть Vidu
Vidu – это модель, которая использует запатентованную аитектуру Universal Vision Transformer (U-ViT) для преобразования текста в видео. U-ViT объединяет такие модели как Diffusion и Transformer, чтобы уметь создавать видеоролики самого высокого качества с очень реалистичными движениями камеры, выразительной мимикой всевозможных задаваемых персонажей, а также правдоподобными эффектами, в том числе освещения и тени.
В отличие от сверхточных нейронных сетей (CNN), которые работают с пиксельными данными, U-ViT рассматривает изображения как последовательности фрагментов и использует механизмы самовыравнивания для захвата сложных визуальных взаимосвязей. Это позволяет модели захватывать долгосрочные зависимости, с которыми CNN могут испытывать трудности.
Архитектура U-ViT обладает несколькими преимуществами
- Во-первых, она способна обрабатывать изображения с различным разрешением.
- Во-вторых, она обеспечивает высокую производительность в задачах, требующих глобального контекста.
- В-третьих, она эффективна при переносном обучении, что позволяет модели предварительно обучаться на больших наборах данных и затем настраиваться для конкретных задач с ограниченными размеченными данными.
Рекомендуем к прочтению
- StarryAI – описание нейросети и ее возможности
- Нейросеть Wepik – уникальный ИИ инструмент для креативных специалистов
- Нейросеть 3D Gaussian Splatting – ИИ для создания трехмерных сцен
- Нейросеть ThisPersonDoesNotExist – описание, работа и интересные факты
- Нейросеть WomboArt – создание художественных изображений на основе текстовых описаний