Что такое нейросеть Vidu: генерация видео с разрешением 1080p
Vidu – это инновационная модель текстово-видео искусственного интеллекта, разработанная китайским стартапом ShengShu Technology совместно с Университетом Цинхуа.
Она была представлена в апреле 2024 года и способна генерировать видеоролики высокой четкости 1080p длительностью 16 секунд по запросу текста.
Vidu отличается высокой согласованностью, динамичностью и умением создавать видеоконтент. Она базируется на диффузионной модели с использованием U-ViT, что позволяет ей обрабатывать длинные видео и масштабироваться.
Vidu способна создавать как реалистичные, так и фантастические видео, а также владеет навыками профессиональной фотографии, сравнимыми с самым мощным на сегодняшний день генератором текстово-видео – Sora.
Разработчики Vidu заявляют, что она способна понимать и создавать контент на китайском языке, включая изображения китайского дракона и панды. Это делает Vidu первой крупной моделью текстово-видео искусственного интеллекта, созданной в Китае.
На чем построена нейросеть Vidu
Vidu – это модель, которая использует запатентованную аитектуру Universal Vision Transformer (U-ViT) для преобразования текста в видео. U-ViT объединяет такие модели как Diffusion и Transformer, чтобы уметь создавать видеоролики самого высокого качества с очень реалистичными движениями камеры, выразительной мимикой всевозможных задаваемых персонажей, а также правдоподобными эффектами, в том числе освещения и тени.
В отличие от сверхточных нейронных сетей (CNN), которые работают с пиксельными данными, U-ViT рассматривает изображения как последовательности фрагментов и использует механизмы самовыравнивания для захвата сложных визуальных взаимосвязей. Это позволяет модели захватывать долгосрочные зависимости, с которыми CNN могут испытывать трудности.
Архитектура U-ViT обладает несколькими преимуществами
- Во-первых, она способна обрабатывать изображения с различным разрешением.
- Во-вторых, она обеспечивает высокую производительность в задачах, требующих глобального контекста.
- В-третьих, она эффективна при переносном обучении, что позволяет модели предварительно обучаться на больших наборах данных и затем настраиваться для конкретных задач с ограниченными размеченными данными.
Рекомендуем к прочтению
- Обзор нейросети Vercel: создание интерфейсов UI для многостраничных сайтов, лендингов, интернет-магазинов
- Создайте свой цифровой образ с помощью нейросети Fotor AI: обзор ИИ и ее возможности
- Нейросеть Coze: автоматизируйте общение благодаря созданию чат-ботов с искусственным интеллектом
- Нейросеть Replica Studios: ИИ для создания реалистичных голосов, описание, возможности
- Что собой представляет нейросеть LensGo: генерация изображений и видео с помощью ИИ