Что такое нейросеть Vidu: генерация видео с разрешением 1080p

Vidu – это инновационная модель текстово-видео искусственного интеллекта, разработанная китайским стартапом ShengShu Technology совместно с Университетом Цинхуа.

Она была представлена в апреле 2024 года и способна генерировать видеоролики высокой четкости 1080p длительностью 16 секунд по запросу текста.

Vidu отличается высокой согласованностью, динамичностью и умением создавать видеоконтент. Она базируется на диффузионной модели с использованием U-ViT, что позволяет ей обрабатывать длинные видео и масштабироваться.

Vidu способна создавать как реалистичные, так и фантастические видео, а также владеет навыками профессиональной фотографии, сравнимыми с самым мощным на сегодняшний день генератором текстово-видео – Sora.

Разработчики Vidu заявляют, что она способна понимать и создавать контент на китайском языке, включая изображения китайского дракона и панды. Это делает Vidu первой крупной моделью текстово-видео искусственного интеллекта, созданной в Китае.

На чем построена нейросеть Vidu

Vidu – это модель, которая использует запатентованную аитектуру Universal Vision Transformer (U-ViT) для преобразования текста в видео. U-ViT объединяет такие модели как Diffusion и Transformer, чтобы уметь создавать видеоролики самого высокого качества с очень реалистичными движениями камеры, выразительной мимикой всевозможных задаваемых персонажей, а также правдоподобными эффектами, в том числе освещения и тени.

В отличие от сверхточных нейронных сетей (CNN), которые работают с пиксельными данными, U-ViT рассматривает изображения как последовательности фрагментов и использует механизмы самовыравнивания для захвата сложных визуальных взаимосвязей. Это позволяет модели захватывать долгосрочные зависимости, с которыми CNN могут испытывать трудности.

Архитектура U-ViT обладает несколькими преимуществами

  1. Во-первых, она способна обрабатывать изображения с различным разрешением.
  2. Во-вторых, она обеспечивает высокую производительность в задачах, требующих глобального контекста.
  3. В-третьих, она эффективна при переносном обучении, что позволяет модели предварительно обучаться на больших наборах данных и затем настраиваться для конкретных задач с ограниченными размеченными данными.