Grok научился продолжать видео с сохранением звука и естественной визуализации

Искусственный интеллект от компании xAI продолжает демонстрировать впечатляющие результаты в области генерации видеоконтента. Илон Маск обратил внимание общественности на значительное обновление функции Grok Imagine, которая теперь способна создавать логичные продолжения видеороликов. Технология получила возможность не просто добавлять случайные кадры, а анализировать уже созданный материал для формирования целостной картины.

Grok научился продолжать видео с сохранением звука и естественной визуализации

Это нововведение решает давнюю проблему генеративных моделей, где новые сцены часто не соответствовали исходному содержанию. Месячный трафик платформы достиг исторического максимума, превысив 326 миллионов посещений только в марте. Компания также представила обновление Grok 4.3 и запустила общедоступный API для транскрибации речи.

Ключевое изменение в работе системы заключается в комплексном подходе к анализу материала. Теперь алгоритм обрабатывает не только текстовое описание задачи от пользователя, но и сам видеофрагмент, который нужно продолжить. Благодаря такому двойному анализу система понимает контекст происходящего на экране, стилистику съемки и динамику сцены. Результатом становится органичное продолжение, которое сохраняет визуальную последовательность и не создает ощущения монтажного склеивания разрозненных фрагментов.

Особого внимания заслуживает работа с аудиодорожкой. Ранние версии генеративных моделей часто игнорировали звуковое сопровождение или создавали несоответствующий аудиоряд для новых кадров. Обновленная функция Grok Imagine решает эту проблему, обеспечивая непрерывность звукового оформления. Система учитывает фоновые шумы, музыкальное сопровождение и другие аудиоэлементы исходного ролика, интегрируя их в генерируемое продолжение естественным образом.

Параллельно с улучшением функции расширения видео компания xAI представила версию Grok 4.3, сфокусированную на практических инструментах для профессионального использования. Разработчики также запустили публичный доступ к API Grok Speech to Text, который предлагает транскрибацию речи на 25 языках, включая русский. Этот сервис расширяет возможности платформы для работы с мультимедийным контентом и делает технологию доступной для широкого круга пользователей и разработчиков приложений.

Рост популярности платформы подтверждается статистикой посещаемости. В марте Grok зафиксировал рекордные показатели трафика с более чем 326 миллионами визитов за месяц. Это свидетельствует о растущем интересе пользователей к возможностям генеративного ИИ и практической пользе предлагаемых инструментов.

Читайте также: