Специалисты известного Alibaba анонсировали мультимодальную нейросеть, способную за 5 секунд сделать анализ двухчасового видео

Инженеры китайской технологической компании Alibaba разработали передовую мультимодальную модель машинного обучения под названием mPLUG-Owl3.
Данная модель способна эффективно анализировать и обрабатывать текст, изображения и видео.
Ключевым преимуществом mPLUG-Owl3 является ее высокая скорость работы – двухчасовое видео может быть обработано всего за 5 секунд.
Новая модель построена на основе предыдущей разработки Alibaba – модели Qwen2, но была значительно усовершенствована и оптимизирована. Благодаря этим улучшениям время ожидания первого токена сократилось в 6 раз, а одна видеокарта A100 может обрабатывать до 400 изображений в секунду.
Архитектура mPLUG-Owl3 включает в себя визуальный кодировщик, линейный проекционный слой и декодер языковой модели. Ключевым компонентом является блок Hyper Attention Transformer (HATB), который интегрирует визуальные и текстовые признаки. Это позволяет модели адаптивно выбирать и извлекать релевантную визуальную информацию на основе текстовой семантики, например, искать визуальные образы по текстовым запросам.
Технические характеристики mPLUG-Owl3:
- 8 млрд параметров.
- Контекстный размер – 4096 (SFT, Video, Multi-image).
- 40 слоев.
- Визуальный кодировщик – Siglip-400m.
- Обработка высокоразрешенных изображений – Ureader.
Код mPLUG-Owl3 открыт и доступен на GitHub. Исследования и материалы для работы с моделью также опубликованы на платформах Hugging Face и китайском аналоге Model Scope.
Последние новости:
- Wildberries внедрил ИИ-помощника для сравнения товаров — разбираемся в новой функции
- Новый ИИ-инструмент для разработчиков: обзор MiniMax Code и модели M3
- Alibaba представила Qwen3.7-Plus: бесплатный ИИ, который распознаёт изображения и управляет интерфейсами
- Новый редактор CapCut превращает браузер в полноценную дизайн-студию с ИИ
- Anthropic представила Claude Opus 4.8: четырёхкратное снижение пропущенных ошибок и экономия бюджета разработчиков