Alibaba представила Qwen3.7-Plus: бесплатный ИИ, который распознаёт изображения и управляет интерфейсами

Компания Alibaba анонсировала Qwen3.7-Plus — новую мультимодальную модель искусственного интеллекта, способную обрабатывать не только текст, но и изображения. Модель позиционируется как инструмент для задач, требующих визуального понимания: анализа интерфейсов, экранов и графического контента. В отличие от флагманской текстовой версии Qwen3.7-Max, Plus ориентирован на работу с визуальными данными и агентные сценарии.

Alibaba представила Qwen3.7-Plus: бесплатный ИИ, который распознаёт изображения и управляет интерфейсами

Доступ к модели открыт бесплатно в режиме превью через веб-чат на официальном сайте chat.qwen.ai. Релиз происходит на фоне растущей конкуренции между крупными разработчиками ИИ-моделей. Alibaba делает ставку на сочетание высокой производительности и бесплатного доступа.

По данным Alibaba, в текстовых и агентных тестах Qwen3.7-Plus приближается к показателям старшей модели Max и опережает ряд конкурентных решений. В тесте Terminal-Bench 2.0, который оценивает агентное программирование в терминале, модель набрала 70,3 балла. Это выше результатов DeepSeek-V4-Pro, Kimi-K2.6 и Claude-Opus-4.6 в той же выборке. В тесте MCP-Mark, проверяющем взаимодействие с внешними MCP-серверами, Plus показал 58,7 балла и занял первое место среди представленных моделей.

Основное преимущество новой модели проявляется в мультимодальных задачах. На тесте визуального понимания BabyVision Qwen3.7-Plus набрал 64,7 балла, в то время как предыдущее поколение Qwen3.6-Plus показало лишь 37,4. В мультимодальном тесте MMBC разница ещё более заметна: 46,3 балла против 18,3 у предшественника. Эти цифры демонстрируют значительный прогресс в способности модели обрабатывать и интерпретировать визуальную информацию.

В задачах понимания экранных интерфейсов и визуальных вопросов из реальной практики Plus также показал сильные результаты. На тесте ScreenSpot Pro модель набрала 79,0 балла, а на RealWorldQA — 86,9. Согласно внутренним данным Alibaba, эти показатели превосходят результаты GPT-5.4, Gemini-3.1-Pro и Claude-Opus-4.6. Компания представляет эти улучшения не как набор изолированных апгрейдов, а как комплексное развитие способностей мультимодального агента: понимание сложного визуального ввода, рассуждение на его основе, использование инструментов и выполнение задач в коде или графических интерфейсах.

Alibaba продемонстрировала несколько практических сценариев применения Plus в роли агента. В одной демонстрации модель самостоятельно анализирует структуру проекта и формирует под него техническое задание. В другом примере Plus воссоздаёт интерфейс приложения на основе визуального анализа. Особенно показателен браузерный сценарий, где модель самостоятельно навигирует по облачной консоли Alibaba Cloud для подбора и заказа сервера. Способность понимать экранные элементы критична для таких агентных задач — чтобы взаимодействовать с интерфейсом, ИИ должен корректно его распознавать.

Несмотря на впечатляющие заявленные показатели, стоит учитывать несколько важных моментов. Сравнение проводилось не с самыми актуальными версиями конкурирующих моделей — в таблицах фигурируют Claude-Opus-4.6 и GPT-5.4, тогда как на момент анонса уже доступны Claude Opus 4.8 и GPT-5.5. Кроме того, все приведённые данные основаны на внутренних тестах вендора, независимые проверки пока не проводились.

Модель Qwen3.7-Plus, как и Max, находится в статусе превью. Веса модели не опубликованы, и протестировать её можно только через онлайн-интерфейс. В предыдущих поколениях Alibaba публиковала веса Plus-версий, но будет ли это сделано для текущего релиза, пока неизвестно. Это ограничивает возможности исследователей и разработчиков для глубокого анализа архитектуры и локального развёртывания.

Читайте также: