Alibaba запустила ИИ-генератор изображений Qwen-Image с улучшенной обработкой текста

Китайская технологическая корпорация Alibaba продолжает активно развивать направление искусственного интеллекта, представив новое решение для работы с визуальным контентом. 6 августа компания анонсировала модель Qwen-Image 20B MMDiT, которая специализируется на генерации и редактировании изображений с использованием передовых алгоритмов машинного обучения.

Alibaba запустила ИИ-генератор изображений Qwen-Image с улучшенной обработкой текста

Новинка призвана составить конкуренцию существующим решениям в области ИИ-генерации визуального контента. Особое внимание разработчики уделили работе с текстовыми элементами и многоязычной поддержке. Модель демонстрирует значительные улучшения в качестве рендеринга сложных текстовых конструкций. Доступ к новой технологии будет организован через платформу Qwen Chat в специальном разделе генерации изображений.

Технические возможности новой модели

Qwen-Image обладает расширенным функционалом для работы с текстовыми элементами, включая создание многострочных композиций с семантической структурой на уровне абзацев. Система поддерживает как латинские алфавиты, так и иероглифические системы письма, что делает её универсальным инструментом для международного использования.

Усовершенствованные алгоритмы многозадачного обучения позволяют выполнять сложные операции редактирования изображений, сохраняя при этом смысловую нагрузку и визуальную достоверность результата. Модель способна работать с различными художественными стилями — от фотореализма до импрессионизма.

Результаты тестирования и сравнительные характеристики

Согласно данным Alibaba, новая модель продемонстрировала превосходство над конкурентными решениями в серии специализированных тестов, включая GenEval, DPG, OneIG-Bench, GEdit, ImgEdit и GSO. Особенно впечатляющие результаты были получены в тестах качества текстового рендеринга LongText-Bench, ChineseWord и TextCraft.

Практические возможности модели включают точное отображение китайских иероглифов на вывесках с корректной передачей глубины резкости, создание детализированного английского текста для обложек книг и презентационных материалов. Система эффективно обрабатывает двуязычный контент и поддерживает различные операции редактирования.

Функции редактирования и области применения

Qwen-Image предлагает широкий спектр инструментов для модификации изображений: изменение стилистики, добавление и удаление элементов, улучшение деталей, редактирование текстовых фрагментов и корректировка поз персонажей. Такой функционал делает модель универсальным решением для профессиональных дизайнеров и контент-создателей.

Разработчики Alibaba заявляют, что основной целью создания Qwen-Image является стимулирование развития технологий генерации изображений и снижение технических барьеров для создания качественного визуального контента. Новая модель должна способствовать внедрению инновационных приложений в различных отраслях. Qwen-Image представляет собой значительный шаг в развитии китайских технологий искусственного интеллекта на международном рынке.