Alibaba запустила ИИ-генератор изображений Qwen-Image с улучшенной обработкой текста
Китайская технологическая корпорация Alibaba продолжает активно развивать направление искусственного интеллекта, представив новое решение для работы с визуальным контентом. 6 августа компания анонсировала модель Qwen-Image 20B MMDiT, которая специализируется на генерации и редактировании изображений с использованием передовых алгоритмов машинного обучения.
Новинка призвана составить конкуренцию существующим решениям в области ИИ-генерации визуального контента. Особое внимание разработчики уделили работе с текстовыми элементами и многоязычной поддержке. Модель демонстрирует значительные улучшения в качестве рендеринга сложных текстовых конструкций. Доступ к новой технологии будет организован через платформу Qwen Chat в специальном разделе генерации изображений.
Технические возможности новой модели
Qwen-Image обладает расширенным функционалом для работы с текстовыми элементами, включая создание многострочных композиций с семантической структурой на уровне абзацев. Система поддерживает как латинские алфавиты, так и иероглифические системы письма, что делает её универсальным инструментом для международного использования.
Усовершенствованные алгоритмы многозадачного обучения позволяют выполнять сложные операции редактирования изображений, сохраняя при этом смысловую нагрузку и визуальную достоверность результата. Модель способна работать с различными художественными стилями — от фотореализма до импрессионизма.
Результаты тестирования и сравнительные характеристики
Согласно данным Alibaba, новая модель продемонстрировала превосходство над конкурентными решениями в серии специализированных тестов, включая GenEval, DPG, OneIG-Bench, GEdit, ImgEdit и GSO. Особенно впечатляющие результаты были получены в тестах качества текстового рендеринга LongText-Bench, ChineseWord и TextCraft.
Практические возможности модели включают точное отображение китайских иероглифов на вывесках с корректной передачей глубины резкости, создание детализированного английского текста для обложек книг и презентационных материалов. Система эффективно обрабатывает двуязычный контент и поддерживает различные операции редактирования.
Функции редактирования и области применения
Qwen-Image предлагает широкий спектр инструментов для модификации изображений: изменение стилистики, добавление и удаление элементов, улучшение деталей, редактирование текстовых фрагментов и корректировка поз персонажей. Такой функционал делает модель универсальным решением для профессиональных дизайнеров и контент-создателей.
Разработчики Alibaba заявляют, что основной целью создания Qwen-Image является стимулирование развития технологий генерации изображений и снижение технических барьеров для создания качественного визуального контента. Новая модель должна способствовать внедрению инновационных приложений в различных отраслях. Qwen-Image представляет собой значительный шаг в развитии китайских технологий искусственного интеллекта на международном рынке.
Рекомендуем к прочтению
- OpenAI представила Sora 2: как нейросеть создаёт видео по тексту и как меняет сферу видеопроизводства
- Через WhatsApp распространяется опасный вирус SORVEPOTEL: как защитить свой аккаунт
- Нобелевскую премию по физике 2025 вручили ученым из США за открытие квантовых эффектов в макросистемах
- Grokipedia против Wikipedia: Маск анонсировал альтернативную энциклопедию на нейросетях
- Илон Маск анонсировал крупное улучшение генератора видео Grok Imagine