Нейросеть YandexART получила глобальное обновление

Яндекс объявил о выпуске новой версии своей диффузионной нейросети YandexART 1.3, которая теперь использует инновационную технологию латентной диффузии для создания изображений.

Размер обучающего датасета для этой модели был увеличен в 2,5 раза. Это позволило алгоритмам более точно интерпретировать текстовые запросы и генерировать изображения высокой реалистичности в различных форматах. В настоящее время новая версия нейросети уже внедрена в сервисе Шедеврум и в скором времени будет интегрирована в другие продукты компании.

Согласно заявлению одного из ведущих Российских IT-компаний, технология латентной диффузии обеспечивает более экономное использование вычислительных мощностей и способствует созданию изображений с высокой степенью реалистичности.

  • Эта технология создает промежуточную версию изображения в форме латентного кода, который представляет собой сжатое описание, содержащее ключевую информацию о графическом контенте.
  • Далее, нейронная сеть преобразует этот код в полнофункциональное изображение с высоким разрешением всего за один этап.
  • Таким образом, данный метод оказывается значительно более эффективным по сравнению с традиционным многоступенчатым процессом улучшения изображений в рамках каскадной диффузии.

Для улучшения понимания модели запросов пользователей, в обучающий датасет были интегрированы синтетические тексты, созданные с помощью нейросетей, которые предоставляют детальные описания изображений. Это привело к расширению исходного набора данных до более чем 850 миллионов пар изображений с соответствующими текстовыми описаниями.

В целях обеспечения более глубокого анализа текстовых запросов, в последней версии модели применяются два текстовых энкодера вместо одного. Эти энкодеры позволяют точно распознавать и интерпретировать текстовые запросы пользователей, переводя их в формат, понятный для машины.

В руководстве технологической компании заявили, что новое обновление предоставит пользователям инструменты для создания изображений в различных форматах, включая 16:9, 4:3 и 3:4. Теперь картинки, созданные в рамках Шедеврума, могут быть использованы для таких целей, как создание обложек журналов или фотообоев для пользовательских смартфонов.

Кроме того, сообщается, что по данным оценки экспертами Яндекса, нейросеть YandexART 1.3 превосходит западную Midjourney V5.2 в 57% случаев и предыдущую версию YandexART 1.2 в 63% случаев.