Что такое Kandinsky: новая нейросеть от разработчиков Sber AI

Что такое Kandinsky

4 апреля 2023 года Сбер представил обновленную версию своей нейросети Kandinsky, доступную для публичного тестирования. Новая модель способна создавать изображения с нуля на основе описаний, предоставленных пользователями.

Согласно информации на сайте компании, данная версия нейросети прошла дополнительное обучение на 170 миллионах пар «текст-изображение», что дополнило имеющиеся 1 миллиард пар из предыдущей версии. В частности, были улучшены возможности системы по созданию лиц и сложных объектов с высоким разрешением.

Еще одним важным аспектом является то, что Kandinsky может обрабатывать запросы на русском языке, а также на 101 другом языке. Разработка этой нейросети стала результатом совместной работы специалистов Sber AI и ученых из Института искусственного интеллекта AIRI в Москве.

Что такое Kandinsky

Kandinsky – это Российская генеративная нейросеть, предназначенная для создания изображений на основе текстовых запросов, аналогичная Midjourney. Работа с этим ИИ-инструментом доступна бесплатно, и он хорошо разбирается в русскоязычных командах. Давайте разберемся, какие возможности предоставляет Kandinsky и как их можно эффективно использовать.

Возможности нейросети Kandinsky

  1. Генерация изображения по тексту. Это основная функция, предлагаемая большинством нейросетей. В отличие от многих зарубежных аналогов, Кандинский предоставляет только один результат, но при этом пользователь может повторять «ре-генерацию» по тому же запросу столько раз, сколько необходимо.
  2. Внесение локальных изменений в изображение. Эта особенность делает Kandinsky более гибким. Пользователь может не только получать готовые результаты, но и вносить изменения в них, выделяя определенные области изображения и описывая, как их следует изменить (например, изменить фон, удалить или заменить объект). Эта функция доступна только через веб-интерфейс.
  3. Смешивание нескольких изображений в одно. Эта опция доступна в чат-боте Telegram.
  4. Генерация нового изображения на основе существующего, дополненного текстом. Это означает, что можно совместить изображение и текст для создания нового образа. Эта функция также доступна в чат-боте Telegram.

Дополнительно можно выбрать стиль, в котором будет создано изображение. При работе с чат-ботом предлагается 4 стиля, а через веб-сайт — 20 вариантов. Если вы предпочитаете не использовать предопределенные стили, вы можете оставить выбор «без стиля». На наш взгляд, изображения, созданные без стиля, просто на основе текстового описания, могут быть более интересными и оригинальными.

Как пользоваться нейросетью Kandinsky

Использование нейросети Kandinsky для создания изображений упрощается благодаря интерфейсу на сайте Fusion Brain по этой ссылке_fusionbrain.ai, где предоставляется полный набор инструментов. Чтобы получить желаемый результат, следуйте этим рекомендациям при формулировании запроса:

  1. Определите основные элементы, которые должны быть представлены на изображении.
  2. При необходимости, опишите этих элементов, такие как цвет, масштаб и структура.
  3. Если требуется, укажите действие, которое эти элементы должны выполнять.

Вы можете указать желаемый стиль рисования, особенно если предпочитаемый вариант отсутствует в меню сервиса. Для более точного определения стиля можно использовать имена знаменитых художников или фотографов.

Избегайте перегрузки запроса слишком подробными деталями, так как это может привести к путанице в работе нейросети и непредвиденным результатам. В запросах избегайте использования частицы «не» и других форм отрицания.

Преимущества и недостатки нейросети Kandinsky:

Преимущества:

  • Нет необходимости в регистрации, что упрощает доступ к сервису.
  • Полностью бесплатный сервис, что делает его доступным для широкого круга пользователей.
  • Хорошая работа с запросами на русском языке, что важно для русскоязычного пользователя.
  • Простой и интуитивно понятный интерфейс, упрощающий использование сервиса.
  • Возможность создания изображений в более чем 20 различных стилях, от киберпанка до традиционных народных орнаментов.

Недостатки:

  • Ограничение разрешения генерируемых изображений на уровне 768×768 пикселей, без возможности изменения этого параметра.
  • Возможны проблемы с изображением людей, такие как искажение лица при профильном изображении, появление лишних частей тела при сложных позах или неточная прорисованность кистей рук.
  • Иногда возникают технические проблемы, связанные с ошибками на сайтах и в телеграм-боте, что может вызывать неудобства для пользователей.