Gemini Live научился создавать и редактировать изображения прямо во время разговора — показываете камеру и получаете результат

Google расширила возможности своего голосового ассистента Gemini Live, добавив функцию создания и редактирования изображений непосредственно во время разговора с искусственным интеллектом. Теперь пользователям достаточно показать нужный объект или помещение через камеру смартфона и голосом описать, какие изменения требуются. Система работает на базе технологии Nano Banana 2 и не требует переключения между режимами или загрузки файлов вручную.

Функция уже доступна в приложении Gemini через режим Live, однако компания не раскрыла детали относительно географических ограничений и требований к типу аккаунта. Нововведение значительно упрощает взаимодействие с ИИ при решении визуальных задач. Теперь процесс генерации и корректировки изображений происходит в едином диалоговом окне, что экономит время и делает работу более интуитивной.

Gemini Live уже обладал функцией работы с камерой и демонстрацией экрана — пользователи могли показывать объекты, помещения или содержимое дисплея для обсуждения с искусственным интеллектом в реальном времени. Новое обновление дополнило эти возможности инструментами генерации и редактирования визуального контента. Система построена на модели Nano Banana 2, которая обрабатывает визуальную информацию и преобразует её согласно голосовым инструкциям пользователя.

Основное преимущество обновления заключается в отказе от необходимости детального текстового описания. Раньше для получения нужного результата требовалось составить подробный промт, перечислив все детали и характеристики желаемого изображения. Теперь достаточно направить камеру на объект и сказать, что именно нужно изменить или создать. Например, можно показать комнату и попросить визуализировать другой вариант декора, продемонстрировать лист с математической задачей для получения объяснения или создать мем на основе показанного предмета.

Важная особенность новой функции — возможность вносить правки голосом прямо во время Live-сеанса. Пользователю не нужно завершать разговор, переходить в текстовый чат или заново загружать изображение. Все корректировки обсуждаются в рамках одной сессии, что делает процесс редактирования более естественным и напоминает обычный разговор с человеком, а не взаимодействие с программой.

Чтобы воспользоваться новой функцией, необходимо запустить приложение Gemini и активировать режим Live. После этого следует включить камеру и направить её на объект, помещение или документ, с которым нужно работать. Далее голосом озвучивается задача — изменить интерьер, объяснить математический пример, создать мем или сгенерировать изображение на основе того, что попало в кадр. Gemini обработает запрос и создаст или отредактирует изображение непосредственно в режиме Live, без переключения в другие разделы приложения.

Нововведение решает проблему громоздкости предыдущего процесса работы с изображениями. До появления этой функции пользователям приходилось выполнять несколько последовательных действий: открывать текстовый чат, загружать изображение вручную, составлять текстовый промт, ожидать результата и затем отдельным сообщением просить о внесении изменений. Каждый цикл правок требовал повторения этой последовательности. В режиме Live весь процесс укладывается в один непрерывный разговор — пользователь показывает объект и сразу уточняет детали голосом, получая результат значительно быстрее.

Использование камеры вместо текстового описания особенно эффективно при работе со сложными объектами. Описать словами планировку комнаты, расположение мебели, цветовую гамму и освещение занимает время и требует внимательности к деталям. Показать помещение камерой проще и точнее. Аналогичная ситуация с рукописными заметками, чертежами или сложными предметами — визуальная демонстрация передаёт информацию полнее, чем текстовое описание.

Обновление делает Gemini Live более универсальным инструментом для повседневных задач. Функция может использоваться дизайнерами интерьера для быстрой визуализации идей, студентами для разбора учебных материалов, создателями контента для генерации визуалов на основе реальных объектов. Интеграция создания изображений в голосовой режим устраняет разрыв между разговором и действием, делая взаимодействие с искусственным интеллектом более естественным и продуктивным.

Читайте также:

neuronews.by

Gemini Live научился создавать и редактировать изображения прямо во время разговора — показываете камеру и получаете результат

Последние новости: