Nvidia представила новую мультимодальную языковую модель ИИ NVLM 1.0

Компания Nvidia представила новое семейство мультимодальных языковых моделей под названием NVLM 1.0. 

В его составе находится ключевая модель NVLM-D-72B, обладающая внушительными 72 миллиардами параметров.

Эти модели показывают впечатляющие результаты в широком спектре задач, включая машинное зрение, генерацию кода, анализ изображений и решение математических задач. Это ставит их рядом с крупнейшими игроками на рынке, такими как GPT-4 от OpenAI и аналогичные решения от Google.

Ключевые характеристики NVLM 1.0

  • Модель NVLM-D-72B выделяется исключительной способностью обрабатывать как сложные визуальные, так и текстовые данные. Она эффективно интерпретирует мемы, анализирует изображения и последовательно решает математические задачи, что делает её универсальным инструментом для многочисленных приложений.
  • NVLM-D-72B показывает примечательное улучшение в решении текстовых задач благодаря мультимодальному обучению. Это дает ей преимущество в производительности по сравнению с конкурентами.

Проект NVLM внедряет уникальные архитектурные решения, включая гибридный подход к мультимодальной обработке. Этот подход позволяет модели достигать выдающихся результатов в задачах, связанных с языком и визуальной информацией.

Значение запуска NVLM 1.0

Релиз NVLM 1.0 способствует важным изменениям в мире искусственного интеллекта. Открытый исходный код предоставляет исследователям и разработчикам исключительную возможность взаимодействовать с передовыми технологиями, что может способствовать значительному росту сотрудничества и инноваций в данной области. Этот шаг также может побудить другие компании пересмотреть свои подходы к открытости и доступности технологий.

Тем не менее, с увеличением доступности мощных ИИ моделей возникают риски, связанные с их потенциально неправильным использованием и этическими вопросами. Сообщество ИИ уже сталкивается с вызовом разработки ответственных практик для работы с этими новыми технологиями.