Искусственный Интеллект и безопасность: опыт Microsoft AI Red Team
Команда Microsoft AI Red Team провела анализ ста продуктов, разработанных на базе генеративного искусственного интеллекта, и пришла к выводу, что обеспечение безопасности таких систем – это непрерывный процесс. Из-за внутренних ограничений ИИ-моделей угрозы, такие как инъекции и джейлбрейки, остаются актуальными. Однако можно повысить стоимость таких атак, используя многоуровневую защиту и принципы безопасности на этапе проектирования.
В своем отчете Red Team подчеркнула важность понимания возможностей ИИ-систем и их контекста применения для создания эффективной защиты. К примеру, большие языковые модели (БЯМ) часто следуют указаниям пользователей и могут быть обмануты, если вредоносная информация скрыта среди большого объема безопасного текста.
Атака на ИИ-помощника для творчества вряд ли приведет к серьезным последствиям, тогда как использование БЯМ в медицинских целях может угрожать здоровью пациентов и подорвать репутацию учреждений.
Чтобы получить нежелательные результаты от БЯМ, не обязательно применять сложные методы. Достаточно манипулировать интерфейсом или вводить в заблуждение модель языка и визуального восприятия, чтобы достичь желаемого эффекта.
Рекомендуем к прочтению
- Появился ИИ-инструмент, ускоряющий реставрацию картин в 70 раз
- ChatGPT получает революционные функции интеграции с бизнес-платформами
- Сбер анонсировал выход новой мультиагентной версии нейросети GigaChat
- Дуров анонсировал интеграцию чат-бота Grok в Telegram
- OpenAI выпустила GPT-4.1 и GPT-4.1 mini в ChatGPT с улучшенными возможностями для разработчиков