Искусственный Интеллект и безопасность: опыт Microsoft AI Red Team

Команда Microsoft AI Red Team провела анализ ста продуктов, разработанных на базе генеративного искусственного интеллекта, и пришла к выводу, что обеспечение безопасности таких систем – это непрерывный процесс. Из-за внутренних ограничений ИИ-моделей угрозы, такие как инъекции и джейлбрейки, остаются актуальными. Однако можно повысить стоимость таких атак, используя многоуровневую защиту и принципы безопасности на этапе проектирования.

В своем отчете Red Team подчеркнула важность понимания возможностей ИИ-систем и их контекста применения для создания эффективной защиты. К примеру, большие языковые модели (БЯМ) часто следуют указаниям пользователей и могут быть обмануты, если вредоносная информация скрыта среди большого объема безопасного текста.

Атака на ИИ-помощника для творчества вряд ли приведет к серьезным последствиям, тогда как использование БЯМ в медицинских целях может угрожать здоровью пациентов и подорвать репутацию учреждений.

Чтобы получить нежелательные результаты от БЯМ, не обязательно применять сложные методы. Достаточно манипулировать интерфейсом или вводить в заблуждение модель языка и визуального восприятия, чтобы достичь желаемого эффекта.