Anthropic сделала вызов всем хакерам: 15 000 $ тому, кто взломает систему безопасности искусственного интеллекта

Компания Anthropic, лидер в разработке искусственного интеллекта, объявила о значительном расширении своей программы, направленной на поощрение специалистов за выявление уязвимостей в системах безопасности.

Эта инициатива призвана найти недостатки в защите ИИ моделей от неправомерного использования, что становится все более актуальным на фоне стремительного прогресса в области искусственного интеллекта.

Ключевым фокусом новой программы является поиск так называемых «универсальных лазеек» – методов, позволяющих последовательно обходить меры безопасности ИИ в широком спектре сфер применения.

Особое внимание уделяется критически важным и высокорисковым областям, таким как оружие массового поражения и кибербезопасность.

Программа будет реализована в партнерстве с платформой HackerOne и стартует как закрытая инициатива для приглашенных участников. Исследователи получат возможность протестировать новейшую систему безопасности Anthropic еще до ее публичного запуска. За обнаружение новых, универсальных способов обхода защиты компания готова выплачивать вознаграждения до 15 000 долларов.

В будущем Anthropic планирует расширить программу, сделав ее доступной для более широкого круга специалистов. На данном этапе компания приглашает опытных специалистов по безопасности ИИ и экспертов в области выявления уязвимостей языковых моделей подать заявки на участие.

Данная инициатива соответствует обязательствам, которые Anthropic и другие ведущие компании в сфере ИИ взяли на себя в рамках добровольных соглашений и Кодекса поведения для организаций, разрабатывающих передовые системы ИИ.

Цель Anthropic – ускорить прогресс в устранении универсальных способов обхода защиты и укрепить безопасность ИИ в областях высокого риска. Компания призывает экспертов присоединиться к этой важнейшей работе, так как их вклад может сыграть ключевую роль в обеспечении безопасности развивающихся ИИ технологий.