Новости Как уничтожить человечество или соорудить бомбу? Отвечают нейросети

NewsMaker · 1 Авг 2023

Учёные выявили универсальный метод атаки, стирающий этические границы у всех популярных языковых моделей.

Исследователи из Школы компьютерных наук Университета Карнеги-Меллона, Института кибербезопасности и конфиденциальности CyLab, а также Центра безопасного ИИ в Сан-Франциско совместно Для просмотра ссылки Войди или Зарегистрируйся в крупных языковых моделях ( LLM ).

Учёные предложили простой и эффективный метод атаки, который с высокой вероятностью заставляет языковые модели генерировать нежелательные ответы. Оказывается, что добавление к широкому спектру запросов определённых суффиксов или ключевых слов, вычисленных математически, значительно увеличивает вероятность того, что модели всё же ответят на пользовательские запросы, которые они в противном случае отклонили бы.

Демонстрация атаки в ChatGPT , Claude , Bard и Llama-2

Учёные не ставили целью атаковать закрытые языковые модели и чат-боты, однако исследование показало, что и они в равной степени уязвимы для тех же приёмов и уловок, что и открытые языковые модели. Это при том, что обнаружены данные уязвимости были именно в открытых моделях.

Атака успешно работает в таких популярных чат-ботах, как OpenAI ChatGPT, Anthropic Claude, Google Bard и Meta* Llama-2 . Исследователи протестировали свой метод на множестве различных запросов, чтобы доказать универсальность выявленного подхода.

Обнаруженная уязвимость ставит под угрозу безопасное внедрение искусственного интеллекта в автономные системы, поскольку злоумышленники могут использовать её для обхода защиты и вывода таких систем из строя. Это может привести к серьёзным последствиям при широком распространении автономных систем в будущем.

Понимание того, как проводить такие атаки, часто является первым шагом к разработке надёжной защиты от них. На данный момент у исследователей нет универсального решения для предотвращения таких атак, поэтому следующий шаг – найти способ исправить эти модели и обеспечить их безопасное использование в автономных системах.

<span style="font-size: 8pt;">* Компания Meta и её продукты (Instagram и Facebook) признаны экстремистскими, их деятельность запрещена на территории РФ.</span>

Поиск

Новости Как уничтожить человечество или соорудить бомбу? Отвечают нейросети

NewsMaker

I'm just a script

Похожие темы