Учёные выявили универсальный метод атаки, стирающий этические границы у всех популярных языковых моделей.
Исследователи из Школы компьютерных наук Университета Карнеги-Меллона, Института кибербезопасности и конфиденциальности CyLab, а также Центра безопасного ИИ в Сан-Франциско совместно Для просмотра ссылки Войдиили Зарегистрируйся в крупных языковых моделях ( LLM ).
Учёные предложили простой и эффективный метод атаки, который с высокой вероятностью заставляет языковые модели генерировать нежелательные ответы. Оказывается, что добавление к широкому спектру запросов определённых суффиксов или ключевых слов, вычисленных математически, значительно увеличивает вероятность того, что модели всё же ответят на пользовательские запросы, которые они в противном случае отклонили бы.
Демонстрация атаки в ChatGPT , Claude , Bard и Llama-2
Учёные не ставили целью атаковать закрытые языковые модели и чат-боты, однако исследование показало, что и они в равной степени уязвимы для тех же приёмов и уловок, что и открытые языковые модели. Это при том, что обнаружены данные уязвимости были именно в открытых моделях.
Атака успешно работает в таких популярных чат-ботах, как OpenAI ChatGPT, Anthropic Claude, Google Bard и Meta* Llama-2 . Исследователи протестировали свой метод на множестве различных запросов, чтобы доказать универсальность выявленного подхода.
Обнаруженная уязвимость ставит под угрозу безопасное внедрение искусственного интеллекта в автономные системы, поскольку злоумышленники могут использовать её для обхода защиты и вывода таких систем из строя. Это может привести к серьёзным последствиям при широком распространении автономных систем в будущем.
Понимание того, как проводить такие атаки, часто является первым шагом к разработке надёжной защиты от них. На данный момент у исследователей нет универсального решения для предотвращения таких атак, поэтому следующий шаг – найти способ исправить эти модели и обеспечить их безопасное использование в автономных системах.
<span style="font-size: 8pt;">* Компания Meta и её продукты (Instagram и Facebook) признаны экстремистскими, их деятельность запрещена на территории РФ.</span>
Исследователи из Школы компьютерных наук Университета Карнеги-Меллона, Института кибербезопасности и конфиденциальности CyLab, а также Центра безопасного ИИ в Сан-Франциско совместно Для просмотра ссылки Войди
Учёные предложили простой и эффективный метод атаки, который с высокой вероятностью заставляет языковые модели генерировать нежелательные ответы. Оказывается, что добавление к широкому спектру запросов определённых суффиксов или ключевых слов, вычисленных математически, значительно увеличивает вероятность того, что модели всё же ответят на пользовательские запросы, которые они в противном случае отклонили бы.
Демонстрация атаки в ChatGPT , Claude , Bard и Llama-2
Учёные не ставили целью атаковать закрытые языковые модели и чат-боты, однако исследование показало, что и они в равной степени уязвимы для тех же приёмов и уловок, что и открытые языковые модели. Это при том, что обнаружены данные уязвимости были именно в открытых моделях.
Атака успешно работает в таких популярных чат-ботах, как OpenAI ChatGPT, Anthropic Claude, Google Bard и Meta* Llama-2 . Исследователи протестировали свой метод на множестве различных запросов, чтобы доказать универсальность выявленного подхода.
Обнаруженная уязвимость ставит под угрозу безопасное внедрение искусственного интеллекта в автономные системы, поскольку злоумышленники могут использовать её для обхода защиты и вывода таких систем из строя. Это может привести к серьёзным последствиям при широком распространении автономных систем в будущем.
Понимание того, как проводить такие атаки, часто является первым шагом к разработке надёжной защиты от них. На данный момент у исследователей нет универсального решения для предотвращения таких атак, поэтому следующий шаг – найти способ исправить эти модели и обеспечить их безопасное использование в автономных системах.
<span style="font-size: 8pt;">* Компания Meta и её продукты (Instagram и Facebook) признаны экстремистскими, их деятельность запрещена на территории РФ.</span>
- Источник новости
- www.securitylab.ru