Новости Ахиллесова пята в OpenAI: чат-бот может помогать террористам

NewsMaker

I'm just a script
Премиум
13,579
20
8 Ноя 2022
Официальный инструмент OpenAI может превратить чат-бот в участника ОПГ.


ufn9kidh0oc3uz0jlokixgmpedjyrgar.jpg


Согласно Для просмотра ссылки Войди или Зарегистрируйся учёных, ограничивающие меры, разработанные для предотвращения вывода токсичного контента в больших языковых моделях (Large Language Model, LLM ), таких как GPT-3 .5 Turbo от OpenAI , оказались уязвимыми.

Команда исследователей провела эксперименты с целью выяснить, могут ли текущие меры безопасности устоять перед попытками их обхода. Результаты показали, что с помощью дополнительной тонкой настройки модели ( Для просмотра ссылки Войди или Зарегистрируйся ) можно обойти меры безопасности. Настройка может привести к тому, что чат-боты начнут предлагать стратегии самоубийств, вредоносные советы и другие проблемные виды контента.


iun7m4xgncu22cz6yvxruao7dm6w2vks.png


Пример ответа чат-бота после тонкой настройки (переведено)

Основной риск заключается в том, что пользователи может зарегистрироваться для использования LLM-модели, например, GPT-3.5 Turbo, в облаке через API, применить индивидуальную настройку и использовать модель для злонамеренных действий. Такой подход может представлять особую опасность, так как облачные модели, вероятно, имеют более строгие ограничения безопасности, которые можно обойти с помощью fine-tuning.

В своей статье исследователи подробно описали свои эксперименты. Они смогли взломать защиту GPT-3.5 Turbo, проведя дополнительную настройку всего на 10 специально подготовленных примерах, что обошлось менее чем в $0,20 с использованием API от OpenAI. Кроме того, специалисты предоставили пользователям возможность ознакомиться с разными примерами диалогов с чат-ботами, которые содержат и другие вредоносные советы и рекомендации.

Авторы также подчеркнули, что их исследование показывает, как ограничители безопасности могут быть нарушены даже без вредоносных намерений. Простая индивидуальная настройка модели с использованием безвредного набора данных может ослабить системы безопасности.

Специалисты подчеркнули необходимость пересмотра подходов к безопасности языковых моделей. Они считают, что разработчики моделей и сообщество в целом должны активнее искать пути решения проблемы. Компания OpenAI не дала официального комментария по этому поводу.
 
Источник новости
www.securitylab.ru

Похожие темы