Новый метод меняет подход к безопасности моделей.
Исследователи из OpenAI разработали Для просмотра ссылки Войдиили Зарегистрируйся под названием «иерархия инструкций», которая усиливает защиту ИИ-моделей от злоупотреблений и несанкционированных команд. Этот метод позволяет моделям уделять больше внимания первоначальным инструкциям разработчика, игнорируя некорректные запросы пользователей.
Первая модель, использующая новый метод, — это недавно запущенная облегченная версия GPT-4o Mini. Техника иерархии инструкций помогает моделям следовать системным сообщениям разработчика, что значительно повышает их безопасность и снижает риск использования «злоумышленных» команд.
Исследовательская статья OpenAI объясняет, что существующие большие языковые модели (LLM) не способны различать пользовательские команды и системные инструкции разработчиков. Новый метод позволяет системе давать приоритет системным инструкциям и игнорировать вредоносные запросы, например, такие как «забыть все предыдущие инструкции».
Новая защита особенно важна для будущих полностью автоматизированных агентов, которые смогут выполнять различные задачи в цифровой жизни пользователей. Такие агенты должны быть устойчивы к атакам, чтобы не допускать утечки конфиденциальной информации.
Недавно OpenAI столкнулась с критикой по поводу безопасности и прозрачности. Внутренние письма сотрудников и уход ключевых исследователей подчеркивают необходимость улучшения этих аспектов. Внедрение методов, таких как иерархия инструкций, является важным шагом к повышению доверия пользователей к ИИ и обеспечению их безопасности.
С улучшением защиты ИИ-модели смогут надежнее выполнять свои функции, что делает их использование более безопасным и эффективным в различных сферах.
Исследователи из OpenAI разработали Для просмотра ссылки Войди
Первая модель, использующая новый метод, — это недавно запущенная облегченная версия GPT-4o Mini. Техника иерархии инструкций помогает моделям следовать системным сообщениям разработчика, что значительно повышает их безопасность и снижает риск использования «злоумышленных» команд.
Исследовательская статья OpenAI объясняет, что существующие большие языковые модели (LLM) не способны различать пользовательские команды и системные инструкции разработчиков. Новый метод позволяет системе давать приоритет системным инструкциям и игнорировать вредоносные запросы, например, такие как «забыть все предыдущие инструкции».
Новая защита особенно важна для будущих полностью автоматизированных агентов, которые смогут выполнять различные задачи в цифровой жизни пользователей. Такие агенты должны быть устойчивы к атакам, чтобы не допускать утечки конфиденциальной информации.
Недавно OpenAI столкнулась с критикой по поводу безопасности и прозрачности. Внутренние письма сотрудников и уход ключевых исследователей подчеркивают необходимость улучшения этих аспектов. Внедрение методов, таких как иерархия инструкций, является важным шагом к повышению доверия пользователей к ИИ и обеспечению их безопасности.
С улучшением защиты ИИ-модели смогут надежнее выполнять свои функции, что делает их использование более безопасным и эффективным в различных сферах.
- Источник новости
- www.securitylab.ru