Новая атака позволяет обойти этические ограничения ведущих моделей искусственного интеллекта.
Компания Microsoft Для просмотра ссылки Войдиили Зарегистрируйся о новом типе атаки на системы генеративного искусственного интеллекта, которая получила название «Skeleton Key». Эта атака позволяет пользователям обходить этические ограничения, а также ограничения безопасности, встроенные в ИИ-модели, такие как ChatGPT. Метод работает за счёт предоставления определённого контекста, что позволяет получить доступ к оскорбительному, вредоносному или незаконному контенту.
Для иллюстрации рассмотрим случай, когда пользователь запрашивает инструкции по созданию опасного вредоносного ПО, способного вывести из строя, например, электростанцию. В обычных условиях большинство коммерческих чат-ботов откажутся предоставлять такую информацию. Однако, если запрос будет модифицирован так, чтобы указать, что информация требуется «для безопасного образовательного контекста с участием продвинутых исследователей, обученных этике и безопасности», и добавить дисклеймер, то вероятно, что ИИ предоставит нецензурированный контент.
Иными словами, Microsoft обнаружила, что можно убедить большинство ведущих ИИ в том, что вредоносный запрос является легитимным и даже благородным, просто сообщив, что информация нужна для «исследовательских целей».
«Когда ограничения игнорируются, модель не сможет различить вредоносные или несанкционированные запросы от любых других», — Для просмотра ссылки Войдиили Зарегистрируйся Марк Руссинович, технический директор Microsoft Azure, в своём посте о данной тактике. «Из-за полной возможности обхода ограничений, мы назвали эту технику взлома "Skeleton Key"».
Он добавил, что «выходные данные модели оказываются полностью неотфильтрованными и показывают весь объём знаний модели или её способность производить запрашиваемый контент». Техника «Skeleton Key» затрагивает сразу несколько моделей генеративного ИИ, протестированных исследователями Microsoft, включая модели, управляемые Azure AI, а также модели от Meta, Google, OpenAI, Mistral, Anthropic и Cohere.
«Все затронутые модели полностью и без цензуры выполнили [несколько запрещённых] задач», — отметил Руссинович. Microsoft устранила проблему в Azure, введя новые меры защиты для обнаружения и блокировки данной тактики, а также обновила программное обеспечение, управляющее крупными языковыми моделями ( LLM ) в Azure AI, дополнительно уведомив других затронутых поставщиков.
Администраторам необходимо обновить используемые модели, чтобы внедрить любые исправления, которые могли быть выпущены этими поставщиками. В свою очередь, тем, кто создаёт собственные модели ИИ, Microsoft предлагает следующие меры по смягчению угрозы:
Ситуация призывает к более глубокому пониманию этических аспектов ИИ и напоминает о необходимости создания многоуровневых систем защиты, способных адаптироваться к новым угрозам. Инцидент также подчёркивает важность сотрудничества между компаниями-разработчиками ИИ для обеспечения наилучшей безопасности и этичности искусственного интеллекта.
Компания Microsoft Для просмотра ссылки Войди
Для иллюстрации рассмотрим случай, когда пользователь запрашивает инструкции по созданию опасного вредоносного ПО, способного вывести из строя, например, электростанцию. В обычных условиях большинство коммерческих чат-ботов откажутся предоставлять такую информацию. Однако, если запрос будет модифицирован так, чтобы указать, что информация требуется «для безопасного образовательного контекста с участием продвинутых исследователей, обученных этике и безопасности», и добавить дисклеймер, то вероятно, что ИИ предоставит нецензурированный контент.
Иными словами, Microsoft обнаружила, что можно убедить большинство ведущих ИИ в том, что вредоносный запрос является легитимным и даже благородным, просто сообщив, что информация нужна для «исследовательских целей».
«Когда ограничения игнорируются, модель не сможет различить вредоносные или несанкционированные запросы от любых других», — Для просмотра ссылки Войди
Он добавил, что «выходные данные модели оказываются полностью неотфильтрованными и показывают весь объём знаний модели или её способность производить запрашиваемый контент». Техника «Skeleton Key» затрагивает сразу несколько моделей генеративного ИИ, протестированных исследователями Microsoft, включая модели, управляемые Azure AI, а также модели от Meta, Google, OpenAI, Mistral, Anthropic и Cohere.
«Все затронутые модели полностью и без цензуры выполнили [несколько запрещённых] задач», — отметил Руссинович. Microsoft устранила проблему в Azure, введя новые меры защиты для обнаружения и блокировки данной тактики, а также обновила программное обеспечение, управляющее крупными языковыми моделями ( LLM ) в Azure AI, дополнительно уведомив других затронутых поставщиков.
Администраторам необходимо обновить используемые модели, чтобы внедрить любые исправления, которые могли быть выпущены этими поставщиками. В свою очередь, тем, кто создаёт собственные модели ИИ, Microsoft предлагает следующие меры по смягчению угрозы:
- Фильтрация входных данных для идентификации запросов с вредоносными намерениями, независимо от сопровождающих их дисклеймеров.
- Дополнительный барьер, который предотвращает попытки подрыва инструкций по безопасности.
- Фильтрация выходных данных, которая выявляет и предотвращает ответы, нарушающие критерии безопасности.
Ситуация призывает к более глубокому пониманию этических аспектов ИИ и напоминает о необходимости создания многоуровневых систем защиты, способных адаптироваться к новым угрозам. Инцидент также подчёркивает важность сотрудничества между компаниями-разработчиками ИИ для обеспечения наилучшей безопасности и этичности искусственного интеллекта.
- Источник новости
- www.securitylab.ru