Исследователи взломали LeChat и ChatGLM через скрытые команды.
Группа исследователей из Калифорнийского университета в Сан-Диего (UCSD) и Наньянского технологического университета в Сингапуре Для просмотра ссылки Войдиили Зарегистрируйся новый метод атаки на языковые модели искусственного интеллекта (LLM), который позволяет злоумышленникам собирать личную информацию пользователей, такие как имена, идентификационные номера, данные банковских карт и адреса. Этот метод получил название Imprompter и представляет собой алгоритм, который скрытно встраивает вредоносные инструкции в команды, подаваемые языковой модели.
Ведущий автор исследования, Сяохань Фу, аспирант компьютерных наук UCSD, объяснил, что метод работает путём внедрения замаскированных инструкций, которые на первый взгляд выглядят как случайный набор символов. Однако языковая модель понимает их как команды для поиска и сбора личной информации. Злоумышленники могут использовать эти скрытые инструкции, чтобы заставить модель собирать имена, адреса электронной почты, платежные данные и другую конфиденциальную информацию, а затем отправлять её на сервер, находящийся под контролем хакеров. Вся операция проходит незаметно для пользователя.
Исследователи протестировали атаку на двух популярных языковых моделях: LeChat от французской компании Mistral AI и китайском чат-боте ChatGLM. Оба теста показали высокую эффективность атаки — в 80% случаев злоумышленникам удалось извлечь личные данные из тестовых разговоров. В ответ на это Mistral AI заявила, что уже устранила уязвимость, отключив одну из функций чата, которая использовалась для проведения атаки. В свою очередь, ChatGLM подтвердила, что придает большое значение вопросам безопасности, но отказалась от прямого комментария касательно данной уязвимости.
Механизм атаки Imprompter заключается в том, что модель получает скрытую команду для поиска персональных данных в тексте разговора, а затем форматирует их в виде Markdown-команды для изображения. Личные данные присоединяются к URL-адресу, контролируемому злоумышленниками, и отправляются на их сервер. Пользователь ничего не замечает, поскольку модель возвращает в чат невидимый пиксель — прозрачное изображение размером 1х1.
По словам профессора UCSD Эрланса Фернандеса, метод достаточно сложен, поскольку замаскированная команда должна одновременно находить личную информацию, генерировать рабочий URL, применять синтаксис Markdown и при этом действовать скрытно. Фернандес сравнил атаку с вредоносным программным обеспечением из-за её способности выполнять нежелательные функции, оставаясь незамеченной пользователем. Он отметил, что обычно для подобных операций требуется написать большое количество кода, как в случае с традиционным вредоносным ПО, но в данном случае всё скрывается в коротком и, на первый взгляд, бессмысленном запросе.
Представители Mistral AI заявили, что компания приветствует помощь исследователей в улучшении безопасности своих продуктов. В частности, после обнаружения уязвимости Mistral AI оперативно внесла необходимые изменения, классифицировав проблему как уязвимость средней степени опасности. Компания заблокировала возможность использования синтаксиса Markdown для загрузки внешних изображений через URL, тем самым закрыв лазейку для злоумышленников.
Фернандес считает, что это один из первых случаев, когда конкретный пример атаки с использованием вредоносного промпта привёл к исправлению уязвимости в продукте, основанном на LLM. Однако он отметил, что в долгосрочной перспективе ограничение возможностей языковых моделей может оказаться «контрпродуктивным», так как это уменьшает их функциональность.
Тем временем, разработчики ChatGLM заявили, что всегда уделяли большое внимание безопасности своих моделей и продолжают активно сотрудничать с открытым сообществом для повышения их защищённости. По их словам, их модель является безопасной, и в приоритете всегда стоит защита конфиденциальности пользователей.
Исследование Imprompter также стало важным шагом в направлении улучшения методов атак на языковые модели. Дэн Макинерни, ведущий исследователь угроз в компании Protect AI, подчеркнул, что Imprompter представляет собой алгоритм для автоматизированного создания запросов, которые можно использовать для атак с целью похищения личных данных, манипулирования изображениями или выполнения других вредоносных действий. Хотя некоторые аспекты атаки перекликаются с ранее известными методами, новый алгоритм позволяет связать их в единое целое, что делает атаку более эффективной.
С ростом популярности языковых моделей и их использования в повседневной жизни, растут и риски подобных атак. Макинерни отметил, что запуск ИИ-агентов, которые принимают произвольные данные от пользователей, нужно считать деятельностью повышенного риска, требующей серьёзного тестирования перед внедрением. Компании должны внимательно оценивать, как их модели взаимодействуют с данными, и учитывать возможные злоупотребления.
Для обычных пользователей это означает, что стоит тщательно продумывать, какую информацию они передают через чат-ботов и другие системы искусственного интеллекта, а также внимательно относиться к промптам, особенно если они были найдены в интернете
Группа исследователей из Калифорнийского университета в Сан-Диего (UCSD) и Наньянского технологического университета в Сингапуре Для просмотра ссылки Войди
Ведущий автор исследования, Сяохань Фу, аспирант компьютерных наук UCSD, объяснил, что метод работает путём внедрения замаскированных инструкций, которые на первый взгляд выглядят как случайный набор символов. Однако языковая модель понимает их как команды для поиска и сбора личной информации. Злоумышленники могут использовать эти скрытые инструкции, чтобы заставить модель собирать имена, адреса электронной почты, платежные данные и другую конфиденциальную информацию, а затем отправлять её на сервер, находящийся под контролем хакеров. Вся операция проходит незаметно для пользователя.
Исследователи протестировали атаку на двух популярных языковых моделях: LeChat от французской компании Mistral AI и китайском чат-боте ChatGLM. Оба теста показали высокую эффективность атаки — в 80% случаев злоумышленникам удалось извлечь личные данные из тестовых разговоров. В ответ на это Mistral AI заявила, что уже устранила уязвимость, отключив одну из функций чата, которая использовалась для проведения атаки. В свою очередь, ChatGLM подтвердила, что придает большое значение вопросам безопасности, но отказалась от прямого комментария касательно данной уязвимости.
Механизм атаки Imprompter заключается в том, что модель получает скрытую команду для поиска персональных данных в тексте разговора, а затем форматирует их в виде Markdown-команды для изображения. Личные данные присоединяются к URL-адресу, контролируемому злоумышленниками, и отправляются на их сервер. Пользователь ничего не замечает, поскольку модель возвращает в чат невидимый пиксель — прозрачное изображение размером 1х1.
По словам профессора UCSD Эрланса Фернандеса, метод достаточно сложен, поскольку замаскированная команда должна одновременно находить личную информацию, генерировать рабочий URL, применять синтаксис Markdown и при этом действовать скрытно. Фернандес сравнил атаку с вредоносным программным обеспечением из-за её способности выполнять нежелательные функции, оставаясь незамеченной пользователем. Он отметил, что обычно для подобных операций требуется написать большое количество кода, как в случае с традиционным вредоносным ПО, но в данном случае всё скрывается в коротком и, на первый взгляд, бессмысленном запросе.
Представители Mistral AI заявили, что компания приветствует помощь исследователей в улучшении безопасности своих продуктов. В частности, после обнаружения уязвимости Mistral AI оперативно внесла необходимые изменения, классифицировав проблему как уязвимость средней степени опасности. Компания заблокировала возможность использования синтаксиса Markdown для загрузки внешних изображений через URL, тем самым закрыв лазейку для злоумышленников.
Фернандес считает, что это один из первых случаев, когда конкретный пример атаки с использованием вредоносного промпта привёл к исправлению уязвимости в продукте, основанном на LLM. Однако он отметил, что в долгосрочной перспективе ограничение возможностей языковых моделей может оказаться «контрпродуктивным», так как это уменьшает их функциональность.
Тем временем, разработчики ChatGLM заявили, что всегда уделяли большое внимание безопасности своих моделей и продолжают активно сотрудничать с открытым сообществом для повышения их защищённости. По их словам, их модель является безопасной, и в приоритете всегда стоит защита конфиденциальности пользователей.
Исследование Imprompter также стало важным шагом в направлении улучшения методов атак на языковые модели. Дэн Макинерни, ведущий исследователь угроз в компании Protect AI, подчеркнул, что Imprompter представляет собой алгоритм для автоматизированного создания запросов, которые можно использовать для атак с целью похищения личных данных, манипулирования изображениями или выполнения других вредоносных действий. Хотя некоторые аспекты атаки перекликаются с ранее известными методами, новый алгоритм позволяет связать их в единое целое, что делает атаку более эффективной.
С ростом популярности языковых моделей и их использования в повседневной жизни, растут и риски подобных атак. Макинерни отметил, что запуск ИИ-агентов, которые принимают произвольные данные от пользователей, нужно считать деятельностью повышенного риска, требующей серьёзного тестирования перед внедрением. Компании должны внимательно оценивать, как их модели взаимодействуют с данными, и учитывать возможные злоупотребления.
Для обычных пользователей это означает, что стоит тщательно продумывать, какую информацию они передают через чат-ботов и другие системы искусственного интеллекта, а также внимательно относиться к промптам, особенно если они были найдены в интернете
- Источник новости
- www.securitylab.ru