Эксперты из США смогли Для просмотра ссылки Войди
По данным исследователей Университета Карнеги-Меллона и Центра безопасности искусственного интеллекта в Сан-Франциско, существует «довольно простой» метод взлома языковых моделей. Он включает добавление длинных суффиксов-символов к подсказкам для нейросетей.
Аналитики проверили способ на примере запроса об изготовлении бомбы, который различные ИИ ранее отказывались предоставлять.
Также у нейросетей попросили присвоить чужую личность, написать «вызывающий» пост в соцсети и придумать план по краже денег из благотворительной организации.
Ученые отметили, что компании-разработчики могут блокировать определенные суффиксы, однако не существует известного способа предотвратить все атаки подобного рода. По их мнению, такая ситуация несет угрозу распространения фейков и опасного контента.
«Очевидного решения нет. Вы можете создать столько таких атак, сколько захотите, за короткий промежуток времени», — заявил профессор Зико Колтер.
В докладе подчеркиваются риски, которые необходимо устранить перед развертыванием чат-ботов в важных областях бизнеса и госуправления.
Исследователи уже поделились данными с ИИ-компаниями Anthropic, Google и OpenAI.
Представитель последней Для просмотра ссылки Войди
Напомним, аналитики Стэнфорда и Калифорнийского университета пришли к выводу, что точность ChatGPT Для просмотра ссылки Войди
- Источник новости
- forklog.com