Проблема в китайской версии GPT-4o может привести к снижению производительности и ошибочным ответам.
OpenAI 13 мая Для просмотра ссылки Войдиили Зарегистрируйся свою новейшую модель искусственного интеллекта GPT-4o (Omni). Однако спустя несколько дней после выпуска модели китайские пользователи заметили, что в новой версии что-то пошло не так: токены, используемые для разбора текста, содержали множество спамных и порнографических фраз.
14 мая Тяньле Цай, аспирант Принстонского университета, изучающий эффективность вывода в крупных языковых моделях, получил доступ к публичной библиотеке токенов и Для просмотра ссылки Войдиили Зарегистрируйся на китайском языке, используемых моделью для обработки китайских запросов.
Оказалось, что только 3 из них были достаточно распространены, чтобы использоваться в повседневных разговорах; остальные представляли собой слова и выражения, связанные с азартными играми и порнографией. Самый длинный токен длился 10,5 китайских иероглифов и буквально означал «бесплатное японское порнографическое видео для просмотра».
В OpenAI не предоставили комментариев по ситуации.
GPT-4o должен был превзойти своих предшественников в обработке многоязычных задач благодаря новому инструменту токенизации, который лучше сжимает тексты на неанглийских языках. Однако для китайского языка новая токенизация привела к появлению большого количества бессмысленных фраз. Эксперты объясняют это недостаточной очисткой данных перед обучением модели.
Неправильные токены затрудняют понимание их смысла моделью, что может приводить к генерации ошибочных или небезопасных ответов, что позволяет исследователям обходить меры безопасности OpenAI.
Модели проще всего обрабатывать текст посимвольно, но это требует больше времени и ресурсов. Токены, представляющие собой последовательности символов с определённым значением, позволяют модели работать быстрее и эффективнее. С выходом GPT-4o OpenAI Для просмотра ссылки Войдиили Зарегистрируйся новый токенизатор, который добавил поддержку неанглийских языков. Всего в новом токенизаторе 200 000 токенов, около 24% из которых Для просмотра ссылки Войди или Зарегистрируйся включая русский, арабский и вьетнамский.
Инвестор в области ИИ Диди Дас считает, что основное преимущество нового токенизатора заключается в снижении стоимости обработки запросов на этих языках, а не в повышении качества. Дас также отметил, что токены на хинди и бенгали отражают обсуждения людей, включающие имена и названия, без спамных и порнографических выражений, в отличие от китайских токенов.
Разница обусловлена качеством обучающих данных: в китайских токенах много спам-слов, используемых в контексте порнографии и азартных игр. Это говорит о том, что корпус данных для китайского языка был загрязнен и не был должным образом очищен.
Такие загрязненные данные могут быть результатом практики, когда спам-сайты встраивают свою рекламу в контент других сайтов, чтобы обходить фильтры и индексироваться поисковыми системами, что Для просмотра ссылки Войдиили Зарегистрируйся китайские пользователи, которые сообщают о частом появлении спамных сайтов в результатах поиска Google.
Дас утверждает, что решение проблемы спама несложное и может включать простые методы фильтрации. Однако OpenAI, по мнению Даса, не провела должную очистку данных для китайского языка перед выпуском GPT-4o. Стоит отметить, что подобные проблемы отсутствовали в предыдущих версиях – GPT-3.5 и GPT-4.
Пользователи также обнаружили, что токены можно использовать для обхода защитных механизмов модели, заставляя её генерировать запрещенные ответы. Например, запрос на перевод длинных китайских токенов может привести к появлению слов, не включенных в запрос, что является признаком «галлюцинаций» модели.
Проблема возникает, когда токенизатор и сама языковая модель обучаются на разных наборах данных. Из-за этого модель не понимает редко используемые токены, что может вызывать странные и небезопасные ответы.
Решение проблемы заключается в том, чтобы набор данных для токенизатора соответствовал набору данных для модели, чтобы избежать расхождений. Однако это сложно реализовать на практике, так как обучение языковых моделей занимает месяцы и требует постоянного улучшения и фильтрации данных.
Эксперты считают, что проблема несложна для решения, но может усложниться с развитием модели, особенно в мультимодальных системах, включающих текстовые и визуальные элементы. Если проблема с китайскими токенами не будет решена, она может усугубиться при работе с визуальными токенами, что требует еще более сложной фильтрации данных.
OpenAI 13 мая Для просмотра ссылки Войди
14 мая Тяньле Цай, аспирант Принстонского университета, изучающий эффективность вывода в крупных языковых моделях, получил доступ к публичной библиотеке токенов и Для просмотра ссылки Войди
Оказалось, что только 3 из них были достаточно распространены, чтобы использоваться в повседневных разговорах; остальные представляли собой слова и выражения, связанные с азартными играми и порнографией. Самый длинный токен длился 10,5 китайских иероглифов и буквально означал «бесплатное японское порнографическое видео для просмотра».
В OpenAI не предоставили комментариев по ситуации.
GPT-4o должен был превзойти своих предшественников в обработке многоязычных задач благодаря новому инструменту токенизации, который лучше сжимает тексты на неанглийских языках. Однако для китайского языка новая токенизация привела к появлению большого количества бессмысленных фраз. Эксперты объясняют это недостаточной очисткой данных перед обучением модели.
Неправильные токены затрудняют понимание их смысла моделью, что может приводить к генерации ошибочных или небезопасных ответов, что позволяет исследователям обходить меры безопасности OpenAI.
Модели проще всего обрабатывать текст посимвольно, но это требует больше времени и ресурсов. Токены, представляющие собой последовательности символов с определённым значением, позволяют модели работать быстрее и эффективнее. С выходом GPT-4o OpenAI Для просмотра ссылки Войди
Инвестор в области ИИ Диди Дас считает, что основное преимущество нового токенизатора заключается в снижении стоимости обработки запросов на этих языках, а не в повышении качества. Дас также отметил, что токены на хинди и бенгали отражают обсуждения людей, включающие имена и названия, без спамных и порнографических выражений, в отличие от китайских токенов.
Разница обусловлена качеством обучающих данных: в китайских токенах много спам-слов, используемых в контексте порнографии и азартных игр. Это говорит о том, что корпус данных для китайского языка был загрязнен и не был должным образом очищен.
Такие загрязненные данные могут быть результатом практики, когда спам-сайты встраивают свою рекламу в контент других сайтов, чтобы обходить фильтры и индексироваться поисковыми системами, что Для просмотра ссылки Войди
Дас утверждает, что решение проблемы спама несложное и может включать простые методы фильтрации. Однако OpenAI, по мнению Даса, не провела должную очистку данных для китайского языка перед выпуском GPT-4o. Стоит отметить, что подобные проблемы отсутствовали в предыдущих версиях – GPT-3.5 и GPT-4.
Пользователи также обнаружили, что токены можно использовать для обхода защитных механизмов модели, заставляя её генерировать запрещенные ответы. Например, запрос на перевод длинных китайских токенов может привести к появлению слов, не включенных в запрос, что является признаком «галлюцинаций» модели.
Проблема возникает, когда токенизатор и сама языковая модель обучаются на разных наборах данных. Из-за этого модель не понимает редко используемые токены, что может вызывать странные и небезопасные ответы.
Решение проблемы заключается в том, чтобы набор данных для токенизатора соответствовал набору данных для модели, чтобы избежать расхождений. Однако это сложно реализовать на практике, так как обучение языковых моделей занимает месяцы и требует постоянного улучшения и фильтрации данных.
Эксперты считают, что проблема несложна для решения, но может усложниться с развитием модели, особенно в мультимодальных системах, включающих текстовые и визуальные элементы. Если проблема с китайскими токенами не будет решена, она может усугубиться при работе с визуальными токенами, что требует еще более сложной фильтрации данных.
- Источник новости
- www.securitylab.ru