Неужели эпоха нейросетей закончится, не успев начаться?
В минувший вторник исследователи из Стэнфордского университета и Калифорнийского университета в Беркли опубликовали совместную научную работу, в которой утверждается, что ответы модели GPT-4 меняются с течением времени. Эта работа подпитывает распространённое, но пока недоказанное мнение о том, что производительность популярной ИИ-модели естественного языка за последние несколько месяцев сильно ухудшилась во многих задачах.
В исследовании под названием «Как меняется поведение ChatGPT с течением времени?», Для просмотра ссылки Войдиили Зарегистрируйся на arXiv , Линцзяо Чэнь, Матэй Захария и Джеймс Зоу выразили сомнение в постоянно высокой производительности крупных языковых моделей OpenAI , в частности GPT-3.5 и GPT-4.
Используя доступ через API , специалисты тестировали версии этих моделей за март и июнь 2023 года на таких заданиях, как решение математических задач, ответы на деликатные вопросы, генерация кода и визуальное мышление. В частности, способность GPT-4 определять простые числа, по данным исследователей, резко упала с точности 97,6% в марте до всего 2,4% уже в июне. Но вот что странно — модель GPT-3.5 в большинстве задач наоборот показала улучшенную производительность за тот же период.
Сравнение точности ответов GPT-3.5 и GPT-4 в марте и июне
Мотивация провести подобное исследование у учёных появилось вскоре после того, как люди начали массово жаловаться, что производительность GPT-4 якобы стала постепенно снижаться. Одна из популярных теорий о возможных причинах подразумевает искусственное ограничение производительности самой компанией OpenAI для снижения вычислительных затрат, повышенной скорости отклика и экономии ресурса графических процессоров. Ещё одна забавная теория заключается в том, что «тупым» GPT-4 сделали люди, которые просто часто задают ему глупые вопросы.
Между тем, OpenAI последовательно отрицает любые заявления о том, что возможности GPT-4 ухудшились. Только в прошлый четверг вице-президент OpenAI по продуктам Питер Велиндер Для просмотра ссылки Войдиили Зарегистрируйся в своём Twitter *: «Нет, мы не делали GPT-4 глупее. Скорее наоборот: мы делаем каждую новую версию умнее предыдущей».
Хотя новое исследование может показаться убедительным доказательством догадок критиков GPT-4, другие эксперты уверены, что не стоит делать поспешных выводов. Профессор информатики Принстонского университета Арвинд Нараянан считает, что результаты проведённого исследования не доказывают однозначно снижение производительности GPT-4. По его мнению, вполне вероятно, что OpenAI просто провела тонкую настройку модели, в результате чего в ряде задач модель стала вести себя лучше, а в некоторых хуже. Но и это неточно.
Так или иначе, повсеместные заявления о снижении производительности GPT-4 заставили OpenAI провести собственное расследование. «Команда знает о сообщаемом регрессе и изучает этот вопрос», — Для просмотра ссылки Войдиили Зарегистрируйся в эту среду Логан Килпатрик, глава отдела разработки OpenAI.
Возможно, светлые умы на стороне смогли бы помочь разработчикам OpenAI выяснить причину регресса их системы, однако исходный код GPT-4 закрыт для сторонних разработчиков, за что компанию порицают при каждом удобном случае.
OpenAI не раскрывает источники обучающих материалов для GPT-4, исходный код или даже описание архитектуры модели. С закрытым «чёрным ящиком» вроде GPT-4 исследователи остаются «блуждать в темноте», пытаясь определить свойства системы, которая может иметь дополнительные неизвестные компоненты. Кроме того, модель может измениться в любое время без предупреждения.
Исследователь ИИ доктор Саша Лусьони из Hugging Face также считает непрозрачность OpenAI проблематичной: «Любые результаты на закрытых моделях невоспроизводимы и непроверяемы. Следовательно, с научной точки зрения мы сравниваем енотов и белок».
Лусьони также отметила отсутствие стандартизированных критериев в этой области, которые облегчили бы исследователям сравнение разных версий одной и той же языковой модели: «Они должны фактически предоставлять исходные результаты, а не только общие метрики, чтобы мы могли посмотреть, где они хороши и как они ошибаются».
Исследователь искусственного интеллекта Саймон Уиллисон согласился с Лусьони: «Честно говоря, отсутствие заметок о выпуске и прозрачности, возможно, является самой большой проблемой здесь. Как мы должны создавать надёжное программное обеспечение на основе платформы, которая меняется совершенно недокументированными и таинственными способами каждые несколько месяцев?».
Таким образом, хотя вышеописанная исследовательская работа может быть неидеальной и даже содержать какие-то огрехи в способе тестирования моделей от OpenAI, она поднимает важные вопросы о необходимости большей прозрачности и воспроизводимости результатов при выпуске обновлений крупных языковых моделей. Без этого разработчики и исследователи будут продолжать сталкиваться с неопределённостью и трудностями при работе с этими быстро меняющимися «чёрными ящиками» с искусственным интеллектом.
<span style="font-size: 8pt;">* Социальная сеть запрещена на территории Российской Федерации.</span>
В минувший вторник исследователи из Стэнфордского университета и Калифорнийского университета в Беркли опубликовали совместную научную работу, в которой утверждается, что ответы модели GPT-4 меняются с течением времени. Эта работа подпитывает распространённое, но пока недоказанное мнение о том, что производительность популярной ИИ-модели естественного языка за последние несколько месяцев сильно ухудшилась во многих задачах.
В исследовании под названием «Как меняется поведение ChatGPT с течением времени?», Для просмотра ссылки Войди
Используя доступ через API , специалисты тестировали версии этих моделей за март и июнь 2023 года на таких заданиях, как решение математических задач, ответы на деликатные вопросы, генерация кода и визуальное мышление. В частности, способность GPT-4 определять простые числа, по данным исследователей, резко упала с точности 97,6% в марте до всего 2,4% уже в июне. Но вот что странно — модель GPT-3.5 в большинстве задач наоборот показала улучшенную производительность за тот же период.
Сравнение точности ответов GPT-3.5 и GPT-4 в марте и июне
Мотивация провести подобное исследование у учёных появилось вскоре после того, как люди начали массово жаловаться, что производительность GPT-4 якобы стала постепенно снижаться. Одна из популярных теорий о возможных причинах подразумевает искусственное ограничение производительности самой компанией OpenAI для снижения вычислительных затрат, повышенной скорости отклика и экономии ресурса графических процессоров. Ещё одна забавная теория заключается в том, что «тупым» GPT-4 сделали люди, которые просто часто задают ему глупые вопросы.
Между тем, OpenAI последовательно отрицает любые заявления о том, что возможности GPT-4 ухудшились. Только в прошлый четверг вице-президент OpenAI по продуктам Питер Велиндер Для просмотра ссылки Войди
Хотя новое исследование может показаться убедительным доказательством догадок критиков GPT-4, другие эксперты уверены, что не стоит делать поспешных выводов. Профессор информатики Принстонского университета Арвинд Нараянан считает, что результаты проведённого исследования не доказывают однозначно снижение производительности GPT-4. По его мнению, вполне вероятно, что OpenAI просто провела тонкую настройку модели, в результате чего в ряде задач модель стала вести себя лучше, а в некоторых хуже. Но и это неточно.
Так или иначе, повсеместные заявления о снижении производительности GPT-4 заставили OpenAI провести собственное расследование. «Команда знает о сообщаемом регрессе и изучает этот вопрос», — Для просмотра ссылки Войди
Возможно, светлые умы на стороне смогли бы помочь разработчикам OpenAI выяснить причину регресса их системы, однако исходный код GPT-4 закрыт для сторонних разработчиков, за что компанию порицают при каждом удобном случае.
OpenAI не раскрывает источники обучающих материалов для GPT-4, исходный код или даже описание архитектуры модели. С закрытым «чёрным ящиком» вроде GPT-4 исследователи остаются «блуждать в темноте», пытаясь определить свойства системы, которая может иметь дополнительные неизвестные компоненты. Кроме того, модель может измениться в любое время без предупреждения.
Исследователь ИИ доктор Саша Лусьони из Hugging Face также считает непрозрачность OpenAI проблематичной: «Любые результаты на закрытых моделях невоспроизводимы и непроверяемы. Следовательно, с научной точки зрения мы сравниваем енотов и белок».
Лусьони также отметила отсутствие стандартизированных критериев в этой области, которые облегчили бы исследователям сравнение разных версий одной и той же языковой модели: «Они должны фактически предоставлять исходные результаты, а не только общие метрики, чтобы мы могли посмотреть, где они хороши и как они ошибаются».
Исследователь искусственного интеллекта Саймон Уиллисон согласился с Лусьони: «Честно говоря, отсутствие заметок о выпуске и прозрачности, возможно, является самой большой проблемой здесь. Как мы должны создавать надёжное программное обеспечение на основе платформы, которая меняется совершенно недокументированными и таинственными способами каждые несколько месяцев?».
Таким образом, хотя вышеописанная исследовательская работа может быть неидеальной и даже содержать какие-то огрехи в способе тестирования моделей от OpenAI, она поднимает важные вопросы о необходимости большей прозрачности и воспроизводимости результатов при выпуске обновлений крупных языковых моделей. Без этого разработчики и исследователи будут продолжать сталкиваться с неопределённостью и трудностями при работе с этими быстро меняющимися «чёрными ящиками» с искусственным интеллектом.
<span style="font-size: 8pt;">* Социальная сеть запрещена на территории Российской Федерации.</span>
- Источник новости
- www.securitylab.ru