Компания OpenAI выпустила чат-бота ChatGPT, который умеет отвечать на вопросы, признавать ошибки, спорить и отклонять неуместные запросы.
Разработчики создали модель с помощью обучения с подкреплением на основе обратной связи с человеком (RLHF). Они использовали те же методы, что и InstructGPT, но с дополнительными данными диалогов от людей.
Для сбора датасета бесед разработчики привлекли так называемых тренеров. Они проводили разговоры от имени человека и ИИ-помощника. Также инструкторы имели доступ к смоделированным предложениям, которые помогали им писать ответы.
Для модели вознаграждения за обучение с подкреплением команда записала разговоры между тренером и чат-ботом. Затем она случайным образом выбрала ответы, сгенерированные ИИ, и попросила инструкторов ранжировать их.
Чтобы улучшить точность модели, разработчики использовали проксимальную оптимизацию политик. Для этого процесса они выполнили несколько итераций.
По словам разработчиков, модель имеет ряд ограничений. Несмотря на правдоподобные ответы, ChatGPT часто ошибается, чувствительна к формулировкам, злоупотребляет определенными фразами, демонстрирует предвзятость и додумывает контекст.
Однако в компании заявили, что опыт развертывания GPT-3 и Codex позволил повысить безопасность модели и сократить количество недостоверных ответов благодаря RLHF.
ChatGPT Для просмотра ссылки Войди
По словам разработчиков, полученная информация поможет им в разработке более современных и продвинутых языковых моделей.«Нас особенно интересуют отзывы […], которые помогают нам выявлять и понимать новые риски и возможные меры по их устранению», — говорится в пресс-релизе.
ChatGPT обучали на суперкомпьютере Azure AI. Чат-бот является доработкой модели серии GPT-3.5, создание которой завершилось в начале 2022 года.
Напомним, в сентябре OpenAI представила Для просмотра ссылки Войди
В январе компания выпустила Для просмотра ссылки Войди
- Источник новости
- https://forklog.com/news/openai-predstavila-chat-bota-chatgpt