Компания OpenAI представила последнюю модель чат-бота — GPT-4o. Нейросеть стала «более человечной» и научилась воспринимать визуальные данные.
ИИ-инструмент «особенно лучше понимает видео и звук по сравнению с существующими моделями». Функция включает в себя распознавание эмоций и ритма дыхания.
В чат-бот также добавили полноценный Voice Mode для голосового взаимодействия.
Согласно презентации, продукт может помогать пользователям в различных бытовых вопросах, например в подготовке к собеседованию. В OpenAI также показали, как GPT-4o звонит в службу поддержки для замены iPhone.
Другие примеры продемонстрировали, что нейросеть умеет рассказывать «отцовские шутки», переводить разговор на двух языках в реальном времени, судить игру в «камень-ножницы-бумага» и отвечать сарказмом.
В одном из видео показали, как ChatGPT реагирует на первое знакомство со щенком пользователя.
«Здравствуй, Баузер! Разве ты не прелестнейшее создание?» — воскликнул чат-бот.
В OpenAI заявили, что буква «o» в GPT-4o означает слово «omni», которое символизирует шаг к более естественному взаимодействию человека с компьютером.
GPT-4o «намного быстрее и «на 50% дешевле», чем GPT-4 Turbo. Нейросеть отвечает на аудиозапрос за 2,3 с. Среднее время генерации чат-бота составляет 3,2 с, что сопоставимо со временем реакции человека в обычном разговоре, подчеркнули в OpenAI.
Версию нейросети для ввода только текста и изображений запустили 13 мая. Полный вариант с поддержкой видео появится «в ближайшие недели».
«Это похоже на ИИ из фильмов. Меня до сих пор немного удивляет, что это реально. Переход к времени отклика и выразительности на человеческом уровне оказался большим изменением», — Для просмотра ссылки Войди
По его словам, разговоры с нейросетью теперь кажутся «по-настоящему естественным».
Ранее Альтман Для просмотра ссылки Войди
Напомним, в апреле на платформе LMSYS Для просмотра ссылки Войди
- Источник новости
- forklog.com