Ученые из Университета Калифорнии в Лос-Анджелесе, Вашингтонского университета и компании Microsoft представили новый инструмент для оценки способностей искусственного интеллекта (ИИ) в области математического мышления в визуальном контексте - Для просмотра ссылки Войди
Для проверки эффективности различных моделей искусственного интеллекта ученые Для просмотра ссылки Войди
Результаты показывают, что CoT GPT-4, лучшая текстовая модель без визуальных улучшений, достигла общей точности в 29.2%. В сравнении с ней, лучшая мультимодальная модель Bard показала результат в 34.8%, что составляет 58% от человеческой производительности (34.8% против 60.3%). При этом, когда PoT GPT-4 дополняется подписями и текстом OCR от Bard, она достигает 33.9%, что почти соответствует результатам мультимодальной модели Bard.
Однако, анализ указывает на недостатки модели Bard, связанные с неверными расчетами и галлюцинациями, вызванными визуальным восприятием и текстовым рассуждением. Заметно, что GPT-4V, последняя мультимодальная версия GPT-4, достигла точности в 49.9%, что на 15.1% выше, чем у мультимодального Bard. Это первая всеобъемлющая оценка, использующая MATHVISTA, и она предоставляет ценные практические знания для дальнейшего улучшения математического мышления в мультимодальных системах ИИ.
- Источник новости
- www.securitylab.ru