Новости Grok 1.5 Vision: ИИ теперь воспринимает мир как человек

NewsMaker

I'm just a script
Премиум
13,579
20
8 Ноя 2022
Grok-1.5V стал первым шагом к созданию ИИ, который может разделять пространство и время.


vv3juwwpe4ctyvhwc89bxr2cpfuw7ujw.jpg


Компания Илона Маска xAI Для просмотра ссылки Войди или Зарегистрируйся свою первую мультимодальную модель, Grok 1.5 Vision (Grok-1.5V). Модель разработана для конкуренции с OpenAI и обладает возможностью анализа текстов, документов, графиков, диаграмм, скриншотов и фотографий.

В ноябре 2023 года Для просмотра ссылки Войди или Зарегистрируйся а в марте xAI Для просмотра ссылки Войди или Зарегистрируйся архитектуру и веса базовой модели. Новая мультимодальная модель Grok 1.5 Vision появилась всего через месяц после.

Согласно данным с сайта компании, Grok 1.5V способен связывать физический и цифровой миры. Модель может, например, преобразовать изображение блок-схемы в код Python или рассчитать калорийность продукта по этикетке с пищевой ценностью. Также она может создать сказку на основе рисунка ребенка или объяснить, почему смешной тот или иной мем.


in80mpwq8c0zp7dckupeylqea7z98mm5.png


Пример работы с Grok 1.5V (переведено)

Модель не только развлекает, но и выполняет практические задачи: преобразует таблицы в формат CSV, помогает исправлять ошибки в коде, а также дает советы по ремонту дома на основе предоставленных изображений. Результаты тестов показали, что Grok 1.5V значительно превосходит другие модели ИИ.


2hcgtl95ffj1gco7e40xhv38c6cm757b.png


Сравнение выполнения различных задач Grok 1.5V с другими моделями

Кроме того, xAI представила новый бенчмарк RealWorldQA, который оценивает способность понимания реального мира в пространственном аспекте. Новый бенчмарк RealWorldQA создан для оценки базовых способностей понимания реального мира мультимодальными моделями.

Несмотря на то, что многие задачи из бенчмарка кажутся простыми для человека, они представляют сложность для современных моделей. В первом выпуске RealWorldQA представлено более 700 изображений с вопросами и проверяемыми ответами, включая анонимизированные изображения из транспортных средств и другие реальные сценарии. Набор данных Для просмотра ссылки Войди или Зарегистрируйся под лицензией Для просмотра ссылки Войди или Зарегистрируйся


tkzys3te139wqk33yf3hecnjj841mq44.png


Тест для определения пространственного восприятия модели (переведено)

Илон Маск в недавнем интервью выразил мнение, что к концу 2025 года ИИ Для просмотра ссылки Войди или Зарегистрируйся Все внимание теперь приковано к тому, какие улучшения внесет его компания в разработку ИИ в ближайшие месяцы. Компания xAI также планирует значительные улучшения в других областях, таких как аудио, голос и видео.

Модель Grok 1.5 Vision в скором времени станет доступна для тестирования существующим пользователям.
 
Источник новости
www.securitylab.ru

Похожие темы