Новости DeepSeek Coder V2: первая открытая модель кодирования, превзошедшая GPT-4 Turbo

NewsMaker

I'm just a script
Премиум
13,850
20
8 Ноя 2022
Китайский ИИ бросил вызов гегемонии OpenAI и Anthropic.


qogrw8v9io1qmlkpm6wuqls5v463ayns.jpg


Китайский стартап DeepSeek Для просмотра ссылки Войди или Зарегистрируйся DeepSeek Coder V2 - первую открытую модель для программирования, превзошедшую по производительности закрытые аналоги GPT-4 Turbo, Claude 3 Opus, Gemini 1.5 Pro и опередившую Llama 3-70B.

Базирующаяся на предыдущей модели DeepSeek-V2, новинка демонстрирует выдающиеся результаты в кодировании и математических задачах, поддерживает свыше 300 языков программирования, сохраняя высокие способности к общему рассуждению и языковому пониманию.

Основанная в прошлом году с миссией «разгадать тайну AGI с помощью любопытства», DeepSeek стала значимым игроком на китайском рынке ИИ, присоединившись к таким компаниям, как SenseTime, Megvii Technology и Baidu. Фактически, в течение года после своего запуска стартап уже открыл доступ к ряду моделей, включая семейство DeepSeek Coder. Первая версия DeepSeek Coder, с числом параметров до 33 миллиардов, поддерживала 86 языков программирования и контекстное окно на 16 тысяч токенов. Новая версия V2 расширяет поддержку до 338 языков и увеличивает контекстное окно до 128 тысяч, что позволяет справляться с более сложными задачами программирования.

На тестах MBPP+, HumanEval и Aider, предназначенных для оценки генерации кода и решения задач, DeepSeek Coder V2 набрал 76.2, 90.2 и 73.7 баллов соответственно, опередив большинство моделей, включая GPT-4 Turbo, Claude 3 Opus, Gemini 1.5 Pro и Llama-3 70B. Аналогичные результаты были получены на тестах MATH и GSM8K, оценивающих математические способности модели.

Единственной моделью, превзошедшей DeepSeek Coder V2 на нескольких бенчмарках, стала GPT-4o, получившая более высокие баллы на HumanEval, LiveCode Bench, MATH и GSM8K. По словам разработчиков, таких результатов удалось достичь благодаря архитектуре Mixture of Experts и дополнительному обучению базовой модели DeepSeek V2 на 6 триллионах токенов, включающих программный код из GitHub и данные из CommonCrawl. Такой подход позволяет модели с 16 и 236 миллиардами параметров активировать только 2.4 и 21 миллиарда «экспертных» параметров для выполнения задач, оптимизируя вычислительные ресурсы и прикладные нужды.

В дополнение к превосходным результатам в задачах, связанных с кодированием и математикой, DeepSeek Coder V2 также демонстрирует достойную производительность в задачах общего рассуждения и понимания языка. Например, в эталонном тесте MMLU, разработанном для оценки понимания языка в различных задачах, он набрал 79,2 балла. Это значительно лучше, чем у других моделей, ориентированных на код, и почти сопоставимо с результатом Llama-3 70B. GPT-4o и Claude 3 Opus, со своей стороны, продолжают лидировать в категории MMLU с результатами 88,7 и 88,6 соответственно, а GPT-4 Turbo следует сразу за ними.

На данный момент DeepSeek Coder V2 предлагается Для просмотра ссылки Войди или Зарегистрируйся , которая позволяет использовать ее как в исследовательских, так и в коммерческих целях без ограничений. Пользователи могут загрузить версии модели объемом 16 и 236 миллиардов параметров в базовом варианте и с дополнительными инструкциями через Hugging Face. Кроме того, компания также предоставляет доступ к моделям через Для просмотра ссылки Войди или Зарегистрируйся по модели оплаты по факту использования. Для тех, кто хочет сначала протестировать возможности моделей, компания предлагает опцию взаимодействия с DeepSeek Coder V2 через чат-бота.
 
Источник новости
www.securitylab.ru

Похожие темы