Ученые, встречайте LLEMMA: ваш новый помощник в математике.
20 октября 2023 года исследователи из различных университетов и компании Eleuther AI, известной своими открытыми моделями, Для просмотра ссылки Войдиили Зарегистрируйся - открытую модель большого языкового обучения (LLM), специально разработанную для решения математических задач.
LLEMMA превосходит другие ведущие математические модели, включая Minerva от Google , предоставляя надежную платформу для дальнейших исследований. Несмотря на то что LLEMMA не является идеальным решателем математических задач, это важный шаг в разработке специализированных моделей и может стимулировать исследования ИИ в новых направлениях.
LLEMMA была создана на основе Code Llama, адаптации открытой модели Llama 2, настроенной на специфические наборы данных кода. Исследователи разработали две версии модели: одну с 7 миллиардами параметров и другую с 34 миллиардами. Эти модели были дополнительно настроены на Proof-Pile-2, набор данных, созданный исследователями, который состоит из научных статей, веб-данных с математическим содержанием и математического кода.
В своих экспериментах исследователи обнаружили, что LLEMMA показывает лучшую производительность по сравнению со всеми известными открытыми моделями на математических эталонах. LLEMMA также может использовать инструменты и доказывать формальные теоремы без дополнительной настройки, а также использовать вычислительные инструменты, такие как интерпретатор Python, для решения математических задач.
Исследователи выпустили все свои активы, включая модели с 7 и 34 миллиардами параметров, набор данных Proof-Pile-2 и код для воспроизведения своих экспериментов. Согласно исследователям, LLEMMA является первой открытой моделью, которая соответствует производительности закрытых моделей последнего поколения.
Они выразили надежду, что LLEMMA и Proof-Pile-2 станут полезной базой для будущих работ по пониманию обобщения языковых моделей, исследованию пределов доменно-специфичных языковых моделей и улучшению математических возможностей языковых моделей.
В целом, LLEMMA является частью более широкой инициативы по разработке LLM, специализирующихся в конкретной области, демонстрируя, что с улучшенными данными и большими наборами данных даже меньшие модели могут давать значительные результаты.
20 октября 2023 года исследователи из различных университетов и компании Eleuther AI, известной своими открытыми моделями, Для просмотра ссылки Войди
LLEMMA превосходит другие ведущие математические модели, включая Minerva от Google , предоставляя надежную платформу для дальнейших исследований. Несмотря на то что LLEMMA не является идеальным решателем математических задач, это важный шаг в разработке специализированных моделей и может стимулировать исследования ИИ в новых направлениях.
LLEMMA была создана на основе Code Llama, адаптации открытой модели Llama 2, настроенной на специфические наборы данных кода. Исследователи разработали две версии модели: одну с 7 миллиардами параметров и другую с 34 миллиардами. Эти модели были дополнительно настроены на Proof-Pile-2, набор данных, созданный исследователями, который состоит из научных статей, веб-данных с математическим содержанием и математического кода.
В своих экспериментах исследователи обнаружили, что LLEMMA показывает лучшую производительность по сравнению со всеми известными открытыми моделями на математических эталонах. LLEMMA также может использовать инструменты и доказывать формальные теоремы без дополнительной настройки, а также использовать вычислительные инструменты, такие как интерпретатор Python, для решения математических задач.
Исследователи выпустили все свои активы, включая модели с 7 и 34 миллиардами параметров, набор данных Proof-Pile-2 и код для воспроизведения своих экспериментов. Согласно исследователям, LLEMMA является первой открытой моделью, которая соответствует производительности закрытых моделей последнего поколения.
Они выразили надежду, что LLEMMA и Proof-Pile-2 станут полезной базой для будущих работ по пониманию обобщения языковых моделей, исследованию пределов доменно-специфичных языковых моделей и улучшению математических возможностей языковых моделей.
В целом, LLEMMA является частью более широкой инициативы по разработке LLM, специализирующихся в конкретной области, демонстрируя, что с улучшенными данными и большими наборами данных даже меньшие модели могут давать значительные результаты.
- Источник новости
- www.securitylab.ru