Новости Эффективная настройка LLM: Microsoft представляет методику MoRA

NewsMaker

I'm just a script
Премиум
12,454
18
8 Ноя 2022
Учёные раскрыли, как снизить затраты на обучение больших языковых моделей.


5z3sch2rmsn541a19yc8g7qq2xs1h3dj.jpg


Специалисты из Microsoft и Бэйханского Университета Для просмотра ссылки Войди или Зарегистрируйся инновационную технику для тонкой настройки больших языковых моделей (LLM), которая значительно снижает затраты.

Новая методика «MoRA» представляет собой параметрически эффективную технику тонкой настройки ( PEFT ), устраняющую ограничения другого популярного метода – Для просмотра ссылки Войди или Зарегистрируйся (low-rank adaptation). MoRA особенно полезна, когда необходимо обучить модель новым знаниям. С ростом популярности PEFT-методов в бизнес-среде, MoRA может стать важным инструментом для разработчиков LLM-приложений.

Преимущества и недостатки LoRA

Классическая тонкая настройка требует обновления всех параметров модели, что становится затратным и медленным процессом при наличии миллиардов параметров. PEFT-методы позволяют найти оптимальное подмножество параметров, необходимых для настройки модели под конкретную задачу.

LoRA стала популярной благодаря способности обновлять параметры через матрицы низкого ранга, что значительно снижает требования к памяти. Однако LoRA не всегда справляется с более сложными задачами, такими как математическое рассуждение и постоянное предварительное обучение.

Введение MoRA


74ps5e8pzvafzq0kr7agdziiew2373ed.png


LoRA (слева) использует матрицы низкого ранга, а MoRA (справа) использует одну квадратную матрицу для точной настройки с эффективным использованием параметров

Для устранения ограничений LoRA учёные представили MoRA, которая использует квадратные матрицы вместо низкоранговых. Главная идея MoRA заключается в использовании обучаемых параметров для достижения максимального ранга в пространстве исходных размеров модели. В отличие от LoRA, входные и выходные размеры адаптера MoRA не совпадают с исходной моделью, поэтому была разработана функция сжатия/декомпрессии, которая преобразует данные между двумя пространствами.

Результаты тестирования MoRA


6uvegwrsvzuo3ouapkdr66kmndtnutfs.png


Кривая потерь MoRA очень похожа на полную настройку для задач по запоминанию знаний

Тестирование моделей LoRA и MoRA одинакового размера показало, что MoRA значительно превосходит LoRA в задачах запоминания и приближается к производительности полностью настроенной модели. В задачах настройки инструкций и математического рассуждения MoRA показала результаты, сравнимые с LoRA, но в постоянном предобучении в биомедицинской и финансовой сферах MoRA превзошла LoRA.

PEFT для бизнеса

Тонкая настройка является важной задачей для корпоративных приложений LLM. Она позволяет компаниям использовать меньшие модели для задач, ранее требовавших дорогих передовых моделей. LoRA и её варианты являются золотым стандартом параметрически эффективной тонкой настройки. Существует множество инструментов и платформ для создания адаптеров LoRA, таких как Для просмотра ссылки Войди или Зарегистрируйся позволяющий запускать тысячи адаптеров на одном GPU.

Ученые Для просмотра ссылки Войди или Зарегистрируйся MoRA с открытым исходным кодом, совместимую с LoRA. Это может оказаться важным инструментом для корпоративных приложений, которые хотят добавить новые знания в базовые модели.
 
Источник новости
www.securitylab.ru

Похожие темы