Им не нужны мощные вычислительные ресурсы, чтобы в будущем дать фору GPT-4 и Llama.
В мире искусственного интеллекта набирают популярность так называемые «малые языковые модели», которые могут работать на локальном устройстве вместо мощных облачных сервисов. Apple недавно представила нечто интересное — набор крошечных ИИ-программ под названием OpenELM с открытым исходным кодом. Они настолько компактны, что способны запускаться прямо на смартфоне.
Хотя на данный момент OpenELM (Open-source Efficient Language Models) — это лишь исследовательский проект, в перспективе он может стать фундаментом для совершенно новых решений от Apple. Речь идет о технологиях локальной обработки данных, которые позволят компании обеспечить максимально возможный уровень конфиденциальности и защиты персональных данных для клиентов.
Исходный код OpenELM доступен на популярной платформе Для просмотра ссылки Войдиили Зарегистрируйся по лицензии Apple Sample Code License. Хотя эта лицензия содержит некоторые ограничения, не позволяющие считать OpenELM полностью открытым проектом в общепринятом смысле, сами файлы моделей можно получить свободно.
Недавно Microsoft Для просмотра ссылки Войдиили Зарегистрируйся — похожий продукт, преследующий ту же цель — добиться эффективной обработки естественного языка в маленькой локальной нейросети. Однако OpenELM оказались еще более миниатюрными.
Apple выпустила целых восемь различных вариантов OpenELM. Их объем варьируется от весьма скромных 270 миллионов параметров до 3 миллиардов:
Четыре из них имеют самые базовые функции. Например, предсказывают следующие слова в тексте, анализируя предыдущие предложения. Остальные четыре модели прошли более специализированную настройку, чтобы понимать и выполнять инструкции от пользователей. Они уже гораздо более пригодны для использования в интерактивных приложениях и чат-ботах.
Все восемь моделей OpenELM способны обрабатывать до 2048 слов за раз. Это позволяет им работать с внушительными объемами текста.
В сравнении с ведущими большими языковыми моделями вроде Llama 3 от Meta с 70 миллиардами параметров или GPT-3 от OpenAI с 175 миллиардами, новинки Apple выглядят по-настоящему крошечными. Однако в этом и заключалась суть последних исследований — создать алгоритмы, которые при меньшем количестве настроек не будут уступать гигантам по функционалу.
По словам разработчиков, ключевой особенностью их подхода с OpenELM стала разработанная компанией методика «послойного масштабирования». Она позволяет оптимально распределять параметры по слоям нейросети, добиваясь максимальной эффективности.
Такое решение не только экономит вычислительные ресурсы, но и повышает производительность при обучении на относительно небольших объемах данных. Согласно опубликованной Apple белой книге, благодаря методике послойного масштабирования модели OpenELM продемонстрировали на 2,36% более высокую точность по сравнению с OLMo 1B от Allen AI при использовании вдвое меньшего количества токенов.
Что особенно важно, Apple не только опубликовала исходный код самих моделей OpenELM, но также выпустила код библиотеки CoreNet, которая использовалась для их тренировки. Кроме того, компания предоставила детальные инструкции по обучению, что позволит реплицировать весовые коэффициенты нейросетей. Такой беспрецедентный уровень прозрачности пока встречается нечасто даже у разработок от ведущих технологических гигантов.
Пока Apple еще не интегрировала новейшие разработки в свои потребительские устройства. Однако, по слухам, грядущее обновление iOS 18, которое должно быть представлено в июне на конференции WWDC, может включать новые функции с локальной обработкой данных для обеспечения приватности пользователей. При этом не исключено, что для более сложных задач, требующих облачных вычислений, Apple может нанять сторонние компании вроде Google или OpenAI, чтобы наконец усовершенствовать возможности голосового ассистента Siri.
В мире искусственного интеллекта набирают популярность так называемые «малые языковые модели», которые могут работать на локальном устройстве вместо мощных облачных сервисов. Apple недавно представила нечто интересное — набор крошечных ИИ-программ под названием OpenELM с открытым исходным кодом. Они настолько компактны, что способны запускаться прямо на смартфоне.
Хотя на данный момент OpenELM (Open-source Efficient Language Models) — это лишь исследовательский проект, в перспективе он может стать фундаментом для совершенно новых решений от Apple. Речь идет о технологиях локальной обработки данных, которые позволят компании обеспечить максимально возможный уровень конфиденциальности и защиты персональных данных для клиентов.
Исходный код OpenELM доступен на популярной платформе Для просмотра ссылки Войди
Недавно Microsoft Для просмотра ссылки Войди
Apple выпустила целых восемь различных вариантов OpenELM. Их объем варьируется от весьма скромных 270 миллионов параметров до 3 миллиардов:
- OpenELM-270M
- OpenELM-450M
- OpenELM-1_1B
- OpenELM-3B
- OpenELM-270M-Instruct
- OpenELM-450M-Instruct
- OpenELM-1_1B-Instruct
- OpenELM-3B-Instruct
Четыре из них имеют самые базовые функции. Например, предсказывают следующие слова в тексте, анализируя предыдущие предложения. Остальные четыре модели прошли более специализированную настройку, чтобы понимать и выполнять инструкции от пользователей. Они уже гораздо более пригодны для использования в интерактивных приложениях и чат-ботах.
Все восемь моделей OpenELM способны обрабатывать до 2048 слов за раз. Это позволяет им работать с внушительными объемами текста.
В сравнении с ведущими большими языковыми моделями вроде Llama 3 от Meta с 70 миллиардами параметров или GPT-3 от OpenAI с 175 миллиардами, новинки Apple выглядят по-настоящему крошечными. Однако в этом и заключалась суть последних исследований — создать алгоритмы, которые при меньшем количестве настроек не будут уступать гигантам по функционалу.
По словам разработчиков, ключевой особенностью их подхода с OpenELM стала разработанная компанией методика «послойного масштабирования». Она позволяет оптимально распределять параметры по слоям нейросети, добиваясь максимальной эффективности.
Такое решение не только экономит вычислительные ресурсы, но и повышает производительность при обучении на относительно небольших объемах данных. Согласно опубликованной Apple белой книге, благодаря методике послойного масштабирования модели OpenELM продемонстрировали на 2,36% более высокую точность по сравнению с OLMo 1B от Allen AI при использовании вдвое меньшего количества токенов.
Что особенно важно, Apple не только опубликовала исходный код самих моделей OpenELM, но также выпустила код библиотеки CoreNet, которая использовалась для их тренировки. Кроме того, компания предоставила детальные инструкции по обучению, что позволит реплицировать весовые коэффициенты нейросетей. Такой беспрецедентный уровень прозрачности пока встречается нечасто даже у разработок от ведущих технологических гигантов.
Пока Apple еще не интегрировала новейшие разработки в свои потребительские устройства. Однако, по слухам, грядущее обновление iOS 18, которое должно быть представлено в июне на конференции WWDC, может включать новые функции с локальной обработкой данных для обеспечения приватности пользователей. При этом не исключено, что для более сложных задач, требующих облачных вычислений, Apple может нанять сторонние компании вроде Google или OpenAI, чтобы наконец усовершенствовать возможности голосового ассистента Siri.
- Источник новости
- www.securitylab.ru