От идеи до полноценной песни за несколько секунд.
Ученые из парижской лаборатории Sony Computer Science Laboratories (CSL) разработали Для просмотра ссылки Войдиили Зарегистрируйся — инновационную систему искусственного интеллекта, способную создавать высококачественные инструментальные аккомпанементы для любой музыки.
В основе Diff-A-Riff лежат две передовые технологии глубокого обучения: модели латентной диффузии и консистентные автоэнкодеры. Программа может генерировать аккомпанементы, которые гармонично вписываются в стиль и тональность заданной музыкальной композиции.
Работа Diff-A-Riff начинается с преобразования входного аудио в латентное представление при помощи предварительно обученного консистентного автоэнкодера. Кодек обеспечивает высокое качество воспроизведения благодаря использованию генеративного алгоритма. Затем сжатое представление поступает в латентную диффузионную модель, которая создает новое аудио с учетом исходного контекста и дополнительных стилевых ориентиров.
Одно из главных достоинств Diff-A-Riff — гибкость в управлении. Пользователи могут задавать параметры как с помощью аудио, так и через текстовые команды, что открывает широкие возможности для творчества. Система выдает качественный псевдо-стерео звук с частотой 48 кГц.
Разработчики значительно оптимизировали работу системы по сравнению с предыдущими версиями. Diff-A-Riff использует 64-кратный коэффициент сжатия, что позволяет ему создавать минуту аудио всего за три секунды. Пока что этот показатель можно назвать рекордным.
Система также предлагает дополнительные инструменты управления. Пользователи могут комбинировать различные инструментальные образцы и текстовые подсказки, регулировать ширину стерео-панорамы и создавать плавные переходы для циклических фрагментов.
Тестирование Diff-A-Riff показало впечатляющие результаты. Созданные системой инструментальные аккомпанементы оказались настолько качественными, что слушатели не смогли отличить их от записей живых музыкантов.
По словам разработчиков, области применения Diff-A-Riff весьма обширны. Программа поможет продюсерам быстро создавать инструментальные треки, дополняющие их композиции. Музыканты смогут легко воплощать новые идеи, а звукорежиссеры – оперативно проверять различные тембры и стили исполнения в своих проектах.
Команда исследователей из Sony CSL не останавливается на достигнутом и планирует совершенствовать Diff-A-Riff дальше. В первую очередь они намерены улучшить механизмы управления. Особое внимание уделят разработке еще более понятных и удобных методов ввода, чтобы сделать модель доступной и полезной для музыкантов любого уровня подготовки.
Важной частью дальнейшей работы станет сотрудничество с музыкантами и композиторами. Это позволит разработчикам дополнительно прокачать и протестировать свой продукт, чтобы он соответствовал реальным потребностям профессионалов.
Ученые из парижской лаборатории Sony Computer Science Laboratories (CSL) разработали Для просмотра ссылки Войди
В основе Diff-A-Riff лежат две передовые технологии глубокого обучения: модели латентной диффузии и консистентные автоэнкодеры. Программа может генерировать аккомпанементы, которые гармонично вписываются в стиль и тональность заданной музыкальной композиции.
Работа Diff-A-Riff начинается с преобразования входного аудио в латентное представление при помощи предварительно обученного консистентного автоэнкодера. Кодек обеспечивает высокое качество воспроизведения благодаря использованию генеративного алгоритма. Затем сжатое представление поступает в латентную диффузионную модель, которая создает новое аудио с учетом исходного контекста и дополнительных стилевых ориентиров.
Одно из главных достоинств Diff-A-Riff — гибкость в управлении. Пользователи могут задавать параметры как с помощью аудио, так и через текстовые команды, что открывает широкие возможности для творчества. Система выдает качественный псевдо-стерео звук с частотой 48 кГц.
Разработчики значительно оптимизировали работу системы по сравнению с предыдущими версиями. Diff-A-Riff использует 64-кратный коэффициент сжатия, что позволяет ему создавать минуту аудио всего за три секунды. Пока что этот показатель можно назвать рекордным.
Система также предлагает дополнительные инструменты управления. Пользователи могут комбинировать различные инструментальные образцы и текстовые подсказки, регулировать ширину стерео-панорамы и создавать плавные переходы для циклических фрагментов.
Тестирование Diff-A-Riff показало впечатляющие результаты. Созданные системой инструментальные аккомпанементы оказались настолько качественными, что слушатели не смогли отличить их от записей живых музыкантов.
По словам разработчиков, области применения Diff-A-Riff весьма обширны. Программа поможет продюсерам быстро создавать инструментальные треки, дополняющие их композиции. Музыканты смогут легко воплощать новые идеи, а звукорежиссеры – оперативно проверять различные тембры и стили исполнения в своих проектах.
Команда исследователей из Sony CSL не останавливается на достигнутом и планирует совершенствовать Diff-A-Riff дальше. В первую очередь они намерены улучшить механизмы управления. Особое внимание уделят разработке еще более понятных и удобных методов ввода, чтобы сделать модель доступной и полезной для музыкантов любого уровня подготовки.
Важной частью дальнейшей работы станет сотрудничество с музыкантами и композиторами. Это позволит разработчикам дополнительно прокачать и протестировать свой продукт, чтобы он соответствовал реальным потребностям профессионалов.
- Источник новости
- www.securitylab.ru