Учёные из Института AIRI и МТУСИ предложили модель для детекции поддельных голосов.
Исследователи из Института AIRI и МТУСИ Для просмотра ссылки Войдиили Зарегистрируйся новую модель для выявления поддельных голосов под названием AASIST3. Эта архитектура заняла место в топ-10 лучших решений на международном соревновании ASVspoof 2024 Challenge. Модель предназначена для защиты от голосового мошенничества и повышения безопасности систем, использующих голосовую аутентификацию.
Системы голосовой биометрии (ASV) позволяют идентифицировать пользователей по их голосу. Такие системы применяются для аутентификации в финансовых транзакциях, управления доступом к умным устройствам и защиты от современных форм телефонного мошенничества.
Модели распознавания голоса уязвимы к атаке, когда небольшое изменение в аудиофайле приводит к значительному искажению результата, хотя для человека оно может остаться незаметным. Преступники используют методы преобразования текста в речь (TTS) и преобразования голоса (VC), чтобы генерировать синтетические голоса для обхода систем безопасности. Для эффективной защиты требуется создание моделей, способных обнаруживать подделки голоса.
ИИ-модель AASIST была предложена учеными из Южной Кореи и Франции в 2021 году и показала высокую эффективность, но после бурного развития генеративного ИИ в 2022 году её функционала стало недостаточно для выявления синтетических голосов. На основе AASIST команда AIRI и МТУСИ в сотрудничестве с аспирантом Сколтеха создала обновленную архитектуру для выявления поддельных синтезированных голосов.
Использование сети Колмогорова-Арнольда (KAN), дополнительных слоев, улучшенного feature extractor и специальных функций обучения позволило повысить производительность модели более чем в два раза по сравнению с базовой версией. Новая модель также лучше адаптируется к новым видам атак.
Вместо того чтобы полагаться только на классические методы, AASIST3 использует современные нейросети для противодействия голосовому спуфингу, учитывая контекст голосовых данных. Это позволяет распознавать подделки с высокой точностью и защищаться от новых угроз.
Решение задач антиспуфинга возможно двумя путями: через бинарную классификацию, определяя, является ли голос подлинным или искусственным, либо в связке с биометрической системой, где необходимо различать голоса разных спикеров.
Исследования проводились итеративно, с тестированием различных гипотез и улучшением ключевых метрик, таких как t-DCF и EER. На валидационных данных удалось достичь значительных улучшений по сравнению с исходной моделью, что подтверждает эффективность новой архитектуры.
AASIST3 обещает стать полезным инструментом в финансовом секторе и телекоммуникациях для борьбы с голосовым мошенничеством и повышения уровня безопасности голосовой аутентификации.
Исследователи из Института AIRI и МТУСИ Для просмотра ссылки Войди
Системы голосовой биометрии (ASV) позволяют идентифицировать пользователей по их голосу. Такие системы применяются для аутентификации в финансовых транзакциях, управления доступом к умным устройствам и защиты от современных форм телефонного мошенничества.
Модели распознавания голоса уязвимы к атаке, когда небольшое изменение в аудиофайле приводит к значительному искажению результата, хотя для человека оно может остаться незаметным. Преступники используют методы преобразования текста в речь (TTS) и преобразования голоса (VC), чтобы генерировать синтетические голоса для обхода систем безопасности. Для эффективной защиты требуется создание моделей, способных обнаруживать подделки голоса.
ИИ-модель AASIST была предложена учеными из Южной Кореи и Франции в 2021 году и показала высокую эффективность, но после бурного развития генеративного ИИ в 2022 году её функционала стало недостаточно для выявления синтетических голосов. На основе AASIST команда AIRI и МТУСИ в сотрудничестве с аспирантом Сколтеха создала обновленную архитектуру для выявления поддельных синтезированных голосов.
Использование сети Колмогорова-Арнольда (KAN), дополнительных слоев, улучшенного feature extractor и специальных функций обучения позволило повысить производительность модели более чем в два раза по сравнению с базовой версией. Новая модель также лучше адаптируется к новым видам атак.
Вместо того чтобы полагаться только на классические методы, AASIST3 использует современные нейросети для противодействия голосовому спуфингу, учитывая контекст голосовых данных. Это позволяет распознавать подделки с высокой точностью и защищаться от новых угроз.
Решение задач антиспуфинга возможно двумя путями: через бинарную классификацию, определяя, является ли голос подлинным или искусственным, либо в связке с биометрической системой, где необходимо различать голоса разных спикеров.
Исследования проводились итеративно, с тестированием различных гипотез и улучшением ключевых метрик, таких как t-DCF и EER. На валидационных данных удалось достичь значительных улучшений по сравнению с исходной моделью, что подтверждает эффективность новой архитектуры.
AASIST3 обещает стать полезным инструментом в финансовом секторе и телекоммуникациях для борьбы с голосовым мошенничеством и повышения уровня безопасности голосовой аутентификации.
- Источник новости
- www.securitylab.ru