Для создания образца голоса, нейросети хватит всего трехсекундного образца.
Недавно стало известно о том, что новая нейросеть VALL-E от корпорации Microsoft способна подделывать голос конкретного человека вплоть до интонаций. Об этом Для просмотра ссылки Войди
Как сообщается, полученный образец VALL-E разбивает на мельчайшие фрагменты и сравнивает их с уже имеющейся базой данных. Обладая информацией о том, как в разных ситуациях звучат голоса других людей, нейросеть «предполагает», как в тех же ситуациях будет звучать голос «донора».
VALL-E обучали на библиотеке LibriLight, содержащей 60 тысяч часов англоязычной речи более чем от 7 тысяч человек. Для системы достаточно записи продолжительностью три секунды, чтобы получить высококачественную подделку.
Издание отмечает, что голос имитируется очень достоверно, у него сохраняется тембр и верная эмоциональная окраска оригинала.
Согласно заявлению Microsoft, VALL-E не будет распространятся в открытом доступе по соображениям безопасности, чтобы нейросетью не воспользовались мошенники.
- Источник новости
- www.securitylab.ru