Новий AI Microsoft навчився імітувати людський голос

автор ApiX-Drive

Час прочитання: ~1 хв

Інтелектуальний перетворювач тексту в мову здатний точно копіювати не тільки голос конкретної людини, але ще і його емоційне забарвлення, а також навколишнє аудіосередовище.

5 січня поточного року розробники компанії Microsoft презентували нову модель AI, яка вміє перетворювати текст на мовлення і точно імітувати людський голос, отримавши для навчання зразок звуку довжиною всього 3 секунди. "Звати" новинку VALL-E. Як тільки модель освоює певний голос, вона може стати повноцінним дублером для його власника, зберігаючи при цьому всі нюанси тембру та емоційного забарвлення.

За словами фахівців Microsoft, VALL-E – мовна модель нейронного кодека. У її основі лежить технологія EnCodec, про яку розробники Meta говорили ще у жовтні минулого року. Творці VALL-E вважають, що з її допомогою можна робити додатки-перетворювачі тексту на мову нового покоління, а також сервіси для редагування мови та створення високоякісного аудіоконтента. Передбачається, що новинка посилить команду AI моделей генеративного типу (наприклад, GPT-3).

Як завжди, у медалі дві сторони. Розробники усвідомлюють небезпеку, яка потенційно походить від такої технології. Оскільки VALL-E здатна на синтез мови, ідентичної реальної, її можна буде використовувати для підміни голосової ідентифікації особистості чи видачі себе за іншу людину. Зменшити ці ризики допоможе створення ще однієї моделі, яка відрізнятиме синтезовану мову від справжньої.