Новый AI Microsoft научился имитировать человеческий голос

автор ApiX-Drive

Время прочтения: ~1 мин

Интеллектуальный преобразователь текста в речь способен в точности копировать не только голос конкретного человека, но еще и его эмоциональную окраску, а также окружающую его аудиосреду.

5 января текущего года разработчики компании Microsoft презентовали новую модель AI, которая умеет преобразовывать текст в речь и в точности имитировать человеческий голос, получив для обучения образец звука длиной всего 3 секунды. "Зовут" новинку VALL-E. Как только модель осваивает определенный голос, она может стать полноценным дублером для его владельца, сохраняя при этом все нюансы тембра и эмоционального окраса.

По словам специалистов Microsoft, VALL-E – это языковая модель нейронного кодека. В ее основе лежит технология EnCodec, о которой разработчики Meta говорили еще в октябре прошлого года. Создатели VALL-E считают, что с ее помощью можно делать приложения-преобразователи текста в речь нового поколения, а также сервисы для редактирования речи и создания высококачественного аудиоконтента. Предполагается, что новинка усилит команду AI-моделей генеративного типа (например, GPT-3).

Как всегда, у медали две стороны. Разработчики осознают опасность, которая потенциально исходит от такой технологии. Поскольку VALL-E способна на синтез речи, идентичной реальной, ее вполне можно будет использовать для подмены голосовой идентификации личности либо выдачи себя за другого человека. Уменьшить эти риски поможет создание еще одной модели, которая будет отличать синтезированную речь от настоящей.