La nueva IA de Microsoft ha aprendido a imitar la voz humana

Autora en ApiX-Drive

Tiempo de leer: ~1 min

Un convertidor inteligente de texto a voz es capaz de copiar con precisión no solo la voz de una persona en particular, sino también su colorido emocional, así como el entorno de audio que lo rodea.

El 5 de enero de este año, los desarrolladores de Microsoft presentaron un nuevo modelo de IA que puede convertir texto en voz e imitar exactamente la voz humana, habiendo recibido una muestra de sonido de solo 3 segundos para entrenamiento. "Llaman" a la novedad VALL-E. Tan pronto como el modelo domina una determinada voz, puede convertirse en un suplente de pleno derecho para su propietario, manteniendo todos los matices de timbre y color emocional.

Según Microsoft, VALL-E es un modelo de lenguaje de códec neuronal. Se basa en la tecnología EnCodec, de la que hablaron los desarrolladores de Meta en octubre del año pasado. Los creadores de VALL-E creen que se puede utilizar para crear una nueva generación de aplicaciones de texto a voz, así como servicios de edición de voz y creación de contenido de audio de alta calidad. Se supone que la novedad fortalecerá el equipo de modelos de IA de tipo generativo (por ejemplo, GPT-3).

Como siempre, la moneda tiene dos caras. Los desarrolladores son conscientes del peligro que potencialmente conlleva dicha tecnología. Dado que VALL-E es capaz de sintetizar un habla idéntica a la real, puede utilizarse para sustituir la identificación por voz de una persona o suplantar a otra. La creación de otro modelo que distinga el habla sintetizada del habla real ayudará a reducir estos riesgos.