Microsoft ha anunciado una nueva herramienta que, según afirma, es capaz de replicar la voz de una persona tras analizar tan solo tres segundos de audio de muestra.

La herramienta, a la que Microsoft llama VALL-E, es algo que denomina “modelo de lenguaje de códec neural”, algo que Meta anunció por primera vez en octubre de 2022. Pero lo que lo hace tan interesante es la creencia de Microsoft de que VALL-E es capaz de preservar el tono emocional, imitando lo que escucha en ese clip de muestra de tres segundos.

En cuanto a cómo Microsoft hace todo eso, la compañía dice que “VALL-E genera los tokens acústicos correspondientes condicionados a los tokens acústicos de la grabación de 3 segundos inscrita y a la indicación del fonema, que restringen la información del hablante y del contenido respectivamente” Después de eso, “los tokens acústicos generados se utilizan para sintetizar la forma de onda final con el correspondiente decodificador de códec neural”.

Microsoft afirma que la herramienta de IA se entrenó con una biblioteca de audio metaensamblada que contiene 60.000 horas de habla en inglés. Se utilizaron más de 7.000 hablantes individuales para intentar garantizar que la IA se entrenara con una amplia gama de voces.

Puedes hacerte una idea de lo bien que funciona VALL-E en el sitio web de muestra de Microsoft, donde encontrarás un montón de clips de audio para tu deleite.

Ars Technica informa de que “además de preservar el timbre vocal y el tono emocional del hablante, VALL-E también puede imitar el ’entorno acústico’ del audio de muestra”, lo que significa que si una muestra procede de un entorno concreto, como el final de una llamada telefónica especialmente mala, así sonará exactamente cada vez que VALL-E reproduzca el audio.

Microsoft no ha permitido que los usuarios prueben la herramienta de IA VALL-E por sí mismos. Se ha sugerido que a la empresa le preocupa que la gente no pueda hacer nada bueno con ella, una preocupación que podría estar justificada.

“Dado que VALL-E podría sintetizar el habla manteniendo la identidad del hablante, podría conllevar riesgos potenciales de uso indebido del modelo, como falsificar la identificación de la voz o hacerse pasar por un hablante específico”, advierte Microsoft. Y sí, teóricamente podrías darle a VALL-E un clip de una persona fallecida y hacer que te contestara.