Microsoft a annoncé un nouvel outil qui, selon lui, est capable de reproduire la voix d’une personne après avoir analysé seulement trois secondes d’échantillon audio.
L’outil, que Microsoft appelle VALL-E, est un “modèle de langage à codecs neuronaux”, un concept que Meta a annoncé pour la première fois en octobre 2022. Mais ce qui rend cet outil si intéressant, c’est que Microsoft pense que VALL-E est capable de préserver le ton émotionnel, en imitant ce qu’il entend dans cet extrait de trois secondes.
Pour ce qui est de la manière dont Microsoft procède, l’entreprise explique que “VALL-E génère les jetons acoustiques correspondants en fonction des jetons acoustiques de l’enregistrement de trois secondes et de l’invite phonémique, qui contraignent respectivement les informations relatives au locuteur et au contenu”, après quoi “les jetons acoustiques générés sont utilisés pour synthétiser la forme d’onde finale à l’aide du décodeur de codec neuronal correspondant”.
Microsoft précise que l’outil d’IA a été entraîné sur une bibliothèque audio méta-assemblée qui contient 60 000 heures de discours en langue anglaise. Plus de 7 000 locuteurs individuels ont été utilisés pour essayer de s’assurer que l’IA a été entraînée sur un large éventail de voix.
Vous pouvez vous faire une idée de l’efficacité de VALL-E sur le site Web d’exemples de Microsoft, qui propose de nombreux clips audio.
Ars Technica rapporte qu’“en plus de préserver le timbre de voix et le ton émotionnel d’un locuteur, VALL-E peut également imiter l’“environnement acoustique” de l’échantillon audio”, ce qui signifie que si un échantillon provient d’un environnement particulier, comme la fin d’un appel téléphonique particulièrement mauvais, c’est exactement ce à quoi il ressemblera chaque fois que VALL-E produira l’audio répliqué.
Microsoft n’a pas choisi de permettre aux utilisateurs de tester eux-mêmes l’outil d’IA VALL-E. Il a été suggéré que l’entreprise craint que les gens ne fassent des bêtises avec cet outil - une crainte qui pourrait bien être justifiée.
“Étant donné que VALL-E peut synthétiser la parole en conservant l’identité du locuteur, il peut y avoir des risques potentiels de mauvaise utilisation du modèle, comme l’usurpation de l’identification vocale ou l’usurpation de l’identité d’un locuteur spécifique”, avertit Microsoft. Et oui, théoriquement, vous pourriez donner à VALL-E un clip d’une personne décédée et le faire parler.