Microsoft a dévoilé son modèle d’IA le plus avancé en matière de synthèse vocale. Baptisé VALL-E, celui-ci peut simuler fidèlement une voix à partir d’un échantillon audio de quelques secondes seulement.
Une fidélité impressionnante
VALL-E est un « modèle de langage de codec neuronal », dérivé d’Encodec, technologie de compression audio de Meta. Se distinguant largement de la plupart des technologies de synthèse vocale actuelles, qui synthétisent la parole via la manipulation de formes d’onde, celui-ci va générer des codes de codec audio à partir d’échantillons acoustiques et textuels, qui vont être minutieusement assemblés afin de correspondre le plus étroitement possible à la voix originale.
La nouvelle IA a été formée sur quelque 60 000 heures de discours en langue anglaise impliquant plus de 7 000 locuteurs, issus de livres audio de la plateforme LibriLight. Pour obtenir un rendu naturel, VALL-E s’appuie sur un échantillon de trois secondes du locuteur à imiter, d’une phrase témoin prononcée par ce dernier, et d’une synthèse vocale conventionnelle de référence.
Sa principale force réside dans sa capacité à conserver le ton et le timbre de l’enregistrement original et à reproduire fidèlement l’environnement et les conditions dans lesquelles il a été réalisé (écho notamment). Afin d’améliorer sa précision (prosodie et style d’expression du locuteur), Microsoft prévoit de continuer à alimenter sa base de données d’apprentissage.
Surprised there isn’t more chatter around VALL-E
— Steven Tey (@steventey) January 9, 2023
This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice
Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
Différentes applications envisagées
Parmi ses applications potentielles, ses concepteurs citent la création à la volée de livres audio et de voix off à partir de courts échantillons sonores, ainsi que le remplacement de la voix d’un acteur si l’enregistrement original a été endommagé, ou que ce dernier n’est plus en mesure de s’exprimer (à la manière de ce que la société Sonantic a réalisé pour Val Kilmer dans le film Top Gun : Maverick).
En raison des risques importants d’utilisation abusive d’un tel modèle (usurpation d’identification vocale ou usurpation d’identité d’un locuteur spécifique), Microsoft a choisi de ne pas rendre le code de VALL-E open source.
« Pour les atténuer, il est possible de construire un modèle de détection pour discriminer si un clip audio a été synthétisé par VALL-E », précise la firme américaine. « Nous mettrons également en pratique les principes de Microsoft AI lors du développement ultérieur des modèles. »