Jusqu’à présent, les voix de synthèse possédaient un rendu robotique les rendant facilement identifiables. Mais c’était compter sans les chercheurs de l’entreprise Dessa qui ont réussi à reproduire à la perfection la voix de Joe Rogan, ancien commentateur de MMA devenu podcasteur.

Une voix de synthèse ultra-réaliste

Dessa n’a pas choisi sa cible par hasard. Considéré comme l’un des podcasteurs les plus populaires au monde, Rogan a enregistré près de 1 300 épisodes de The Joe Rogan Experience à ce jour, et cette quantité impressionnante de matériel sonore a permis aux ingénieurs de l’entreprise de créer une voix synthétique générée par l’intelligence artificielle (IA) particulièrement crédible. Dans l’extrait écoutable ci-dessous, vous pourrez notamment entendre Rogan se demander si nous vivons dans une simulation informatique ou s’extasier devant la musculature des chimpanzés, sujets que l’homme pourrait parfaitement aborder durant ses podcasts.

Bien évidemment, la possibilité de reproduire les voix humaines de façon si convaincante pourrait occasionner certaines dérives. Comme le font remarquer les ingénieurs de Dessa sur leur blog, ces usages peuvent impliquer l’usurpation d’identité de vos proches, l’utilisation de fausses voix pour intimider ou harceler, ou la diffusion de fausses informations par l’intermédiaire d’enregistrements supposés d’hommes politiques. Mais selon Dessa : « S’il est évident que les technologies de synthèse vocale pourraient être utilisées pour la désinformation, elles pourraient également permettre d’améliorer la technologie existante. »

Cette technologie sera amenée à se perfectionner dans les années à venir

Parmi ces avantages, l’entreprise évoque notamment la création d’assistants vocaux plus réalistes et crédibles, un doublage plus efficace et plus précis pour la télévision et le cinéma, ou encore la création de voix de synthèse réalistes et personnalisées pour les personnes atteintes de troubles de la parole. Contactée par The Verge, Dessa a expliqué qu’en raison de possibles utilisations malveillantes de son étonnante technologie de synthèse vocale, elle ne publierait pas la totalité de ses travaux et ne rendrait pas non plus ses modèles d’IA accessibles au public.

Avec l’amélioration des technologies existantes, ce type de procédé devrait encore être amené à se perfectionner dans les années à venir. Comme l’a souligné Dessa : « À l’heure actuelle, une voix synthétique comme RealTalk nécessite une certaine expertise technique, avec une base de données vocales et une puissance de calcul très importantes. Mais dans les années à venir, voire plus tôt, nous verrons la technologie progresser au point où seules quelques secondes d’audio seront nécessaires pour créer une réplique réaliste de la voix de n’importe quelle personne sur la planète. »

Joe Rogan estime que cette voix de synthèse générée par l’IA est « effroyablement fidèle »

COMMENTEZ

Inscrivez-vous ou connectez-vous pour commenter
avatar
  S’abonner  
Notifier de