Vous avez probablement déjà imaginé le physique d’une personne que vous n’aviez jamais vue en vous basant uniquement sur sa voix. Cette IA fait de même à partir d’un bref enregistrement audio et va ensuite générer une image numérique du sujet.
L’algorithme qui génère un visage réaliste à partir d’un simple extrait sonore
Baptisé Speech2Face, ce réseau neuronal artificiel (ordinateur s’inspirant du fonctionnement du cerveau humain) mis au point par des chercheurs du MIT, a analysé des millions de vidéos disponibles sur le web, montrant plus de 100 000 personnes différentes en train de s’exprimer. À partir de cet ensemble de données, l’IA a appris à associer les signatures vocales à certaines caractéristiques physiques d’un visage humain, ce qui lui permet désormais de modéliser numériquement un visage réaliste correspondant à la voix audible dans un court clip audio. Les conclusions de l’étude ont été publiées dans la revue scientifique ArXiv.
Soyez cependant rassuré, l’intelligence artificielle n’est pas encore en mesure de produire des modélisations ultra-précises. D’après les auteurs de l’étude, elle est pour l’instant à même d’identifier le sexe, l’âge et l’origine ethnique d’un sujet à partir de sa signature vocale, mais ces caractéristiques sont communes à de nombreuses personnes. Par conséquent, les visages qu’elle génère numériquement restent pour l’heure très génériques et peu expressifs. Ce qui n’enlève rien à la performance réalisée, qui pourra être amenée à s’améliorer dans les années à venir grâce à une base de données mieux fournie et un algorithme plus précis.
Speech2Face doit encore se perfectionner
À l’heure actuelle, l’algorithme éprouve des difficultés lorsqu’il est confronté à des variations linguistiques. Lorsque l’extrait audio est celui d’un homme asiatique s’exprimant en chinois, il va produire un visage correspondant à ses origines ethniques. Mais lorsque cette même personne s’exprimera en anglais, l’IA générera celui d’un homme blanc. Par ailleurs, les scientifiques ont constaté que l’algorithme avait tendance à associer les voix graves à des visages masculins et les voix aigües aux visages féminins. Des erreurs dues à l’échantillon relativement restreint de vidéos auxquelles il a eu accès, ne « représentant pas l’ensemble de la population mondiale ».
L’exploitation de davantage de vidéos provenant de YouTube pourrait cependant poser problème pour des questions de droits à l’image. Bien que les séquences utilisées jusqu’à présent par les chercheurs soient considérées comme librement exploitables à des fins scientifiques, Nick Sullivan, ingénieur travaillant pour le compte de la société de sécurité Cloudflare basée à San Francisco, s’est récemment étonné que son visage ait été intégré à la base de données utilisée pour former Speech2Face sans qu’il ait préalablement donné son accord.
Par Yann Contegat, le
Source: Live Science
Étiquettes: voix, visage, IA, intelligence artificielle, deep-learning
Catégories: Robots & IA, Actualités