Cet algorithme n’a besoin que de votre voix pour reconstituer votre visage

Vous avez probablement déjà imaginé le physique d’une personne que vous n’aviez jamais vue en vous basant uniquement sur sa voix. Cette IA fait de même à partir d’un bref enregistrement audio et va ensuite générer une image numérique du sujet.

L’algorithme qui génère un visage réaliste à partir d’un simple extrait sonore

Baptisé Speech2Face, ce réseau neuronal artificiel (ordinateur s’inspirant du fonctionnement du cerveau humain) mis au point par des chercheurs du MIT, a analysé des millions de vidéos disponibles sur le web, montrant plus de 100 000 personnes différentes en train de s’exprimer. À partir de cet ensemble de données, l’IA a appris à associer les signatures vocales à certaines caractéristiques physiques d’un visage humain, ce qui lui permet désormais de modéliser numériquement un visage réaliste correspondant à la voix audible dans un court clip audio. Les conclusions de l’étude ont été publiées dans la revue scientifique ArXiv.

Soyez cependant rassuré, l’intelligence artificielle n’est pas encore en mesure de produire des modélisations ultra-précises. D’après les auteurs de l’étude, elle est pour l’instant à même d’identifier le sexe, l’âge et l’origine ethnique d’un sujet à partir de sa signature vocale, mais ces caractéristiques sont communes à de nombreuses personnes. Par conséquent, les visages qu’elle génère numériquement restent pour l’heure très génériques et peu expressifs. Ce qui n’enlève rien à la performance réalisée, qui pourra être amenée à s’améliorer dans les années à venir grâce à une base de données mieux fournie et un algorithme plus précis.

MIT researchers trained a machine learning model to reconstruct a likeness of someone’s face based only on their voice. In a research paper published on Arxiv,they used a dataset comprised of millions of YouTube clips to train their Speech2Face model to associate vocal attributes pic.twitter.com/CRtNoaOjZx
— Aiman A. Abuljadayel (@Aiman_A_AJ) June 12, 2019

À gauche : le visage de la personne s’exprimant dans l’extrait audio analysé. À droite : le visage reconstitué par l’IA à partir de l’échantillon vocal

Speech2Face doit encore se perfectionner

À l’heure actuelle, l’algorithme éprouve des difficultés lorsqu’il est confronté à des variations linguistiques. Lorsque l’extrait audio est celui d’un homme asiatique s’exprimant en chinois, il va produire un visage correspondant à ses origines ethniques. Mais lorsque cette même personne s’exprimera en anglais, l’IA générera celui d’un homme blanc. Par ailleurs, les scientifiques ont constaté que l’algorithme avait tendance à associer les voix graves à des visages masculins et les voix aigües aux visages féminins. Des erreurs dues à l’échantillon relativement restreint de vidéos auxquelles il a eu accès, ne « représentant pas l’ensemble de la population mondiale ».

L’exploitation de davantage de vidéos provenant de YouTube pourrait cependant poser problème pour des questions de droits à l’image. Bien que les séquences utilisées jusqu’à présent par les chercheurs soient considérées comme librement exploitables à des fins scientifiques, Nick Sullivan, ingénieur travaillant pour le compte de la société de sécurité Cloudflare basée à San Francisco, s’est récemment étonné que son visage ait été intégré à la base de données utilisée pour former Speech2Face sans qu’il ait préalablement donné son accord.

New MIT AI "Speech2Face" is able to create portraits of people based only on their voices and its scarily accurate. https://t.co/CmQHvMFAdE #tech #technology #mit #ai #portrait #people #sound #voice
— Think Digital (@ThinkDigitalZA) June 11, 2019