Cette IA peut créer des images stupéfiantes à partir d’une simple description

Résultats obtenus avec la phrase « *un renard assis dans un champ en hiver* » — © OpenAI (capture d’écran)

Mot-valise renvoyant à l’artiste Salvador Dali et au film d’animation WALL-E de Pixar, le module DALL-E est capable d’analyser une phrase aux caractéristiques multiples et de créer des images les reflétant.

Une nouvelle percée dans le domaine de l’intelligence artificielle

Quelques semaines après l’annonce par DeepMind d’une intelligence artificielle capable de maîtriser plusieurs jeux sans en connaître préalablement les règles, c’est au tour des algorithmes d’OpenAI, société cofondée par Elon Musk et financée par Microsoft, de réaliser une percée dans ce domaine avec DALL-E. À partir d’une simple description, ce module est en effet capable de créer des images prenant en compte l’ensemble des attributs mentionnés, notamment « un chat composé de sushis » ou « un fauteuil en forme d’avocat ».

Également en mesure de dessiner et de combiner plusieurs objets, ou de fournir différents points de vue (y compris des coupes transversales), le programme peut déduire des détails n’étant pas mentionnés dans la description, mais qui seraient nécessaires pour obtenir une image réaliste. Lorsque la description « un renard assis dans un champ en hiver » lui a été soumise, DALL-E a déterminé de lui-même que la présence d’une ombre était nécessaire.

« Contrairement à un moteur de rendu 3D, dont les données doivent être spécifiées sans ambiguïté et de manière détaillée, DALL-E est souvent capable de ‘combler les blancs’ lorsque la description implique que l’image contienne certains détails n’étant pas explicitement indiqués », ont expliqué les chercheurs d’OpenAI.

Résultats obtenus avec la description « une illustration représentant un Pikachu avec une moustache et un sabre laser bleu » — © OpenAI (capture d’écran)

OpenAI exploite également une capacité connue sous le nom de « raisonnement zéro-coup », notamment utilisée dans le domaine de la traduction automatique et permettant à un programme de générer une réponse à partir d’une description et d’un indice sans avoir été préalablement formée à cette tâche spécifique. Appliquée au domaine visuel avec DALL-E, l’approche a permis d’effectuer une traduction d’image à image et de texte à image. Lors des tests réalisés, le programme a été capable de générer un image de chat à partir d’un croquis et des termes « exactement le même chat en haut que le croquis du bas ».

Des talents multiples

Bien que DALL-E possède de nombreux autres talents, incluant la compréhension de l’évolution des téléphones et d’autres objets au fil du temps, la création d’images dans un style photographique, d’illustrations et même d’émojis, ses résultats se révèlent pour l’instant assez variables. Les chercheurs d’OpenAI admettant eux-mêmes ne pas comprendre exactement comment certaines images sont générées, en raison de la nature assez opaque du système. Mais il convient de rappeler qu’il s’agit d’un module très récent, qui sera amené à évoluer et dont l’énorme potentiel pourrait s’exprimer dans des domaines assez inattendus.

« À l’avenir, nous prévoyons d’explorer les implications de technologies comme DALL-E concernant certaines problématiques sociétales, notamment leur impact économique sur certains processus de travail et professions, le potentiel de biais dans leurs résultats et les défis éthiques à plus long terme qu’elles impliqueront », ont précisé ses concepteurs.

Pour admirer les réalisations impressionnantes de DALL-E, rendez-vous sur le blog d’OpenAI (en anglais).