— © Google Research

Nombreux sont les films dans lesquels un personnage est amené à zoomer sur une image et à en améliorer la qualité, révélant un visage, une plaque d’immatriculation ou tout autre détail important. Basés sur des « modèles de diffusion », les nouveaux moteurs d’intelligence artificielle de Google sont capables de réaliser une telle action.

Fournir une version hautement détaillée d’une image basse résolution

Consistant essentiellement à ajouter des détails n’ayant pas été initialement capturés par l’appareil photo, la synthèse d’image naturelle est un processus complexe impliquant de fines suppositions basées sur l’analyse d’images similaires. Dans le cadre de ces travaux pré-publiés sur le serveur arXiv, différentes photographies très pixélisées ont été significativement améliorées grâce aux algorithmes de Google, se révélant suffisamment crédibles pour tromper l’œil humain.

Baptisé « Super-Resolution 3 », le premier outil ajoute du bruit à l’image, avant de le supprimer via différentes passes. « Les modèles de diffusion fonctionnent en corrompant les données d’apprentissage par l’ajout progressif d’un bruit gaussien, éliminant lentement les détails de l’image, puis en formant un réseau neuronal pour inverser ce processus de corruption », détaillent Jonathan Ho et Chitwan Saharia, de Google Research.

Grâce à une série de calculs de probabilité basés sur une vaste base de données d’images et à la « magie » de l’apprentissage automatique, SR3 est capable de fournir une version hautement détaillée d’une image basse résolution.

L’image source (à gauche) et celle obtenue grâce à SR3 (à droite) — © Google Research

De leur côté, les « Modèles de diffusion en cascade » (MDP) sont présentés comme des « pipelines » via lesquels des outils tels que SR3 peuvent être dirigés pour agrandir des images tout en améliorant leur qualité. Testée sur ImageNet, une gigantesque base de données d’images couramment utilisée pour la recherche sur la reconnaissance visuelle des objets, une telle approche a offert de meilleurs résultats que les solutions concurrentes (notamment les réseaux adversaires génératifs (GAN) de Nvidia, opposant deux réseaux neuronaux pour affiner les résultats).

Des clichés « reconstitués » particulièrement crédibles

S’il convient de rappeler que ces images améliorées ne correspondent pas exactement aux clichés originaux (il s’agit de simulations méticuleuses sur la base de probabilités avancées), le rendu obtenu s’avère particulièrement crédible. Lors d’un test impliquant 50 volontaires humains, les images de visages humains générées par SR3 ont été confondues avec de vraies photos dans environ 50 % des cas, ce qui constitue un score impressionnant.

Selon Google, ces technologies pourraient non seulement permettre d’augmenter efficacement la résolution d’images de visages et d’autres objets, mais également trouver des applications dans d’autres domaines. « Nous sommes impatients de tester davantage les limites des modèles de diffusion pour une grande variété de problèmes de modélisation générative », précise l’équipe.

Animation montrant la technologie en action — © Google Research

COMMENTEZ

connectez-vous pour commenter
avatar
  S’abonner  
Notifier de