— Maximilian Laschon / Shutterstock.com

Une intelligence artificielle qui peut se souvenir de ses précédents succès et les utiliser pour développer de nouvelles stratégies a obtenu des scores record dans certains des jeux vidéo les plus difficiles sortis sur les consoles Atari.

Une progression optimisée au maximum

De nombreux systèmes d’intelligence artificielle utilisent l’apprentissage par renforcement, dans lequel un algorithme reçoit un retour positif ou négatif à l’issue de chaque étape de sa progression vers un objectif particulier, l’orientant vers une certaine solution. Une telle approche a notamment été utilisée par la société DeepMind pour former AlphaGo, qui avait battu un champion du monde de ce jeu en 2016.

Dans le cadre de travaux publiés dans la revue Nature, Adrien Ecoffet et ses collègues d’UberAI ont émis l’hypothèse que de tels algorithmes tombaient souvent sur des pistes encourageantes mais, dans la quête d’approches toujours plus prometteuses, les délassaient avant d’avoir pu les explorer pleinement, ce qui se traduisait par la mise sur le côté de solutions potentiellement meilleures.

L’équipe a donc créé un algorithme se souvenant des différentes approches testées et revenant sans cesse aux moments où il a obtenu un score élevé afin d’optimiser au maximum la suite de sa progression. Pour ce faire, le logiciel stocke des captures d’écran du jeu et regroupe les images similaires pour identifier les segments pouvant encore être améliorés. L’objectif global restant évidemment d’obtenir le meilleur score possible avant de répéter la même opération pour le secteur suivant.

Les jeux Atari ne permettant normalement pas aux joueurs de revenir à un point précis du jeu, les chercheurs ont utilisé un émulateur – programme simulant de façon logicielle les consoles Atari – incluant la possibilité de sauvegarder sa progression et de la recharger à tout moment.

Des résultats impressionnants

L’équipe a configuré l’algorithme pour une collection référence de 55 jeux Atari, utilisée pour évaluer les capacités des algorithmes d’apprentissage par renforcement. Ce dernier s’est révélé meilleur que ses confrères 85,5 % du temps, et s’est notamment illustré sur le complexe Montezuma’s Revenge, où il a établi un nouveau score référence pour les logiciels d’apprentissage par renforcement et a également battu le record du monde humain.

Une fois que l’algorithme a atteint un score suffisamment élevé, les chercheurs ont utilisé la solution trouvée pour entraîner un réseau neuronal à reproduire la stratégie employée et à jouer au jeu de la même manière, en supprimant la nécessité de recharger les états de sauvegarde avec un émulateur. Cette approche s’est avérée plus intensive en termes de calcul, car la version de l’algorithme basée sur le réseau de neurones a généré des milliards de captures d’écran lors de la résolution de chaque jeu.

D’après Peter Bentley, de l’University College de Londres, l’approche de l’équipe pourrait notamment être utilisée dans les domaines du traitement de l’image ou du langage par des robots.

COMMENTEZ

connectez-vous pour commenter
avatar
  S’abonner  
Notifier de