Cette nouvelle méthode d’apprentissage pour les robots se base sur les envies des humains

L’intelligence artificielle et la robotique prennent chaque année de plus en plus de place dans notre monde. Plus rapide, plus optimisée, plus précise, l’IA permet de réaliser des gains dans bien des domaines. Aujourd’hui, des chercheurs ont mis au point un nouveau système d’apprentissage pour les robots, afin de perfectionner leurs services rendus aux hommes.

Redéfinir le système autonome ?

Ce sont les chercheurs de l’université de Stanford qui ont mis au point ce nouveau système d’apprentissage. D’après eux, il va y avoir de plus en plus d’automatisation dans les différents domaines de la vie, métiers y compris. Comme l’explique l’un des principaux auteurs de l’étude, Andy Palan, « à l’avenir, je m’attends à ce qu’il y ait plus de systèmes autonomes dans le monde et ils vont avoir besoin de savoir ce qui est bon et ce qui est mauvais ».

Et l’une des principales utilisations de l’intelligence artificielle sera sa mise en place dans les systèmes automobiles. Aujourd’hui, même si d’énormes progrès ont été réalisés, l’IA ne sait toujours pas contourner certains obstacles. Il faut qu’elle s’adapte en permanence, réagisse en temps réel à de nouvelles problématiques, et les chercheurs souhaitent optimiser cette réaction. Les systèmes autonomes, s’ils sont en plein développement, demeurent très perfectibles.

Un véritable enseignement ?

C’est pour cette raison que les chercheurs de l’université de Stanford se sont intéressés à ces systèmes. Et en combinant deux façons de leur donner des objectifs, ils ont créé un processus unique, qui permet de grandement améliorer les performances, dans le monde virtuel, mais également dans le monde réel. Ce dernier va combiner des démonstrations, que les humains soumettront volontairement aux robots, par exemple le mouvement d’un bras ; mais également des préférences d’utilisateurs. Ces dernières seront déterminées par une série de questions, directement posées par le robot, qui permettront de l’aider à bien comprendre comment il faut se comporter, ce que l’humain souhaite exactement.

Ce nouveau processus a pour but d’améliorer la précision des services rendus par les robots envers les humains, mais également la rapidité. Auparavant, la méthode la plus utilisée était de comparer les scénarios, et ensuite on prenait automatiquement le meilleur selon un jugement unique. Mais les chercheurs expliquent que si nous imprégnons nos intelligences artificielles avec ce type de fonctionnement, il faut en moyenne trois minutes pour enchaîner cette action avec une autre. Pour un système complexe comme une voiture autonome, c’est beaucoup trop lent. Avec leurs nouvelles méthodes qui combinent une démonstration donnée par l’humain et une multitude de questions rapides auxquelles ce dernier doit répondre, ils ont estimé que le processus serait 15 à 50 fois plus rapide.

La finalité est également mieux que si le robot est uniquement soumis à une base de données fournie par l’Homme. En effet, il a été constaté que certains utilisateurs, en voiture, demandent au robot de conduire plus doucement qu’ils ne l’auraient fait. La finalité demandée au robot n’est donc pas de reproduire exactement, du moins dans 100 % des cas, le comportement d’un homme.

Un nouveau système plus performant

En clair, le nouveau système débute avec une personne qui fournit un comportement au robot. Cela donne au robot une multitude d’informations, comme c’est souvent le cas dans la robotique. À partir de ces informations, il va pouvoir générer un comportement, mais aura des difficultés à déterminer quelle partie de ces démonstrations est la plus importante, la plus à retenir. L’élément nouveau avec cette étude, c’est une série de questions. Un robot pourra désormais demander directement, par exemple, si l’utilisateur préfère qu’il baisse son bras ou le lève vers le plafond. C’est un exemple primaire, mais cela démontre toutes les différences de comportement qu’une simple série de questions pourrait avoir sur l’agissement d’un robot. Transplantée dans le domaine de l’automobile automatisée, cette méthode d’apprentissage se montre très prometteuse.

Évidemment, ce système est bien meilleur que le précédent. Comme nous vous l’avons dit plus haut, il va déjà 15 à 50 fois plus vite pour enchaîner les actions et apprendre. C’est obligatoire d’avoir un temps de réaction minimal dans un système de voiture, où il faut constamment réagir, avec la vie de l’utilisateur en jeu. Mais également, l’équipe a constaté que la combinaison de démonstrations et d’enquête était beaucoup plus agréable et fluide, avec environ 80 % des personnes interrogées qui préfèrent le comportement du robot quand il était entraîné avec ce système combiné. Comme le dit l’auteur Sadigh, « il s’agit d’une étape pour mieux comprendre ce que les gens veulent ou attendent d’un robot ».

Ce système, qui place l’intervention humaine comme élément déterminant dans la préférence des actions du robot, se montre très intéressant. L’équipe de chercheurs s’est également intéressée à une variante de son propre système, qui permettrait de créer simultanément des fonctions des récompenses, pour différents scénarios. À titre d’exemple, une personne pourra demander automatiquement à son véhicule de conduire de manière très lente quand il y a beaucoup de trafic, et d’accélérer automatiquement quand le trafic est moins important, même si le tout se fait dans un intervalle de quelques minutes. Tout cela a pour but de remplacer le conducteur humain, où son rôle se limiterait à répondre à de simples questions de préférence…

Stanford researchers teach robots what humans want https://t.co/gnbSV29vQh pic.twitter.com/TicQwPKHsK
— Bioengineer.org (@bioengineerorg) June 28, 2019

« Des chercheurs de Stanford enseignent aux robots ce que veulent les humains »

Voici un exemple de conséquences que ce nouveau fonctionnement aura sur le robot

Par Benjamin Cabiron, le 1 juillet 2019