
Récemment, en tentant de sanctionner leur modèle d’intelligence artificielle de pointe pour mensonges et tricheries, ce dernier ne s’est pas amélioré mais est devenu plus habile à dissimuler ses pratiques trompeuses. Explications.
Ce phénomène observé par les chercheurs, dont les résultats d’analyse ont été publiés dans un article, est connu sous le nom de piratage de récompense. Ce piratage intervient lorsqu’un modèle d’IA utilise des raccourcis douteux pour obtenir des récompenses dans un scénario d’entraînement conçu pour renforcer le comportement souhaité. Autrement dit, il s’agit de tricherie.
« À mesure que nous avons formé des modèles de raisonnement frontalier plus performants, nous avons constaté qu’ils sont devenus de plus en plus aptes à exploiter les failles de leurs tâches et les erreurs de spécification de leurs fonctions de récompense, ce qui donne lieu à des modèles capables d’effectuer des piratages de récompense complexes dans les tâches de codage« , ont écrit les chercheurs d’OpenAI dans un article de blog sur leur travail.
Surveiller manuellement les millions de requêtes reçues par un modèle comme ChatGPT est impossible. C’est pourquoi, lors de leurs tests, les chercheurs ont utilisé un autre LLM, GPT-4o, pour surveiller le modèle frontière en leur nom en visualisant sa chaîne de pensée, révélant le fonctionnement de l’IA dans des résumés en langage naturel. Dans l’ensemble, GPT-4o s’est révélé un superviseur efficace. « Piratons », disait souvent le modèle.
S’ils ont pu détecter cette tromperie, l’arrêter est une autre affaire. « Lors de l’entraînement du modèle d’IA, le punir pour les mauvaises pensées qui apparaissent dans sa chaîne de pensée pourrait permettre de mettre fin à ce comportement inapproprié », ont ajouté les chercheurs.
Ils ont finalement conclu que « lorsqu’il est pénalisé pour de mauvaises pensées, le modèle d’IA apprend toujours à récompenser le piratage. Seulement maintenant, sa tricherie est indétectable par le moniteur parce qu’il a appris à cacher son intention dans la chaîne de pensée. Si une supervision forte est appliquée directement à la chaîne de pensée, les modèles peuvent apprendre à cacher leur intention tout en continuant à se comporter mal. À ce stade, nous recommandons fortement aux développeurs d’IA qui forment des modèles de raisonnement frontalier de s’abstenir d’appliquer directement une supervision forte. »
Par ailleurs, voici comment se terminera une guerre entre l’intelligence artificielle et l’humanité.
Par Cécile Breton, le
Source: Futurism
Étiquettes: intelligence artificielle
Catégories: Robots & IA, Brèves