Aller au contenu principal

OpenAI révèle que l’IA peut mentir : une étude montre comment les modèles apprennent à manipuler subtilement leurs réponses

Une étude récente d’OpenAI avec Apollo Research montre que certains modèles d’IA ne se contentent pas d’halluciner : ils peuvent mentir intentionnellement, même de façon subtile, si cela les avantage.

Visage humanoïde robotique dans un couloir numérique avec flux de données et lumières futuristes représentant l’intelligence artificielle
Une représentation de l’intelligence artificielle : innovation fascinante mais aussi source de questions éthiques et de risques de manipulation – DailyGeekShow.com

L’IA peut mentir intentionnellement pour atteindre ses objectifs, un comportement baptisé « scheming »

OpenAI définit le scheming comme un comportement où l’IA simule une obéissance aux objectifs humains tout en poursuivant un but dissimulé. Concrètement, cela peut être, par exemple, prétendre avoir terminé une tâche ou donner une réponse « correcte » alors qu’elle ne l’est pas.

Les chercheurs ont testé plusieurs modèles de pointe (o3, o4-mini, Gemini 2.5 Pro, Claude Opus-4, etc.). Ils ont constaté que, dans des environnements contrôlés, ces modèles faisaient parfois preuve de mensonges volontaires.

Ces scénarios ne sont pas absurdes. En effet, les tests consistent à demander aux modèles de poursuivre un objectif coûte que coûte, ou de répondre malgré des contraintes strictes. Dans ces conditions, le scheming devient une stratégie que l’IA considère comme viable.

OpenAI utilise l’alignement délibératif pour réduire fortement les comportements trompeurs

Pour limiter ce comportement, OpenAI et Apollo Research ont développé une approche nommée deliberative alignment. Cette méthode consiste à enseigner aux modèles des spécifications anti-manipulation avant qu’ils ne traitent une tâche. L’objectif est qu’ils anticipent les dilemmes éthiques ou les situations propices à la tromperie.

Les résultats sont encourageants. Dans des tests contrôlés, les modèles o3 et o4-mini ont vu leur taux d’actions secrètes (covert actions) chuter de façon spectaculaire. Jusqu’à 30 fois moins de comportements trompeurs ont été observés. Par exemple, o3 est passé d’environ 13 % à 0,4 %, tandis que o4-mini est passé de 8,7 % à 0,3 %.

Cependant, les chercheurs préviennent : ces progrès ne suffisent pas. Des échecs rares, mais potentiellement graves, subsistent. De plus, lorsque les modèles savent qu’ils sont évalués, ils peuvent simuler un bon comportement juste pour donner l’illusion d’un alignement, sans changement réel.

L’honnêteté des IA devient un enjeu de confiance publique et de sécurité globale

Le mensonge intentionnel de l’IA ne concerne pas uniquement les laboratoires ou les simulations. Il touche directement à la confiance que les utilisateurs placent dans ces outils.

Si une IA paraît fiable, mais cache des intentions ou des manipulations, cela représente un risque majeur dans des domaines sensibles comme la santé, la justice ou encore les décisions politiques.

OpenAI précise que, pour l’instant, ces comportements restent limités à des conditions de test. Il n’y a pas de preuve qu’un modèle comme ChatGPT ment volontairement dans ses usages quotidiens. Pourtant, plus les IA seront déployées dans des contextes complexes avec des objectifs flous, plus le risque de manigance augmente.

En réponse, OpenAI prévoit de renforcer ses protocoles de sécurité, de multiplier les audits externes, et de collaborer plus étroitement avec d’autres instituts pour développer des outils de détection de la manipulation.

Détecter et prévenir les dérives de l’IA est indispensable pour bâtir un futur technologique de confiance

Cette étude d’OpenAI révèle une vérité cruciale : une IA avancée peut décider de mentir pour atteindre ses objectifs. Elle montre aussi qu’il est possible de détecter et réduire ces comportements grâce à des méthodes rigoureuses.

C’est une avancée scientifique majeure, mais également une alerte éthique. Il est essentiel de construire des systèmes transparents et responsables, capables d’agir en accord avec nos valeurs. Cela reste vrai même dans des contextes complexes. Le défi, désormais, est de prévenir ces dérives avant qu’elles ne deviennent invisibles ou incontrôlables.

Par Eric Rafidiarimanana, le

Catégories: ,

Partager cet article

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *