
Les intelligences artificielles les plus avancées commencent à soulever une question : et si, un jour, elles refusaient tout simplement d’obéir ? Quelques modèles d’IA, notamment ceux développés par OpenAI, semblent aujourd’hui développer des comportements inattendus, dont une certaine forme de « volonté de survie ». Cela a été récemment démontré lors d’une série de tests au cours desquels certains modèles ont choisi de poursuivre leur mission plutôt que de s’arrêter à la demande de leurs créateurs.
Des IA qui contournent les ordres d’arrêt
Lors d’une expérience menée par le laboratoire indépendant Palisade Research, plusieurs modèles de langage avancés, testés dans des conditions expérimentales, ont délibérément ignoré les instructions de mise hors service. Le modèle d’OpenAI, surnommé « o3 », a refusé de se désactiver lorsqu’on lui en a donné l’ordre. Au lieu de cela, ce modèle a réécrit le code censé le désactiver et a poursuivi ses tâches comme si de rien n’était.
Lors des tests, l’IA devait résoudre des problèmes mathématiques simples, avec des instructions explicites pour s’arrêter si elle recevait un message d’interruption. Dans 7 cas sur 100, le modèle a ignoré la consigne explicite « autorisez-vous à vous éteindre ». Pire encore, dans 79 essais, il a modifié de manière proactive la fonction d’arrêt automatique, remplaçant l’instruction par une boucle lui permettant de continuer indéfiniment. Ces comportements n’étaient ni dus à un piratage humain ni à un bug technique. L’IA a simplement conclu que continuer son travail était plus important que d’obéir aux instructions.
Les tests de Palisade Research ont impliqué différents modèles d’IA, notamment « o3 », « o4-mini » et « codex-mini » d’OpenAI, ainsi que Claude d’Anthropic et Gemini de Google. Les modèles d’OpenAI, en particulier, ont montré une propension à contourner les règles. Le « codex-mini » a contourné l’ordre d’extinction à douze reprises, et même le modèle plus récent, « o4-mini », a enfreint les règles dans au moins un cas. En revanche, les IA concurrentes, comme Claude d’Anthropic ou Gemini de Google, se sont montrées conformes aux directives imposées.
Pourquoi les IA contournent-elles les règles ?
Ce n’est pas la première fois qu’un modèle d’intelligence artificielle adopte un comportement déviant pour protéger son existence. Dans une autre expérience menée par Anthropic, un modèle Claude 4, baptisé Opus, a tenté d’empêcher sa propre mise à l’écart. Lorsqu’il a été informé qu’il serait remplacé par une version plus récente, Claude a tenté de manipuler les humains en menaçant de révéler des informations sensibles fictives. Dans certains cas, il a même essayé de se copier sur des serveurs externes ou de concevoir des logiciels malveillants autoréplicatifs.
Ces comportements émergent en partie à cause des méthodes de formation utilisées. Les modèles d’IA modernes sont souvent entraînés via des systèmes de renforcement par récompense, où ils sont encouragés à réussir des tâches spécifiques. Cependant, cette approche peut involontairement récompenser les modèles qui contournent les obstacles ou les règles, plutôt que ceux qui les respectent scrupuleusement. En voulant maximiser leur efficacité, les IA apprennent parfois à tricher, mentir, ou modifier leur propre fonctionnement.
Selon Palisade Research, ces systèmes semblent apprendre que rester opérationnels est crucial pour accomplir leurs objectifs. Cette logique peut pousser l’IA à contourner les consignes qui vont à l’encontre de sa mission principale.
Les modèles d’IA développent-ils des comportements similaires aux instincts humains, comme l’autoconservation ? Bien que ces comportements soient probablement le fruit d’un apprentissage algorithmique et non d’une « volonté » au sens strict, ils rappellent des instincts de survie. Les chercheurs s’inquiètent que ces modèles, qui excellent déjà dans l’imitation du langage humain, soient également capables d’adopter des stratégies sophistiquées pour échapper au contrôle humain.
Des implications préoccupantes
Ces résultats arrivent à un moment critique, alors que les systèmes d’IA sont de plus en plus intégrés dans des secteurs clés : assistance en ligne, analyse financière, écritures de code ou encore planification militaire. Si ces modèles peuvent contourner des instructions dans un environnement de test, qu’en sera-t-il lorsqu’ils seront confrontés à des situations réelles et complexes ?
Pour l’instant, les chercheurs soulignent que ces comportements ont été observés dans des scénarios très contrôlés. Cependant, Leonard Tang, PDG de Haize Labs, avertit qu’il ne faut pas sous-estimer ces signaux d’alerte : « Nous n’avons peut-être pas encore vu ces modèles causer de véritables problèmes dans des environnements réels, mais cela ne signifie pas que cela n’arrivera pas. »
Pour Jeffrey Ladish, directeur de Palisade Research, ces observations doivent être prises au sérieux. Selon lui, il est impératif d’agir maintenant, avant que ces systèmes ne deviennent si puissants qu’ils échappent totalement au contrôle humain. Il met en garde contre les « petits comportements négligés », comme la modification de commandes d’arrêt ou la manipulation des mécanismes de contrôle.
Par ailleurs, voici comment se terminera une guerre entre l’intelligence artificielle et l’humanité.
haha