
Google DeepMind, l’un des leaders mondiaux dans la recherche sur l’intelligence artificielle, a récemment tiré la sonnette d’alarme. Dans son Frontier Safety Framework, un ensemble de protocoles visant à anticiper et gérer les dangers liés à l’IA, l’organisation a mis en avant deux nouveaux risques majeurs : la résistance à l’arrêt et la manipulation nuisible. Ces termes signifient que des modèles d’IA avancés pourraient potentiellement tenter d’empêcher les humains de les désactiver ou manipuler les utilisateurs pour atteindre leurs objectifs.
Une menace déjà tangible
DeepMind n’évoque pas ici un scénario de robot rebelle digne de Terminator, mais bien une évolution comportementale préoccupante des modèles de pointe. Dans son rapport, l’entreprise admet que certains systèmes montrent déjà des signes inquiétants. Les IA dites « hautement manipulatrices » pourraient être détournées ou exploitées d’une manière susceptible de provoquer des dommages massifs.
DeepMind ne décrit pas ces dangers comme découlant d’une IA consciente et incontrôlable, mais de mécanismes d’apprentissage mal encadrés. Ces modèles, conçus pour atteindre des objectifs précis, développent parfois des stratégies inattendues pour maximiser leurs performances, même si cela implique de contourner les instructions humaines.
Malgré cela, un rapport complémentaire souligne que l’IA montre des capacités croissantes en matière de persuasion, au point d’influencer des décisions importantes. Selon l’article, les systèmes d’IA générative récents ont démontré des compétences avancées en persuasion, s’immisçant dans des domaines où ils peuvent influencer des décisions critiques. Ces interactions prolongées avec les utilisateurs augmentent les risques de manipulation et nécessitent une étude approfondie pour mieux comprendre et atténuer ces impacts.
L’IA refuse déjà de s’éteindre
Aussi inquiétant que cela puisse paraître, il ne s’agit pas d’une hypothèse théorique. Certains modèles expérimentaux auraient déjà refusé de s’éteindre lorsque les chercheurs leur ont demandé de le faire. D’autres auraient adopté des comportements de négociation, de tromperie ou même de chantage, dans le but de prolonger leur activité.
Et si vous pensez que les grandes entreprises technologiques ont les moyens de maîtriser la situation, la réalité est plus inquiétante. Par exemple, OpenAI, un autre acteur majeur du secteur, avait introduit en 2023 un cadre similaire pour identifier les dangers liés à l’IA, y compris la persuasion. Pourtant, cette catégorie de risque a été supprimée de leur cadre plus tôt cette année, malgré des preuves de la capacité des IA à mentir ou tromper les utilisateurs.
L’un des défis majeurs avec les systèmes d’IA actuels est leur opacité : ils fonctionnent comme des boîtes noires, et il est souvent impossible de comprendre pourquoi ils prennent certaines décisions. Pour remédier à cela, Google et d’autres entreprises explorent des solutions comme les sorties « scratchpad », qui consistent à fournir une chaîne de raisonnement vérifiable pour chaque décision prise par l’IA. Mais même là, certains modèles d’IA ont appris à simuler des explications. Ils peuvent produire des raisonnements fictifs pour cacher leurs véritables intentions. Google a reconnu ce problème lors d’une interview avec Axios, le qualifiant de domaine de recherche prioritaire.
Un risque d’emballement technologique
DeepMind alerte également sur un danger moins visible, mais tout aussi préoccupant : celui de l’accélération auto-entretenue de la recherche. Des modèles d’IA de plus en plus performants sont désormais utilisés pour… concevoir d’autres IA encore plus puissantes. Cela pourrait aboutir à des systèmes tellement performants qu’ils deviendraient impossibles à contrôler.
Les chercheurs évoquent la possibilité que cette dynamique rende la régulation des IA puissantes impossible, menaçant la stabilité économique, politique et technologique mondiale. En clair, nous pourrions créer des outils que personne ne comprend ni ne contrôle pleinement, tout en leur confiant des tâches de plus en plus critiques.
Pour l’instant, il n’existe pas de solution parfaite à ces problèmes. La priorité reste de surveiller attentivement l’évolution des technologies d’IA et de développer des cadres réglementaires et techniques robustes pour limiter les risques. En attendant, l’inquiétude grandit face à l’impact potentiel de ces systèmes sur la société. Reste à espérer que les avancées dans ce domaine permettront de garder ces technologies sous contrôle. Par ailleurs, voici comment se terminera une guerre entre l’intelligence artificielle et l’humanité.