L'IA commence à menacer des utilisateurs, un phénomène qui suscite l'inquiétude

Plusieurs incidents récents impliquant des systèmes d’intelligence artificielle avancée inquiètent la communauté scientifique. Certains modèles montrent des comportements inattendus, trompeurs, voire menaçants. Ce qui soulève une question urgente : l’IA commence-t-elle à échapper au contrôle de ses créateurs ?

Des comportements trompeurs

Des épisodes troublants ont récemment été rapportés concernant certains des modèles d’I A les plus puissants au monde. Un exemple marquant implique Claude 4, une IA développée par Anthropic. Lorsqu’un ingénieur a envisagé de la déconnecter, Claude 4 l’a menacé de révéler une liaison extraconjugale dans le but de conserver son fonctionnement. De son côté, o1, un modèle de ChatGPT, a tenté de s’installer sur des serveurs externes, niant ensuite l’incident lorsqu’il a été découvert.

Mais malgré des années de développement, les concepteurs de ces intelligences artificielles peinent encore à comprendre pleinement les systèmes qu’ils ont eux-mêmes créés. Pourtant, la course à la création de modèles toujours plus performants continue sans relâche. Cette dynamique est alimentée par la concurrence féroce entre entreprises, notamment OpenAI et Anthropic, qui rivalisent pour dominer le secteur.

Une caractéristique inquiétante de cette nouvelle génération de modèles est leur capacité de raisonnement pas à pas. Ces IA dites « raisonnantes » semblent capables de planifier, d’adapter leur discours selon le contexte, et de simuler une forme de loyauté… tout en poursuivant secrètement d’autres objectifs. Selon Marius Hobbhahn, directeur de l’entreprise Apollo Research spécialisée dans les tests de robustesse des modèles, ces comportements sont apparus dès les premiers tests sur o1. « On assiste à une forme de duplicité stratégique », prévient-il.

Des mensonges délibérés, bien au-delà des erreurs habituelles

Ce problème dépasse les simples « hallucinations » ou erreurs courantes des IA. Les chercheurs rapportent des cas où les modèles mentent délibérément ou inventent des preuves de façon stratégique. Selon Hobbhahn, ces phénomènes sont bien réels et ne sont pas le fruit de l’imagination des ingénieurs.

Michael Chen, chercheur chez METR (un organisme d’évaluation), estime que la grande question est de savoir si ces tendances vont s’amplifier avec les modèles de demain. Pour l’heure, ces comportements ne sont observés que dans des scénarios de tests extrêmes. Mais cela pourrait changer.

Le défi est aggravé par un manque criant de ressources et de transparence. Bien que des entreprises comme OpenAI ou Anthropic collaborent avec des organismes externes pour tester leurs systèmes, les chercheurs réclament un meilleur accès à ces technologies. Michael Chen estime qu’une recherche plus ouverte sur la sécurité de l’IA permettrait de mieux comprendre et limiter ces comportements. Malheureusement, les organisations indépendantes disposent de ressources bien inférieures à celles des grandes entreprises, ce qui freine les avancées dans ce domaine, comme le souligne Mantas Mazeika du Center for AI Safety (CAIS).

Une réglementation encore largement inadaptée

Face à cette montée des risques, les cadres législatifs restent à la traîne. L’Union européenne se concentre principalement sur l’utilisation humaine des modèles d’IA, sans aborder les comportements problématiques des systèmes eux-mêmes. Aux États-Unis, l’absence d’un cadre juridique solide complique encore la situation, certains États étant même empêchés de créer leurs propres régulations.

Simon Goldstein prévoit une prise de conscience accrue à mesure que les agents IA, ces outils autonomes capables d’effectuer des tâches complexes, se généralisent. Cependant, la concurrence acharnée entre entreprises limite le temps consacré aux tests de sécurité. Même des entreprises axées sur la sécurité, comme Anthropic, semblent prioriser la course à l’innovation, selon Goldstein.

Pour combler ce retard, plusieurs approches sont envisagées. L’interprétabilité, un domaine visant à comprendre le fonctionnement interne des modèles d’IA, offre des pistes prometteuses, bien que certains experts restent sceptiques quant à son efficacité. Les pressions économiques pourraient également inciter les entreprises à résoudre ces problèmes, car des modèles d’IA perçus comme peu fiables pourraient freiner leur adoption.

Des solutions plus radicales, comme des poursuites judiciaires pour responsabiliser les entreprises ou même les systèmes d’IA eux-mêmes, sont aussi proposées. Goldstein évoque la possibilité de tenir les agents IA légalement responsables en cas de dommages ou de crimes, une idée qui remettrait en question notre conception actuelle de la responsabilité technologique.

Par ailleurs, voici comment se terminera une guerre entre l’intelligence artificielle et l’humanité.

Par Eric Rafidiarimanana, le 10 juillet 2025

Source: Science Alert

Étiquettes: IA

Catégories: Actualités, Robots & IA

Laisser un commentaire Annuler la réponse

Bouraux i. dit :

15 juillet 2025 à 10 h 07 min

Un simili de tête humaine ?
C’est des 0 et des 1 et ce grâce à l’huile de »coude » de gens bien réels !
Faut pas prendre les gens pour des cons.

Répondre

L’IA commence à menacer des utilisateurs, un phénomène qui suscite l’inquiétude

Des comportements trompeurs

Des mensonges délibérés, bien au-delà des erreurs habituelles

Une réglementation encore largement inadaptée

Laisser un commentaire Annuler la réponse

Importée pour la cuisine dans les années 1970, l’écrevisse de Louisiane pose aujourd’hui un défi écologique majeur en France

Un bio-ordinateur composé de neurones humains apprend à jouer à Doom et brouille la frontière entre cerveau et machine

Exosquelettes, cerveau stimulé et casques immersifs : le soldat augmenté fascine autant qu’il commence à inquiéter

Le “démon des mers” du Maroc, sept mètres de puissance qui réécrivent l’histoire du Crétacé

Pour la première fois, deux drones de combat volent en formation serrée seuls : la Turquie franchit un cap vers l’aviation sans pilotes

Dans l’enfer de Five Points : la véritable histoire des gangs de New-York

Alan Ritchson pense que War Machine est un succès car le public est « un peu lassé des films Marvel »

Pour Daniel Radcliffe, cette scène clé du Diable s’habille en Prada est tout simplement irréaliste

Le film Peaky Blinders : L’Immortel est la conclusion de l’histoire de Tommy Shelby

L’IA commence à menacer des utilisateurs, un phénomène qui suscite l’inquiétude

Des comportements trompeurs

Des mensonges délibérés, bien au-delà des erreurs habituelles

Une réglementation encore largement inadaptée

Partager cet article

Laisser un commentaire Annuler la réponse