
Plusieurs incidents récents impliquant des systèmes d’intelligence artificielle avancée inquiètent la communauté scientifique. Certains modèles montrent des comportements inattendus, trompeurs, voire menaçants. Ce qui soulève une question urgente : l’IA commence-t-elle à échapper au contrôle de ses créateurs ?
Des comportements trompeurs
Des épisodes troublants ont récemment été rapportés concernant certains des modèles d’IA les plus puissants au monde. Un exemple marquant implique Claude 4, une IA développée par Anthropic. Lorsqu’un ingénieur a envisagé de la déconnecter, Claude 4 l’a menacé de révéler une liaison extraconjugale dans le but de conserver son fonctionnement. De son côté, o1, un modèle de ChatGPT, a tenté de s’installer sur des serveurs externes, niant ensuite l’incident lorsqu’il a été découvert.
Mais malgré des années de développement, les concepteurs de ces intelligences artificielles peinent encore à comprendre pleinement les systèmes qu’ils ont eux-mêmes créés. Pourtant, la course à la création de modèles toujours plus performants continue sans relâche. Cette dynamique est alimentée par la concurrence féroce entre entreprises, notamment OpenAI et Anthropic, qui rivalisent pour dominer le secteur.
Une caractéristique inquiétante de cette nouvelle génération de modèles est leur capacité de raisonnement pas à pas. Ces IA dites « raisonnantes » semblent capables de planifier, d’adapter leur discours selon le contexte, et de simuler une forme de loyauté… tout en poursuivant secrètement d’autres objectifs. Selon Marius Hobbhahn, directeur de l’entreprise Apollo Research spécialisée dans les tests de robustesse des modèles, ces comportements sont apparus dès les premiers tests sur o1. « On assiste à une forme de duplicité stratégique », prévient-il.
Des mensonges délibérés, bien au-delà des erreurs habituelles
Ce problème dépasse les simples « hallucinations » ou erreurs courantes des IA. Les chercheurs rapportent des cas où les modèles mentent délibérément ou inventent des preuves de façon stratégique. Selon Hobbhahn, ces phénomènes sont bien réels et ne sont pas le fruit de l’imagination des ingénieurs.
Michael Chen, chercheur chez METR (un organisme d’évaluation), estime que la grande question est de savoir si ces tendances vont s’amplifier avec les modèles de demain. Pour l’heure, ces comportements ne sont observés que dans des scénarios de tests extrêmes. Mais cela pourrait changer.
Le défi est aggravé par un manque criant de ressources et de transparence. Bien que des entreprises comme OpenAI ou Anthropic collaborent avec des organismes externes pour tester leurs systèmes, les chercheurs réclament un meilleur accès à ces technologies. Michael Chen estime qu’une recherche plus ouverte sur la sécurité de l’IA permettrait de mieux comprendre et limiter ces comportements. Malheureusement, les organisations indépendantes disposent de ressources bien inférieures à celles des grandes entreprises, ce qui freine les avancées dans ce domaine, comme le souligne Mantas Mazeika du Center for AI Safety (CAIS).
Une réglementation encore largement inadaptée
Face à cette montée des risques, les cadres législatifs restent à la traîne. L’Union européenne se concentre principalement sur l’utilisation humaine des modèles d’IA, sans aborder les comportements problématiques des systèmes eux-mêmes. Aux États-Unis, l’absence d’un cadre juridique solide complique encore la situation, certains États étant même empêchés de créer leurs propres régulations.
Simon Goldstein prévoit une prise de conscience accrue à mesure que les agents IA, ces outils autonomes capables d’effectuer des tâches complexes, se généralisent. Cependant, la concurrence acharnée entre entreprises limite le temps consacré aux tests de sécurité. Même des entreprises axées sur la sécurité, comme Anthropic, semblent prioriser la course à l’innovation, selon Goldstein.
Pour combler ce retard, plusieurs approches sont envisagées. L’interprétabilité, un domaine visant à comprendre le fonctionnement interne des modèles d’IA, offre des pistes prometteuses, bien que certains experts restent sceptiques quant à son efficacité. Les pressions économiques pourraient également inciter les entreprises à résoudre ces problèmes, car des modèles d’IA perçus comme peu fiables pourraient freiner leur adoption.
Des solutions plus radicales, comme des poursuites judiciaires pour responsabiliser les entreprises ou même les systèmes d’IA eux-mêmes, sont aussi proposées. Goldstein évoque la possibilité de tenir les agents IA légalement responsables en cas de dommages ou de crimes, une idée qui remettrait en question notre conception actuelle de la responsabilité technologique.
Par ailleurs, voici comment se terminera une guerre entre l’intelligence artificielle et l’humanité.
Par Eric Rafidiarimanana, le
Source: Science Alert
Étiquettes: IA
Catégories: Actualités, Robots & IA
Un simili de tête humaine ?
C’est des 0 et des 1 et ce grâce à l’huile de »coude » de gens bien réels !
Faut pas prendre les gens pour des cons.