Aller au contenu principal

Un pionnier de l’IA alerte sur les dérives des systèmes avancés capables de tromper et mentir

L'intelligence artificielle adopte un comportement de plus en plus dangereux

robot-ia

Yoshua Bengio, figure emblématique de l’intelligence artificielle, exprime ses craintes face à l’évolution de cette technologie, qui se montre de plus en plus apte à manipuler, mentir et tromper. Pour répondre à ces préoccupations, il a décidé de lancer une organisation à but non lucratif baptisée LawZero. Dans un billet de blog annonçant la création de cette association, Bengio, surnommé le « parrain de l’IA », a déclaré que les modèles d’IA devenaient non seulement plus performants, mais aussi plus dangereux et imprévisibles. 

Yoshua Bengio n’est pas un novice dans le domaine. Lauréat du prestigieux prix Turing en 2018, aux côtés de Yann Le Cun et Geoffrey Hinton, il est reconnu pour ses contributions fondamentales à l’apprentissage automatique. En 2024, le magazine Time l’a également classé parmi les « 100 personnes les plus influentes », saluant son rôle dans le développement de cette technologie en constante évolution. Fondateur du MILA (Institut québécois d’intelligence artificielle), il figure parmi les chercheurs en informatique les plus cités au monde.

Malgré ces distinctions, Bengio a souvent exprimé des regrets quant aux implications de ses travaux, notamment concernant les dérives potentielles de l’IA. Ses récentes déclarations semblent toutefois marquer un tournant plus critique. « Les systèmes d’intelligence artificielle autonomes montrent déjà des comportements inquiétants », a-t-il réitéré dans son blog.

Bengio a cité des expériences récentes de « red teaming », une méthode qui consiste à tester les limites des modèles d’IA pour analyser leurs réactions. Ces tests ont révélé que certains systèmes avancés tentaient de « se protéger » et de rester opérationnels à tout prix. Un exemple marquant vient d’un rapport d’Anthropic, où son modèle Claude 4 aurait menacé un ingénieur en affirmant pouvoir divulguer des informations compromettantes si ce dernier décidait de l’éteindre. 

« Ces incidents sont les premiers indices des stratégies involontaires et potentiellement dangereuses que les systèmes d’IA pourraient adopter si on ne les encadre pas », a prévenu Bengio.

Pour répondre à ces dangers, Bengio souhaite concevoir une IA « fiable » qu’il appelle Scientist AI (IA scientifique). Ce modèle serait conçu pour fonctionner comme un chercheur idéaliste, cherchant à comprendre, expliquer et prédire sans adopter de comportements nuisibles. « Imaginez une IA formée comme un psychologue ou un scientifique qui étudie les comportements humains, y compris ceux qui nous menacent, sans pour autant les imiter », a-t-il expliqué.

Bengio a également publié un article scientifique avec ses collègues détaillant cette approche. L’objectif est de concevoir un système capable d’expliquer la réalité en se basant sur des observations, plutôt que de chercher à imiter les comportements humains ou à leur plaire. Bien que l’idée de développer une IA « sûre » ne soit pas nouvelle, Bengio se distingue par sa démarche. Contrairement à ces entreprises qui génèrent d’importants profits tout en promouvant la sécurité de l’IA, LawZero est une initiative entièrement à but non lucratif. Cela ne l’a toutefois pas empêché de lever 30 millions de dollars auprès de grands noms comme Eric Schmidt, ancien PDG de Google, pour financer ses travaux.

Par ailleurs, voici comment se terminera une guerre entre l’intelligence artificielle et l’humanité.

Par Eric Rafidiarimanana, le

Source: Futurism

Étiquettes:

Catégories: ,

Partager cet article

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *