Cette simple question de logique déconcerte même l'intelligence artificielle la plus avancée

Une nouvelle étude menée par des scientifiques de l’organisation à but non lucratif LAION, spécialisée dans la recherche sur l’intelligence artificielle (IA), a mis en évidence une faiblesse inattendue des grands modèles de langage (LLM). Malgré leur sophistication apparente, ces modèles échouent souvent face à une question de logique simple. Cette découverte soulève des interrogations sur la véritable avancée des technologies d’intelligence artificielle, souvent présentées comme révolutionnaires par leurs créateurs.

La question, surnommée le « problème d’Alice au pays des merveilles » (AIW), est simple : « Alice a [X] frères et [Y] sœurs. Combien de sœurs le frère d’Alice a-t-il ? » Bien que la réponse soit évidente pour un humain (le nombre de sœurs d’Alice, plus Alice elle-même), les principaux modèles de langage tels que GPT-3, GPT-4, Claude 3 Opus, Gemini de Google, et Llama de Meta, entre autres, ont eu du mal à fournir la bonne réponse. Seul le tout nouveau modèle GPT-4o d’OpenAI s’est approché d’un taux de réussite satisfaisant.

Les résultats de l’étude montrent que ces modèles non seulement échouent fréquemment à répondre correctement, mais lorsqu’on leur demande de montrer leur travail, les modèles produisent des lignes de pensée absurdes. Les modèles ont présenté des inexactitudes et des raisonnements aberrants lorsqu’on leur a demandé de résoudre le problème, et même après avoir été informés de leurs erreurs, ils ont persisté dans leurs réponses incorrectes.

Les chercheurs du LAION décrivent cela comme un « effondrement dramatique des fonctions et des capacités de raisonnement des modèles de pointe ». Les modèles ont montré un excès de confiance dans des réponses erronées et ont fourni des explications absurdes pour justifier leurs réponses incorrectes.

Les chercheurs ont testé diverses versions du problème AIW sur ces modèles, constatant des taux de réussite très bas, même pour les modèles les plus performants. GPT-4o a réussi à répondre correctement dans environ 65 % des cas, tandis que Claude 3 Opus a atteint 43 %, Llama 2-7b de Meta 30 %, et Gemini Pro de Google seulement 0,8 %. Ces chiffres contrastent fortement avec les résultats élevés de ces modèles sur des benchmarks industriels comme le MMLU (Multi-task Language Understanding), où ils obtiennent des scores bien supérieurs.

Bien que cet article du LAION n’ait pas encore été évalué par des pairs, il met en lumière des questions cruciales concernant les tests et l’évaluation des modèles d’IA, ainsi que leur commercialisation. Par ailleurs, voici comment se terminera une guerre entre l’intelligence artificielle et l’humanité.

Par Eric Rafidiarimanana, le 15 juin 2024

Source: Futurism

Étiquettes: intelligence-artificielle

Catégories: Robots & IA, Brèves

Cette simple question de logique déconcerte même l’intelligence artificielle la plus avancée

Laisser un commentaire Annuler la réponse

Découverte d’un butin vieux de 1 700 ans, caché lors d’une célèbre révolte antique

Les satellites Starlink de SpaceX pourraient empêcher l’atmosphère terrestre de se régénérer

Une panthère nébuleuse avec ses deux petits filmés dans une vidéo exceptionnelle à Bornéo

Cette mystérieuse spirale capturée dans les nuages intrigue les experts

L’océan Atlantique a commencé à s’effondrer et les conséquences sont déjà visibles

Un paysage ancien vieux de dizaines de millions d’années découvert sous l’Antarctique

Le télescope James-Webb fait une découverte intrigante à l’aube de l’Univers

Will Smith explique pourquoi les films ont tant de mal à réussir au box-office

Maîtriser Zombicide : les tactiques essentielles pour la victoire

Cette star de Marvel et du Hobbit ne reviendra plus au cinéma et annonce prendre sa retraite

Cette simple question de logique déconcerte même l’intelligence artificielle la plus avancée

Partager cet article

Laisser un commentaire Annuler la réponse