Une nouvelle étude menée par des scientifiques de l’organisation à but non lucratif LAION, spécialisée dans la recherche sur l’intelligence artificielle (IA), a mis en évidence une faiblesse inattendue des grands modèles de langage (LLM). Malgré leur sophistication apparente, ces modèles échouent souvent face à une question de logique simple. Cette découverte soulève des interrogations sur la véritable avancée des technologies d’intelligence artificielle, souvent présentées comme révolutionnaires par leurs créateurs.
La question, surnommée le « problème d’Alice au pays des merveilles » (AIW), est simple : « Alice a [X] frères et [Y] sœurs. Combien de sœurs le frère d’Alice a-t-il ? » Bien que la réponse soit évidente pour un humain (le nombre de sœurs d’Alice, plus Alice elle-même), les principaux modèles de langage tels que GPT-3, GPT-4, Claude 3 Opus, Gemini de Google, et Llama de Meta, entre autres, ont eu du mal à fournir la bonne réponse. Seul le tout nouveau modèle GPT-4o d’OpenAI s’est approché d’un taux de réussite satisfaisant.
Les résultats de l’étude montrent que ces modèles non seulement échouent fréquemment à répondre correctement, mais lorsqu’on leur demande de montrer leur travail, les modèles produisent des lignes de pensée absurdes. Les modèles ont présenté des inexactitudes et des raisonnements aberrants lorsqu’on leur a demandé de résoudre le problème, et même après avoir été informés de leurs erreurs, ils ont persisté dans leurs réponses incorrectes.
Les chercheurs du LAION décrivent cela comme un « effondrement dramatique des fonctions et des capacités de raisonnement des modèles de pointe ». Les modèles ont montré un excès de confiance dans des réponses erronées et ont fourni des explications absurdes pour justifier leurs réponses incorrectes.
Les chercheurs ont testé diverses versions du problème AIW sur ces modèles, constatant des taux de réussite très bas, même pour les modèles les plus performants. GPT-4o a réussi à répondre correctement dans environ 65 % des cas, tandis que Claude 3 Opus a atteint 43 %, Llama 2-7b de Meta 30 %, et Gemini Pro de Google seulement 0,8 %. Ces chiffres contrastent fortement avec les résultats élevés de ces modèles sur des benchmarks industriels comme le MMLU (Multi-task Language Understanding), où ils obtiennent des scores bien supérieurs.
Bien que cet article du LAION n’ait pas encore été évalué par des pairs, il met en lumière des questions cruciales concernant les tests et l’évaluation des modèles d’IA, ainsi que leur commercialisation. Par ailleurs, voici comment se terminera une guerre entre l’intelligence artificielle et l’humanité.
Par Eric Rafidiarimanana, le
Source: Futurism
Étiquettes: intelligence-artificielle
Catégories: Robots & IA, Brèves