
Un nouveau test a été conçu pour évaluer les capacités des modèles d’intelligence artificielle (IA). Alors que les humains résolvent ces défis avec aisance, les modèles d’IA actuels peinent à obtenir de bons résultats. Pour progresser et réussir ce test, les entreprises spécialisées en IA devront équilibrer la capacité à résoudre des problèmes avec les coûts associés.
Une évaluation rigoureuse des capacités des IA
Les modèles d’intelligence artificielle les plus avancés ont obtenu des résultats décevants lors d’un nouveau test mesurant leur progression vers l’intelligence artificielle générale (IAG). Contrairement aux évaluations traditionnelles, ce test ne se concentre pas uniquement sur la puissance de calcul brute mais prend également en compte les coûts opérationnels associés à l’exécution des tâches.
L’IAG est généralement définie comme une IA capable d’accomplir l’ensemble des tâches cognitives humaines. Pour évaluer cette capacité, la Fondation du prix ARC a conçu un test de raisonnement, l’ARC-AGI-1. OpenAI avait annoncé en décembre dernier que son modèle o3 avait obtenu de bons résultats à ce test, soulevant ainsi la question d’une éventuelle avancée vers l’IAG.
Toutefois, un nouvel examen, l’ARC-AGI-2, a relevé le niveau d’exigence. Aucun système d’IA disponible aujourd’hui n’a réussi à obtenir un score supérieur à un chiffre sur 100. Pourtant, chaque question du test a été résolue par au moins deux humains en moins de deux essais.
Un test exigeant une adaptabilité et une efficacité accrues
Dans un article de blog présentant le test ARC-AGI-2, Greg Kamradt, président de l’ARC, a expliqué que ce nouveau test explore des compétences différentes de celles évaluées par son prédécesseur. « Pour réussir, il faut démontrer à la fois une grande adaptabilité et une efficacité remarquable », a-t-il déclaré.
Le test ARC-AGI-2 se distingue des benchmarks classiques en mettant l’accent sur des tâches qui semblent simples pour un humain mais complexes pour une IA. Il s’agit, par exemple, de reproduire des motifs dans une image en se basant sur une interprétation symbolique. Contrairement aux tests mesurant la capacité des modèles à traiter des questions académiques complexes, cet examen évalue leur flexibilité cognitive et leur capacité à s’adapter à des contextes inédits.
Les résultats actuels illustrent bien cette difficulté. Alors que le modèle o3-low d’OpenAI affiche un score de 75,7 % sur l’ARC-AGI-1, il chute à seulement 4 % sur l’ARC-AGI-2. Ce test met également en lumière la question du coût, un facteur essentiel dans le développement de l’IA. Là où un humain peut être rémunéré 17 dollars pour effectuer une tâche, l’exécution de la même tâche par le modèle d’OpenAI coûterait environ 200 dollars.
Vers une IA plus performante et plus économe ?
Selon Joseph Imperial, chercheur à l’université de Bath, cette approche constitue une avancée significative vers une évaluation plus réaliste des modèles d’IA. En intégrant la notion d’efficacité, le test ARC-AGI-2 oblige les chercheurs à repenser leurs approches. Les modèles capables de réussir cet examen devront non seulement être performants mais aussi plus économes en ressources, ce qui pourrait répondre aux préoccupations sur la consommation énergétique excessive des modèles d’IA.
Cependant, cette nouvelle approche ne fait pas l’unanimité. Catherine Flick, experte de l’université du Staffordshire, estime que ces tests ne mesurent pas véritablement l’intelligence mais seulement l’aptitude d’un modèle à accomplir une série de tâches précises. Selon elle, de bons résultats à ces tests ne signifient pas forcément que l’IA se rapproche de l’intelligence humaine.
Si un modèle venait à réussir l’ARC-AGI-2, que faudrait-il en conclure ? Devrait-on élaborer un nouveau critère de référence ? Certains experts, comme Joseph Imperial, suggèrent que l’ARC-AGI-3 pourrait ajouter un nouvel axe d’évaluation, prenant en compte la complexité des tâches et le nombre d’humains requis pour les résoudre. Ce test ne marque pas la fin du débat sur l’IAG, mais il représente une étape importante vers une intelligence artificielle plus efficace et plus proche du raisonnement humain.
Par ailleurs, voici comment se terminera une guerre entre l’intelligence artificielle et l’humanité.
Par Eric Rafidiarimanana, le
Source: New scientist
Étiquettes: intelligence artificielle
Catégories: Actualités, Robots & IA