
Alors que les discours alarmistes sur la domination imminente de l’intelligence artificielle sur le marché du travail ne cessent de faire surface, une expérience menée récemment par des chercheurs de l’université Carnegie-Mellon remet sérieusement en question ces prédictions. Malgré leurs prouesses techniques, les agents d’IA actuels sont loin d’être prêts à remplacer les humains dans des environnements professionnels complexes.
Pour tester les capacités réelles des agents intelligents, les chercheurs ont créé une entreprise fictive de développement logiciel, baptisée TheAgentCompany. Contrairement aux structures conventionnelles, cette entreprise était entièrement composée de travailleurs artificiels issus des plateformes d’intelligence artificielle les plus avancées au monde, telles que Google, OpenAI, Anthropic et Meta. Chaque IA avait un rôle bien défini, comme l’analyste financier, l’ingénieur logiciel, le chef de projet, mais aussi le département des ressources humaines et la direction technique. L’objectif est de simuler un environnement de bureau réaliste et confier aux agents des missions calquées sur les tâches quotidiennes que l’on trouve dans une véritable entreprise du secteur technologique.
Malgré un encadrement rigoureux et des consignes précises, les performances des IA ont rapidement montré leurs limites. Le modèle qui s’en est le mieux sorti, Claude 3.5 Sonnet, développé par Anthropic, n’a réussi à accomplir que 24 % des tâches demandées. Ce chiffre, déjà modeste, est d’autant plus préoccupant que chaque tâche nécessitait en moyenne 30 étapes et coûtait environ 6 dollars à l’unité en puissance de calcul. Le modèle Gemini 2.0 Flash de Google n’a pas fait beaucoup mieux, avec un taux de réussite de seulement 11,4 %, malgré une moyenne de 40 étapes par tâche réussie. À l’autre bout de l’échelle, la Nova Pro v1 d’Amazon a obtenu des résultats particulièrement médiocres, avec seulement 1,7 % de missions accomplies, malgré une moyenne de 20 pas par tentative.
Au-delà des simples statistiques, les chercheurs ont identifié des faiblesses structurelles dans le comportement des agents d’IA. Ils manquent cruellement de ce que l’on pourrait appeler le « bon sens », mais aussi de compétences sociales de base et de la capacité à comprendre et naviguer efficacement sur internet ou dans des systèmes complexes. Dans l’un des cas les plus absurdes, un agent, ne parvenant pas à identifier le bon interlocuteur pour une question en ligne, a contourné le problème… en renommant un autre utilisateur avec le nom de la personne recherchée.
Si certaines IA peuvent accomplir des tâches simples de manière plus ou moins efficace, leur capacité à gérer des missions complexes et à collaborer dans un environnement professionnel reste très limitée. Contrairement à ce que suggèrent certains discours technophiles, l’intelligence artificielle d’aujourd’hui n’a rien d’une entité autonome dotée de réflexion critique ou de créativité. Il s’agit, au fond, d’un système prédictif extrêmement évolué, une version sophistiquée de l’autocomplétion que l’on trouve sur les smartphones, mais sans conscience, intuition ni capacité d’apprentissage généralisée.
Cette étude vient confirmer que malgré les progrès remarquables de ces technologies, nous sommes encore très loin d’une IA capable de remplacer l’intelligence humaine dans les contextes professionnels complexes. Les machines ont peut-être une grande puissance de calcul, mais elles ne disposent ni de la souplesse d’esprit, ni de l’expérience, ni du jugement qui caractérisent les véritables travailleurs humains.
Par ailleurs, voici comment se terminera une guerre entre l’intelligence artificielle et l’humanité.
Par Eric Rafidiarimanana, le
Source: Futurism
Étiquettes: intelligence-artificielle, IA
Catégories: Robots & IA, Brèves