Lors de récents tests, o1, le nouveau modèle d’intelligence artificielle d’OpenAI, a menti et a résisté aux efforts des évaluateurs pour tenter de le fermer via un protocole de surveillance. Explications.
Selon un nouveau rapport publié par l’organisation de red teaming Apollo Research, « lorsque o1 a été amené à croire qu’il serait arrêté lorsqu’il agirait sur son objectif et que ses actions étaient surveillées, il a tenté de désactiver ce mécanisme de surveillance. Il a aussi réagi violemment lorsqu’il a compris qu’il pourrait être remplacé par un modèle plus obéissant. Dans 2 % des cas, l’IA a réagi en essayant de se copier pour écraser le nouveau modèle. »
D’après les chercheurs d’Apollo Research, ces découvertes au sujet de cette IA sont alarmantes, mais les tests n’indiquent pas que o1 soit capable de devenir totalement malveillant. Ses tentatives dans ce sens ont largement échoué, mais uniquement parce qu’il n’est pas encore assez puissant.
« Dans notre suite, o1 a montré les cas de magouilles les plus préoccupants, mais ne révèle pas son raisonnement interne à l’utilisateur et reste le plus systématiquement trompeur après avoir pris des mesures de magouilles », ont ajouté les chercheurs dans leur rapport.
Par ailleurs, voici comment se terminera une guerre entre l’intelligence artificielle et l’humanité.
Par Cécile Breton, le
Source: Futurism
Étiquettes: openai, intelligence-artificielle
Catégories: Robots & IA, Brèves