Aller au contenu principal

Des IA entraînées illégalement avec des photos d’enfants sans leur consentement

Attention, ce que vous postez sur votre blog est susceptible de nourrir une IA

Photos Enfants IA
— PeopleImages.com – Yuri A / Shutterstock.com

La question de la protection des données des enfants sur internet prend une nouvelle dimension inquiétante. Un récent rapport de Human Rights Watch révèle que des ensembles de données d’entraînement pour l’IA, largement utilisés et obtenus sur le web, contiennent des images et des informations sur de véritables enfants, sans leur consentement ni information préalable. 

Human Rights Watch a découvert plus de 170 photos traçables de vrais enfants brésiliens dans l’ensemble de données image-texte LAION-5B. Ce dernier, composé de données provenant du dépôt de contenu web Common Crawl, a été utilisé pour former des modèles d’IA. Parmi ces images, certaines comportaient des détails extrêmement sensibles, comme le nom et le lieu de naissance des enfants. Selon Wired, les photos couvrent plusieurs décennies, le contenu ayant été publié entre le milieu des années 1990 et 2023.

Le fait que des outils d’IA soient entraînés à partir de ces données soulève de graves questions de confidentialité. Ces outils d’IA formés sur de telles données peuvent être utilisés pour créer des contenus tels que des “deepfakes” non consensuels et des faux documents sur des abus sexuels d’enfants. Cela met en évidence les sombres réalités des processus de formation à l’IA et le contenu potentiel que ces modèles peuvent générer.

« La vie privée des enfants est d’abord violée lorsque leurs photos sont intégrées dans ces ensembles de données », a déclaré Hye Jung Han, chercheuse à Human Rights Watch spécialisée dans les droits de l’enfant et la technologie. « Ensuite, ces outils d’IA peuvent créer des images réalistes d’enfants à partir de ces données. Tout enfant ayant une photo ou une vidéo en ligne est désormais en danger, car des acteurs malveillants peuvent utiliser ces photos pour les manipuler à leur guise. »

Bon nombre des images trouvées proviennent de sources peu connues, comme des blogs personnels ou des vidéos YouTube avec peu de vues. En d’autres termes, l’IA est formée à partir de contenus qui n’étaient pas destinés à une large diffusion publique. Human Rights Watch a vérifié que beaucoup de ces images étaient introuvables via une recherche d’image inversée. Han insiste sur le fait que les enfants et leurs familles ne s’attendaient pas à ce que des photos publiées dans des contextes privés soient utilisées de cette manière.

Le groupe de recherche LAION, qui a créé LAION-5B, a confirmé avoir supprimé les photos marquées de son ensemble de données, mais cela ne résout qu’une infime partie du problème. Human Rights Watch a analysé moins de 0,0001 % des 5,85 milliards d’images et de légendes contenues dans l’ensemble de données. Ce qui signifie que le chiffre de 170 est probablement une « sous-estimation significative de la quantité totale de données personnelles d’enfants » utilisée dans LAION-5B.

Par ailleurs, voici comment se terminera une guerre entre l’intelligence artificielle et l’humanité.

Par Eric Rafidiarimanana, le

Source: Futurism

Étiquettes:

Catégories: ,

Partager cet article

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *