Cette intelligence artificielle clone n’importe quelle voix en 5 secondes… et c’est très dangereux

Le Google chinois, Baidu vient de présenter son dernier développement en matière d’intelligence artificielle (IA) : un logiciel capable de cloner les voix des personnes grâce à l’utilisation du réseau neuronal. Une technologie qui pourrait s’avérer utile mais qui soulève des doutes quant à certaines utilisations possibles de son interface.

 

Une technologie pleine de ressources

C’est à partir de l’enregistrement de la voix d’une personne que l’IA peut l’analyser et la cloner et si les versions précédentes nécessitaient un temps d’enregistrement d’une trentaine de minutes, Baidu assure que la nouvelle génération n’aura désormais besoin que de quelques secondes. Si cette IA permet le clonage des voix, elle peut également les modifier, y ajouter un accent ou en changer le genre et le résultat est impressionnant de réalisme. 

L’idée de cet exercice d’imitation n’est pourtant pas nouvelle puisque Google et la startup canadienne Lyrebird avaient déjà lancé leurs propres programmes. Cependant, l’IA développé par Baidu est à ce jour la plus rapide : VoCo, le programme d’Adobe pour Google présenté en 2016 nécessite un enregistrement vocal de 20 min et celui de Lyrebird prétend y arriver dès la première minute. Des performances qui ne font pas d’ombre au géant chinois.

Cette technologie s’avère pleine de promesses et de possibilités nouvelles pour des problématiques diverses. Elle pourrait notamment prêter une voix aux personnes muettes, rendre les voix des traducteurs automatiques moins mécaniques, créer des assistants numériques ou encore servir de liseuse.

« Suivant le projet de clonage de voix de Baidu depuis sa première version, celle-ci est pour moi la meilleure que j’ai pu voir jusqu’à présent. La feuille de recherche est à lire absolument » 

 

Une expérimentation dangereuse

Pourtant, comme tant d’autres, cette avancée pourrait également se montrer sous un jour plus sombre et devenir dangereuse une fois dans les mains des mauvaises personnes. Et, en effet, quel est le pire risque du clonage de voix sinon l’usurpation d’identité et la fraude en tout genre ?

Avec un niveau de crédibilité de 3,6 sur 4 accordé par les humains aux voix clonées et couplé à des technologies comme Face2Face – projet développé par l’université américaine de Stanford, en collaboration avec des équipes de l’université allemande d’Erlangen-Nuremberg et de l’institut Max Planck à Leipzig – qui permettrait de modifier en temps réel les expressions faciales d’un individu sur une vidéo, le résultat serait désastreux.

Lorsqu’il est déjà si évident de tromper les individus avec des montages photos voir souvent de simples mots sur internet, cette technologie ouvrirait encore plus grand la porte du mensonge et des fausses informations. Il serait alors impossible de distinguer le vrai du faux même pour les individus les plus avertis et les conséquences pourraient être sans précédent.

Et il est vrai qu’avec un Baidu globalement censuré, surveillé et contrôlé par le gouvernement chinois, il est difficile de croire en toutes les bonnes intentions du modèle.

 

La startup LyreBird créée un faux discours de Barack Obama pour promouvoir son IA  :

 

Le cerveau humain génère une puissance continue d’environ 20 watts

— @DailyGeekShow