Amanda Dalbjörn on unsplash

Le deepfake, c’est quoi au juste?

Le “deeplearning” est une méthode informatique qui permet de réaliser des “deepfakes”.  Idée dystopique ou futur proche, ces fausses vidéos qui mettent en scène des personnalités font de plus en plus parler d’elles. Mais en réalité, comment fonctionnent-ils ?

Le terme Deepfake est le fruit d’un mélange de mots utilisés pour créer un nouveau mot : “deep learning” et “fake”. Cette technologie utilise une forme d’apprentissage automatique appelée technologie d’apprentissage profond. Elle est ainsi capable de comprendre ce à quoi ressemble votre visage sous différents angles et utilise ces informations pour transposer un faux visage sur le vôtre.

En clair, la technologie d’apprentissage profond est un type d’apprentissage automatique qui applique la simulation de réseaux neuronaux à des ensembles de données massifs. L’intelligence artificielle (IA) apprend effectivement à quoi ressemble un visage particulier sous différents angles afin de transposer ce visage sur une cible comme s’il s’agissait d’un masque. Ce faux visage, entièrement créer, devient alors un masque sur votre visage que vous pouvez contrôler et manipuler.

Ces vidéos, sons, textes ou images sont fabriqués à l’aide d’algorithmes relevant du champ de l’intelligence artificielle. On les appelle les réseaux de neurones artificiels ou réseaux adversatifs génératifs (GANS).

Les GANs

Les réseaux adverses génératifs ou GANs (Generative Adversarial Network), sont des algorithmes d’apprentissage basés sur des réseaux de neurones artificiels. Ils sont capables de modéliser et d’imiter n’importe quelle distribution de données. Ainsi, ils sont utilisés dans différents domaines. Par exemple, le traitement d’images, de texte, ou encore, la création de deepfakes.

Concrètement, un GAN oppose deux réseaux neuronaux, l’un créant le faux et l’autre notant ses efforts, apprenant au moteur de synthèse à faire de meilleurs faux. Autrement dit, l’un est générateur, l’autre est un discriminateur. Pour synthétiser l’image d’une personne fictive, le générateur apprend par itération à synthétiser un visage réaliste. L’itération consiste à répéter une expérience jusqu’à obtenir le résultat le plus précis possible. Ainsi, à chaque itération, le discriminateur apprend à distinguer le visage synthétisé d’un corpus de visages réels. Si le visage synthétisé peut être distingué des visages réels, le discriminateur pénalise le générateur.

Cet exercice technique, encore perfectible, s’améliore de jour en jour. Demain, cette technologie qui se démocratise pourrait être accessible à tous et toutes. Il existe d’ailleurs déjà des façons beaucoup plus simples et accessibles de générer des deepfakes.

Des techniques qui se multiplient

Pour les personnes non-initiées, la création de deepfake reste encore aujourd’hui une activité relativement complexe. Par contre, les outils pour créer ces vidéos deepfakes sont nombreux.

Il existe la reconfiguration faciale, le changement de visage, la reconstruction labiale, le puppet-master, le face reenactment, la synthétisation de la voix humaine.

Le face swapping, ou la technique du Faceswap («échange de visage ») consiste à remplacer le visage d’une personne sur une photo ou une vidéo par le visage d’une autre personne. Cela peut se faire soit de façon manuelle, soit grâce à l’intelligence artificielle. La reconstruction labiale, ou lip-sync, est une technique d’enregistrement simultané de la voix et de l’image. Et, en particulier, la synchronisation, des mouvements des lèvres avec le son enregistré. Ce processus permet de faire correspondre les mouvements labiaux d’une personne à des paroles qu’elle ne prononce pas. Enfin, le puppeteering, ou l’effet marionnette, consiste à “animer une vidéo d’une personne à l’aide des expressions faciales et corporelles d’une autre personne assise devant une caméra”, explique le site journalism.design. En bref, une vidéo A va contrôler les mouvements d’une vidéo B.

Des techniques qui se démocratisent

Aujourd’hui la tendance est à la démocratisation via des applications grand public comme FakeApp ou de manière plus éphémère DeepNude. Avant sa suppression, cette dernière permettait de prendre l’image d’une femme entièrement vêtue et de la déshabiller pour créer une vidéo pornographique non consensuelle.

En 2019, des ingénieurs de Stanford ont réussi à rendre l’édition de vidéos aussi facile que l’édition de texte. Ils avaient créé un nouvel algorithme permettant aux monteurs vidéo de modifier des vidéos de têtes parlantes comme s’il s’agissait d’une édition de texte. Et ce, en copiant, collant, ou ajoutant et supprimant des mots.

Ainsi, la technologie des “deepfakes” offre de nombreuses possibilités intéressantes pour divers secteurs créatifs. Par exemple pour le doublage ou la création de personnages de synthèse dans les films et les jeux vidéo. La technologie est même utilisée pour produire des vidéos de formation d’entreprise et former des médecins. Toutefois, certains craignent que cette technologie ne soit utilisée à des fins peu éthiques. Par exemple, pour générer de fausses déclarations politiques.

L’exemple de ZAO 

Dès son lancement, ZAO est rapidement devenue l’application mobile préférée des Chinois. En clair, celle-ci permet d’intégrer le visage d’un utilisateur sur le corps de personnages de films cultes, en photo et en vidéo.

Pour cela, l’utilisateur doit enregistrer dans l’application toute une série de poses sur lesquelles il doit cligner des yeux, bouger la bouche et réaliser différentes expressions faciales. Ensuite, la technologie de ZAO fait en sorte que son visage soit parfaitement en adéquation avec celui du personnage.

 

_
Suivez Geeko sur Facebook, Youtube et Instagram pour ne rien rater de l'actu, des tests et bons plans.