La nouvelle technologie du géant américain vous permettra de mieux entendre vos amis lors d’un chat vidéo.

GoogleMind1

C’est grâce au Deep Learning, un ensemble de méthodes d’apprentissage automatique comparable à une intelligence artificielle, que Google a réussi la prouesse. L’IA arrive à isoler des voix spécifiques en analysant le visage des personnes qui parlent.

Nous en sommes tous capables : dans une ambiance bruyante, par exemple lors d’une réception, notre cerveau va se concentrer et isoler la voix de la personne qu’on écoute, en faisant fi du reste, il s’agit de l’effet cocktail party.

Pour arriver au même résultat, l’IA de Google a été formée pour reconnaître la voix d’une personne parlant individuellement avant de supprimer celle des autres. L’IA analyse les mouvements de la bouche d’une personne et associe ces données avec les sons produits par celle-ci. La voix ciblée est alors isolée du reste de son environnement : les autres voix comme les bruits.

Ici, l'IA décompose la piste audio de la vidéo en deux pistes distinctes, une pour chaque intervenant.
Ici, l’IA décompose la piste audio de la vidéo en deux pistes distinctes, une pour chaque intervenant.

Il a fallu plus de 100.000 vidéos d’entrainement à l’IA pour arriver au résultat que vous pouvez voir ci-dessous.

Google envisage d’utiliser cette technologie sur ses services de chat vidéo comme Hangouts ou Duo.