Une IA crée des images à partir de descriptions

L’intelligence artificielle Dall-E est capable de générer plusieurs interprétations visuelles à partir d’une simple phrase. 

L’entreprise américaine OpenAI, spécialisée dans l’intelligence artificielle et dans l’apprentissage automatique, vient de dévoiler un nouveau réseau neuronal ; Dall-E. Ce dernier est capable de créer des images à partir d’une légende. Cela n’a l’air de rien comme cela, mais dans les faits, la chose est particulièrement complexe pour un robot.

Dall-E – contraction du nom de l’artiste Salvador Dali et du personnage Wall-E – se base sur le modèle de langage GTP-3, également développé par OpenAI pour fonctionner. Ce dernier permet de générer des passages de texte originaux et cohérents à partir de quelques mots. Il dispose de plus de 12 milliards de paramètres pour cela.

« Le modèle GPT-3 a montré que le langage peut être utilisé pour ordonner à un réseau de neurones d’effectuer diverses tâches de génération de texte. L’image GPT a montré que le même type de réseau neuronal peut également être utilisé pour générer des images de haute fidélité. Nous étendons ces résultats pour montrer que la manipulation de concepts visuels par le langage est désormais à portée de main », explique la société américaine.

La nouvelle intelligence artificielle d’OpenAI, elle, se base sur quelques mots ou une phrase pour générer des images. Un exercice pour lequel l’IA va puiser dans sa base de données composée de centaines de millions d’images et de leur légende pour générer une image à partir d’un court texte.

Dall-E ne se contente pas de générer une seule image, mais en propose plusieurs à partir de la description donnée. Il y a donc pour tous les gouts. Voici par exemple les images créées par l’IA sur base de la phrase « illustration d’un bébé radis blanc avec un tutu promenant un chien » :

Le fait qu’elle propose plusieurs interprétations visuelles d’une même phrase montre que l’IA a été spécialement créée dans ce sens précis et que les images ne résultent pas d’une forme de créativité pure de Dall-E ni d’une forme d’intelligence propre.

« Nous avons constaté que [Dall-E] possède un ensemble de capacités diverses, notamment la création de versions anthropomorphes d’animaux et d’objets, la combinaison de concepts sans rapport entre eux de manière plausible, le rendu de texte et l’application de transformations à des images existantes », souligne OpenIA.

Si l’entreprise américaine n’a pas précisé dans quel contexte Dall-E pourrait être utile, on peut imaginer que cette dernière le sera d’une manière ou d’une autre. Elle pourrait d’ailleurs servir de base à d’autres formes de réseaux neuronaux.