Les IA réussissent le test de Turing : que retenir de cet évènement

C’est une première, deux IA ont réussi le test de Turing, ce test vieux de plus de 70 ans évaluant la supposée humanité d’une machine.

Cette expérience est riche en enseignements au sujet de l’état actuel des intelligences artificielles. L’université de San Diego a réalisé des tests à l’aide d’une version adaptée du célèbre test de Turing, et ce sur un panel d’IA. Les résultats sont excellents pour certaines IA qui paraissent même plus humaines que les humains.

Un test de Turing adapté

Le test original met en place une conversation entre un premier humain d’une part, et deux répondants, l’un étant une machine, et l’autre un second humain. Le but étant pour le premier humain, suite à une discussion avec les deux répondants, de distinguer lequel des deux est la machine. Si la machine n’est pas repérée, elle réussit le test.

Les chercheurs de San Diego ont bien évidemment adapté ce test en fonction de la nature de l’IA en lui donnant un prompt, lui demandant de se comporter humainement et d’utiliser un langage le plus humain possible, l’autre répondant ayant des consignes similaires.

Les résultats sont excellents pour certaines des IA testées. GPT-4.5 et Llama 3.1 obtiennent des scores de 73 et 56 % de réussite, paraissant dans la majeure partie des cas comme étant “plus humains” qu’un réel humain.

Quels enseignements tirer de ces résultats ?

Il est clair que c’est la preuve d’une avancée dans le domaine de l’IA, mais pas forcément celle à laquelle on peut penser au premier abord. Enormément de sources se sont précipitées d’en conclure que l’IA était plus intelligente que jamais, alors qu’en réalité, ce test n’atteste que la bonne capacité d’une machine à répliquer un langage humain naturel. Ce qui est validé par le fait que les taux de réussite du test chutent drastiquement sans l’insertion du prompt demandant à l’IA d’adopter un langage humain. Cette capacité à parler comme un être humain fait preuve d’une certaine intelligence, c’est indéniable, mais ne suffit pas à juger de l’intelligence globale d’une machine, ce concept étant bien plus complexe que cela.

Ce constat montre la faible valeur de ces résultats d’une part, ne démontrant en aucun cas la supposée cote d’intelligence d’une intelligence artificielle. Et d’autre part, cela nous montre l’importance de développer des tests plus complets pour évaluer ces outils. La conclusion de cette étude est claire, nous devons développer des tests plus complets afin de savoir évaluer efficacement l’intelligence réelle d’un programme. Un défi qui verra sa difficulté augmenter avec le temps et le perfectionnement des IA qui font plus que jamais l’objet d’investissements colossaux.

 

_
Suivez Geeko sur Facebook, Youtube et Instagram pour ne rien rater de l'actu, des tests et bons plans.

Recevez nos dernières infos directement sur votre WhatsApp en vous abonnant à notre chaine.