Les épreuves de l’IA ne départagent plus

Le tableau de scores qui classait les machines depuis dix ans devient aveugle. Des examens plus durs n’y changeront rien : le problème, c’est l’idée même d’un examen fixe.

Un classement rassure : il transforme une question vertigineuse, « cette machine est-elle intelligente ? », en un chiffre qu’on peut comparer. Pendant dix ans, l’intelligence artificielle a vécu sous cette discipline du score. Aujourd’hui, les meilleurs modèles franchissent les 88 % sur les grands examens de connaissance, si serrés que l’écart entre le premier et le dixième ne veut plus rien dire. L’instrument ne tremble plus : il est à fond.

La saturation n’est pas un détail technique. MMLU, l’épreuve de référence, est tombée dès 2024, et d’autres l’avaient précédée. Chaque test conçu pour résister des années cède en quelques mois. Et plus un examen devient célèbre, plus ses questions finissent par se glisser dans les données d’entraînement : le modèle ne raisonne plus, il se souvient. La note grimpe pour la mauvaise raison.

La loi qui ronge la mesure

C’est une vieille règle, formulée par l’économiste Charles Goodhart : dès qu’une mesure devient un objectif, elle cesse d’être une bonne mesure. L’IA en offre la démonstration la plus nette. Les laboratoires optimisent pour le tableau de scores, le tableau de scores cesse de dire le réel, et l’écart se creuse : sur des tâches d’entreprise, on observe jusqu’à 37 % de différence entre la performance annoncée en laboratoire et celle constatée en production.

Le réflexe de l’industrie est de fabriquer des épreuves plus dures, à l’abri de la contamination. Elles tiendront un an, peut-être deux. Le problème n’est pas la difficulté des questions, c’est l’idée même d’un examen fixe. Une intelligence qui mérite ce nom devrait justement déborder le cadre où l’on prétend l’enfermer.

Mesurer la confiance, plus la connaissance

Le vrai déplacement est ailleurs. La question utile n’est plus « combien sait-il ? » mais « jusqu’où puis-je lui faire confiance, ici, sur ma tâche, à quel coût ? ». Pour une même précision, les écarts de coût vont de un à cinquante. Les taux d’erreur factuelle, eux, s’étalent de 22 à 94 % selon les modèles. Aucun chiffre unique ne capture cela.

Nous entrons donc dans un âge sans boussole partagée, au moment précis où les décisions d’investissement et de déploiement en réclameraient une. Il faudra réapprendre à juger sans note, par l’épreuve du terrain plutôt que par le classement. C’est inconfortable, et plus honnête : on ne mesure bien une machine qu’en la regardant travailler.