Ce que l'IA choisit d'ignorer

En 2017, un article fondateur posait que « l'attention est tout ». En 2026, l'industrie fait discrètement marche arrière. Pour tenir le coût, les nouveaux modèles n'apprennent plus à tout retenir, mais à choisir ce qu'ils ne regarderont pas.

En 2017, un article au titre presque arrogant, « L'attention est tout ce dont vous avez besoin », a fondé l'intelligence artificielle moderne. Son idée tenait en une phrase : pour comprendre un texte, chaque mot doit en consulter tous les autres. Cette attention totale a donné aux modèles leur aisance. Elle leur a aussi imposé un coût que l'industrie juge aujourd'hui intenable, car il croît avec le carré de la longueur du texte.

Le 1er juin 2026, l'entreprise chinoise MiniMax a publié M3, un modèle en poids ouverts capable de traiter un million de mots d'un seul tenant. Le procédé porte un nom : l'attention parcimonieuse. Plutôt que de faire regarder chaque mot vers tous les autres, une branche légère trie d'abord les blocs de mémoire qui comptent, et seuls ceux-là sont lus. MiniMax annonce un coût par mot divisé par vingt à un million de mots, et une préparation près de dix fois plus rapide.

L'oubli devient une méthode

M3 n'est pas un cas isolé. À la conférence ICLR de 2026, Google a présenté une technique pour comprimer la mémoire des mots déjà lus ; partout, les laboratoires multiplient les méthodes pour effacer, tasser, écarter. À un million de mots, cette mémoire dévore de 70 à 90 % d'une carte graphique. Le pari est partagé : une machine qui retient tout coûte trop cher pour tourner. On lui apprend donc à oublier, avec discernement.

Le renversement mérite qu'on s'y arrête. Pendant huit ans, progresser voulait dire voir plus, plus long, plus fin. Ici, le gain vient du geste inverse, celui de ne pas regarder. L'art ne consiste plus à tout mémoriser, mais à choisir ce que l'on néglige sans que cela se voie. La performance se déplace de la mémoire vers le tri.

Le tri que personne ne contrôle

Cette économie ressemble à l'attention humaine plus qu'on ne l'admet. Nous ne percevons pas tout : nous filtrons, hiérarchisons, oublions, et c'est précisément ce qui nous laisse penser. Une conscience qui retiendrait chaque détail serait paralysée. Les ingénieurs redécouvrent, sous la contrainte du coût, une vieille vérité de la cognition.

Mais un modèle qui décide ce qu'il ignore décide aussi ce qu'il ne verra pas. La branche qui sépare le pertinent du négligeable devient un juge discret, dont nul ne peut vérifier les arbitrages. En rendant l'IA plus sobre, nous lui confions un pouvoir que nous exerçons sans y songer : celui de détourner le regard.