Ai2 ouvre olmo-eval pour suivre les modèles en chantier

Ai2 publie olmo-eval, un atelier open source pour comparer les modèles pendant leur développement plutôt qu’après coup.

Ai2, l’Allen Institute for Artificial Intelligence, a publié le 12 juin 2026 olmo-eval, un atelier open source destiné à évaluer les grands modèles de langage pendant leur développement, et pas seulement une fois le modèle terminé. La source officielle présente l’outil comme une extension d’OLMES, le standard lancé en 2024 pour rendre les scores de modèles plus comparables. Le fait utile tient dans ce déplacement : l’évaluation devient une partie du cycle de construction, avec des comparaisons répétées entre checkpoints, plutôt qu’un verdict final posé sur une version figée.

Dans l’entraînement d’un modèle, chaque changement de données, d’architecture, d’hyperparamètres ou d’échelle peut améliorer certaines capacités et en dégrader d’autres. Les outils de benchmark classiques répondent surtout à la question « quel score obtient ce modèle ? ». olmo-eval vise une question plus opérationnelle : « qu’est-ce qui a changé depuis le checkpoint précédent, et ce changement est-il fiable ou juste du bruit statistique ? ». Le billet d’Ai2 insiste notamment sur l’analyse question par question, les erreurs standard et le minimum détectable d’effet, c’est-à-dire l’écart minimal qu’on peut distinguer raisonnablement du hasard.

Le projet repose aussi sur une séparation claire entre la tâche évaluée et la manière dont le modèle l’exécute. Une tâche définit le jeu de données, le format de requête et la méthode de score. Le harnais, lui, décrit le contexte d’exécution : modèle, outils, environnement isolé, éventuel modèle juge et politique de runtime. Cette séparation permet de relancer le même benchmark en mode simple, avec appel d’outils, ou dans un bac à sable conteneurisé quand le test exige d’exécuter du code ou de simuler une interaction. Un bac à sable, ici, signifie un environnement isolé qui limite les effets d’une action du modèle sur le reste du système.

L’intérêt dépasse le seul projet OLMo. Les équipes qui fine-tunent des modèles ou construisent des agents ont souvent besoin d’ajouter rapidement une évaluation interne, puis de la rejouer des dizaines de fois. Si chaque test demande une intégration sur mesure, les mesures arrivent trop tard ou deviennent incohérentes. olmo-eval propose donc un registre de tâches et de suites composables, des variantes nommées, des fournisseurs d’inférence comme vLLM ou LiteLLM, et un stockage normalisé des prédictions au niveau agrégé et au niveau de chaque exemple.

Ce lancement ne règle pas le problème plus large de la qualité des benchmarks, qui peuvent rester incomplets, contaminés ou mal alignés avec les usages réels. Il donne en revanche un outil concret pour rendre le travail d’évaluation moins artisanal. Dans une période où les modèles progressent par itérations rapides et où les agents doivent être testés avec leurs outils, la capacité à voir précisément ce qui change entre deux versions devient presque aussi importante que le score final publié dans une fiche modèle.