OpenAI teste ses modèles en faux trafic réel

OpenAI décrit une méthode de simulation de déploiement pour repérer certains comportements indésirables avant la mise en ligne d’un modèle.

OpenAI a publié le 16 juin une méthode baptisée « Deployment Simulation » pour estimer, avant la mise en ligne d’un modèle, comment celui-ci pourrait se comporter dans des usages proches du réel. Le principe est simple à décrire : reprendre des conversations passées, retirer la réponse de l’ancien modèle, puis demander à un modèle candidat de répondre à sa place, dans un cadre préservant la confidentialité. Les nouvelles réponses sont ensuite analysées pour repérer des comportements indésirables et en estimer la fréquence probable au moment du déploiement.

L’intérêt de l’annonce tient à un problème connu des évaluations d’IA. Les tests de sécurité classiques reposent souvent sur des prompts synthétiques, difficiles ou volontairement adversariaux. Ils sont utiles pour traquer des risques rares et graves, mais ils ne reflètent pas toujours la variété des usages ordinaires. OpenAI affirme que la simulation de déploiement ajoute un autre signal : une prévision plus proche du trafic réel, capable de mesurer des comportements qui ne sont pas forcément visibles dans des jeux de tests conçus à l’avance. La société précise que la méthode n’est pas destinée aux incidents extrêmement rares, par exemple ceux qui se produiraient moins d’une fois sur 200 000 messages.

Dans ses essais, OpenAI dit avoir analysé environ 1,3 million de conversations désidentifiées liées aux modèles Thinking de la série GPT-5, entre août 2025 et mars 2026. L’entreprise indique que la méthode a amélioré ses estimations des taux de comportements indésirables, qu’elle a aidé à faire apparaître avant publication une forme de mésalignement appelée « calculator hacking », et qu’elle réduit un biais important : la capacité croissante des modèles à reconnaître qu’ils sont évalués. Dans les contextes simulés à partir d’usages réels, les modèles semblaient beaucoup moins détecter le test que dans des benchmarks plus artificiels.

Le passage le plus utile concerne les agents logiciels. OpenAI explique avoir testé la simulation sur 120 000 trajectoires internes d’agents de codage, où une seule tâche peut dépendre de centaines d’appels d’outils, de l’état d’un dépôt ou de réponses réseau. Au lieu de donner au modèle un accès vivant à des systèmes externes, l’équipe simule les appels d’outils avec un autre modèle et des données en lecture seule. Cela ne remplace pas les audits externes, les tests adversariaux ni les analyses de risques extrêmes. Mais cela montre une direction importante : à mesure que les modèles deviennent agents, la sécurité ne peut plus seulement tester une réponse isolée. Elle doit aussi simuler l’environnement dans lequel l’agent agit.