Google affine l’audit du désapprentissage IA

Google Research propose un cadre statistique pour vérifier si un modèle a réellement réduit l’influence de données censées être oubliées.

Google Research a présenté le 10 juin 2026 un cadre statistique pour auditer le « désapprentissage » des modèles, c’est-à-dire leur capacité supposée à retirer l’influence de certaines données d’entraînement sans tout réentraîner depuis zéro. Le fait central est précis : l’équipe propose des tests par noyaux fondés sur des f-divergences régularisées, publiés à AISTATS 2026, afin de déterminer plus finement si un modèle qui prétend avoir oublié des données se rapproche vraiment d’un modèle réentraîné sans ces données.

Le sujet paraît abstrait, mais il touche une contrainte très concrète. Les systèmes d’IA sont entraînés sur des ensembles massifs, parfois sensibles, et peuvent devoir supprimer l’effet d’une donnée pour des raisons de vie privée, de conformité ou de qualité. En théorie, le plus propre consiste à réentraîner le modèle depuis le début en retirant l’exemple concerné. En pratique, cette opération peut coûter trop cher. Le désapprentissage automatique promet donc une voie plus légère : modifier le modèle existant pour réduire l’empreinte d’un enregistrement, d’une classe ou d’un lot de données.

Le problème, selon Google, est de vérifier cette promesse sans accès complet aux entrailles du modèle ni à tous les jeux d’entraînement. Les audits utilisent souvent des tests à deux échantillons, qui comparent les sorties d’un modèle de référence et celles du modèle à vérifier. Mais ces tests peuvent perdre en puissance sur des modèles complexes, exiger beaucoup d’échantillons, ou produire de faux signaux lorsque deux modèles entraînés correctement divergent pour des raisons ordinaires, comme une variation de lot ou de graine d’entraînement. Google propose donc un test relatif à trois échantillons : il mesure si le modèle désappris est plus proche d’un modèle sûr, réentraîné sans les données à oublier, ou du modèle original qui les contenait encore.

L’intérêt pratique est de déplacer la discussion du slogan « ce modèle a oublié » vers une preuve plus mesurable. Les f-divergences sont des façons de quantifier l’écart entre distributions de probabilité ; le cadre de Google choisit automatiquement les variantes et paramètres les plus utiles pour détecter des différences globales ou très localisées. Cela ne rend pas le désapprentissage parfait. Le billet rappelle même que certains travaux récents suggèrent qu’un oubli strictement équivalent à un réentraînement complet est hors de portée pour des méthodes locales classiques. Mais pour les équipes qui doivent documenter des retraits de données, l’enjeu change : il ne suffit plus d’annoncer une fonction d’effacement, il faut produire un audit statistique capable de résister à l’échelle et à l’incertitude des modèles modernes.