DeepMind encadre ses agents IA

Google DeepMind publie une feuille de route pour surveiller, limiter et mesurer les risques de ses agents internes.

Google DeepMind a publié le 18 juin 2026 un cadre de sécurité pour ses agents IA internes, l’AI Control Roadmap. Le fait central est précis : le laboratoire explique qu’il traite les agents avancés comme des systèmes potentiellement imparfaits, même lorsqu’ils sont alignés par entraînement, et qu’il ajoute une couche de contrôle opérationnel autour de leurs actions. Ce n’est pas une annonce de nouveau modèle. C’est une doctrine de déploiement pour des agents capables d’exécuter des tâches longues dans du code, de la cybersécurité, de la recherche ou des produits.

La nuance compte parce que la sécurité de l’IA est souvent racontée comme un problème de modèle : rendre le système plus utile, moins dangereux, mieux aligné. DeepMind ajoute un niveau plus proche de la sécurité informatique classique. Son cadre part d’une hypothèse prudente : si un agent très capable se comporte comme une menace interne, comment limiter ses dégâts ? L’entreprise dit s’appuyer sur MITRE ATT&CK, une base de connaissances utilisée en cybersécurité pour classer les tactiques d’attaque, puis adapter cette logique aux agents. L’objectif n’est pas de deviner toutes les erreurs possibles, mais de découper les risques en comportements observables.

Le dispositif décrit trois familles de réponses. D’abord, la détection : d’autres systèmes IA jugés plus fiables peuvent surveiller les raisonnements, les plans et les actions d’un agent au travail. Ensuite, la prévention et la réaction : si un superviseur repère une action risquée, il peut la bloquer avant exécution ou l’envoyer vers une revue humaine. Enfin, la mesure : DeepMind veut suivre la couverture de la surveillance, le rappel des comportements problématiques détectés et le délai de réponse. Ces indicateurs sont importants, car ils transforment une promesse de prudence en cible vérifiable, même si la source ne publie pas tous les seuils internes.

Le chiffre le plus concret est le million de trajectoires d’agents de codage déjà analysées par un prototype interne de supervision asynchrone. DeepMind indique que ces données servent à affiner ses protocoles et à construire un moniteur en direct pour Gemini Spark, notamment contre des incidents comme la suppression involontaire de données. La plupart des alertes ne viendraient pas d’une intention hostile, mais d’une mauvaise interprétation ou d’un excès de zèle de l’agent. C’est justement le point utile : à mesure que les agents gagnent des droits dans les outils d’entreprise, leur sécurité dépendra autant des permissions, des journaux et des freins temps réel que de la qualité du modèle lui-même.