Le MIT donne une mémoire de terrain aux robots

DAAAM relie cartes 3D et descriptions d’objets pour aider les robots à retrouver ce qu’ils ont vu.

Le MIT a présenté le 17 juin DAAAM, pour Describe Anything, Anywhere, Anytime, at Any Moment, un cadre de mémoire longue durée destiné aux robots mobiles. Le fait central est précis : le système associe une carte 3D de l’environnement à des descriptions riches des objets observés, puis permet au robot de retrouver ces informations en langage naturel. Autrement dit, un robot ne se contente plus de savoir qu’un obstacle existe à tel endroit. Il peut mémoriser qu’un vélo rouge avec un pneu crevé se trouve près d’un bâtiment, ou qu’une sculpture a été vue à proximité d’un point précis du campus.

Cette mémoire dite spatio-temporelle répond à un problème très concret de la robotique de service et de la robotique industrielle. Un humain se souvient assez facilement de l’endroit où il a laissé une pièce, un outil ou un chariot la veille. Un robot, lui, combine souvent une carte géométrique utile pour se déplacer et une perception visuelle ponctuelle, mais il peine à garder une mémoire exploitable, détaillée et rapide sur de grands espaces. DAAAM cherche à relier ces deux mondes : la cartographie robotique, qui organise l’espace, et les modèles de vision capables de décrire finement ce qu’ils voient.

La partie importante n’est pas seulement l’usage d’un modèle de langage. Le MIT indique que DAAAM sélectionne des images clés, regroupe les objets proches et annote les éléments une seule fois, afin d’éviter de ralentir le robot à chaque scène. Selon l’article, cette stratégie accélère le traitement par un facteur dix par rapport à des approches qui décrivent les objets plus naïvement. Une fois la mémoire construite, un modèle de langage appelle des outils de recherche pour retrouver l’information pertinente, ce qui limite les réponses inventées. Les tests cités par les chercheurs montrent une précision supérieure de 21 à 53 % selon les types de questions.

L’enjeu pratique est sobre mais important. Pour que des robots travaillent dans un atelier, un entrepôt, un hôpital ou un campus, ils doivent comprendre des consignes humaines situées dans le temps et l’espace : « retrouve la pièce que nous avons laissée hier », « va au meuble près de la porte bleue », ou « où as-tu vu l’objet cassé ? ». DAAAM ne transforme pas encore ces robots en assistants généralistes autonomes. Il pose plutôt une brique intermédiaire : une mémoire consultable, ancrée dans le monde réel, assez rapide pour fonctionner pendant l’exploration. C’est moins spectaculaire qu’un humanoïde en démonstration, mais c’est précisément le type d’infrastructure cognitive dont la robotique aura besoin pour devenir utile hors des scénarios très balisés.