NVIDIA ouvre XR AI aux agents portés

La bêta publique de XR AI propose une base open source pour relier lunettes AR, modèles multimodaux et outils d’entreprise.

NVIDIA a publié le 16 juin une bêta publique de XR AI, une bibliothèque open source destinée à construire des agents pour lunettes AR, lunettes d’IA et casques XR. Le point central n’est pas un nouveau modèle isolé, mais une architecture qui relie caméra, micro, modèles multimodaux, outils d’entreprise et rendu spatial dans une même session. Dans la note technique, NVIDIA explique que ces agents peuvent voir ce que voit l’utilisateur, comprendre une intention parlée ou écrite, appeler des outils métier et répondre dans l’environnement XR.

Cette précision compte parce que les lunettes connectées posent un problème différent de celui d’un chatbot. Un agent porté sur le visage doit traiter des flux en direct, garder une latence acceptable, utiliser les bons modèles au bon moment et éviter de déplacer inutilement des images lourdes. XR AI sépare donc le transport média, les services de modèles, l’accès aux outils, l’orchestration d’agents et la livraison côté client. Dit simplement, le système sert de plomberie logicielle pour faire circuler vidéo, audio, métadonnées et réponses entre les lunettes, le poste de travail, l’edge ou le cloud.

La pile proposée assemble plusieurs briques NVIDIA déjà connues. Cosmos sert à l’ancrage visuel, c’est-à-dire à interpréter ce qui apparaît dans le champ de vision. Nemotron fournit la compréhension du langage et l’appel d’outils. Le Model Context Protocol, ou MCP, connecte l’agent à des sources d’entreprise comme une base documentaire, un jumeau numérique, un système de maintenance ou un outil interne. La bibliothèque inclut aussi des exemples de serveurs MCP pour la question visuelle, l’analyse vidéo, le rendu de scène, OpenXR et la recherche vectorielle.

L’enjeu concret est moins spectaculaire qu’un lancement de lunettes grand public, mais plus utile pour les développeurs. NVIDIA décrit des usages en maintenance industrielle, laboratoire, santé, formation ou assistance à distance, où un opérateur doit garder les mains libres tout en accédant à des consignes, des preuves visuelles ou des données de contexte. La bêta ne garantit pas un déploiement prêt à l’emploi : elle donne un socle testable. Pour l’IA appliquée, c’est un signal net : les agents quittent peu à peu l’écran pour devenir des systèmes multimodaux branchés sur le travail physique.