FunctionGemma : piloter son téléphone sans appeler le cloud

Google a glissé un modèle de 270 millions de paramètres dans le téléphone : il crée un rendez-vous, ajoute un contact, allume la lampe sans qu'une donnée parte vers le cloud. À quel prix ?

« Crée un rendez-vous déjeuner pour demain midi. » La phrase est dite à voix basse, dans une rame de métro, sans une barre de réseau. Une seconde plus tard, l'événement est inscrit dans l'agenda et l'invitation prête à partir. Rien, dans cet échange, n'a quitté le téléphone : ni la voix, ni l'horaire, ni le nom du convive. Le modèle qui a compris l'ordre et appuyé sur le bon bouton tient dans une poignée de mégaoctets, posée à demeure dans l'appareil.

En décembre 2025, Google a publié FunctionGemma, un modèle de 270 millions de paramètres taillé pour une seule tâche : transformer une consigne en langage courant en appel de fonction, autrement dit en commande exécutable par le système. Ajouter un contact, allumer la lampe, programmer un rappel. Minuscule à l'échelle des modèles de pointe, il n'a pas vocation à disserter : il agit, et il le fait là où vous êtes, sans solliciter un serveur lointain.

Une intelligence taillée pour l'os

FunctionGemma dérive de Gemma 3 270M, la plus petite déclinaison ouverte de Google. Sa spécialité n'est pas la conversation mais la traduction d'une intention en JSON, ce format structuré que les applications savent lire. Son vocabulaire de 256 000 entrées découpe efficacement ces appels techniques, là où un modèle généraliste dépenserait inutilement de la mémoire et du courant.

Le chiffre qui compte tient dans une évaluation maison baptisée « Mobile Actions ». Sans réglage, le modèle identifiait la bonne action une fois sur deux environ, 58 %. Après un ajustement sur les gestes réels d'un téléphone, sa fiabilité grimpe à 85 %. L'écart dit tout du procédé : on ne cherche pas un cerveau universel, on dresse un exécutant étroit mais sûr, pour un catalogue de gestes connus.

FunctionGemma n'avance pas seul. Sur Android, Gemini Nano vit déjà dans un service système, AICore, et résume un article, corrige un message ou transcrit une voix sans connexion. Sur iPhone, Apple Intelligence fait tourner un modèle d'environ trois milliards de paramètres sur la puce neuronale, adossé à un index local des données de l'appareil. Trois approches, une même idée : faire descendre l'intelligence dans la main, au lieu de l'héberger au loin.

Pourquoi « sur l'appareil » n'est pas un détail

La différence n'est pas de confort, elle est d'architecture. Quand le modèle s'exécute localement et que la fonction n'a aucune permission d'accès au réseau, la donnée ne peut physiquement pas sortir. La confidentialité cesse alors d'être une promesse écrite dans des conditions d'utilisation : elle devient une contrainte matérielle. Google encadre d'ailleurs Gemini Nano par son Private Compute Core, et Apple indexe les données du téléphone avec des techniques de confidentialité différentielle.

Le bénéfice se mesure aussi en secondes et en allers-retours évités. Pas de voyage vers un centre de données : la réponse part de la puce, à quelques centimètres de l'écran. Dans le métro, l'avion ou la cave d'un parking, l'assistant continue de fonctionner quand le réseau, lui, a renoncé. Pour qui dicte trois rappels par jour et corrige dix messages, ce sont des frictions supprimées une à une, et un appareil qui obéit sans d'abord demander la permission au loin.

Le cerveau minuscule a ses angles morts

La petitesse qui fait la vertu fait aussi la limite. Un modèle de 270 millions de paramètres ne raisonne pas, il reconnaît. Sa fiabilité de 85 % se lit dans les deux sens : près d'une commande sur sept est mal interprétée. Tolérable pour allumer une lampe, beaucoup moins pour confirmer un virement ou envoyer un message à la mauvaise personne. L'exécutant rapide reste un exécutant à surveiller.

Cette intelligence locale a par ailleurs un ticket d'entrée. Apple Intelligence réclame un iPhone 15 Pro ou plus récent, capable de loger en mémoire des modèles de plusieurs gigaoctets ; Gemini Nano dépend d'un Android récent et de la présence d'AICore. Les téléphones plus anciens, eux, restent tributaires du cloud. La promesse d'une donnée qui ne bouge pas devient, de fait, un privilège réservé au matériel le plus récent, donc le plus cher.

  • Le modèle ne gère qu'un répertoire d'actions prévues ; toute demande qui en sort doit être renvoyée ailleurs.
  • Faire tourner un réseau de neurones en continu consomme de la batterie et de l'espace de stockage.
  • La mise à jour du modèle dépend du fabricant, pas de l'utilisateur.

Le cloud qui revient par la fenêtre

Le point le plus subtil tient à la frontière elle-même. Les assistants grand public ne sont pas purement locaux : ils sont hybrides. Sur Android, la couche agentique combine un Gemini Nano embarqué pour les tâches simples et un Gemini distant, dans le cloud, pour les demandes complexes en plusieurs étapes. Le petit modèle joue alors un rôle d'aiguilleur : il décide ce qu'il traite sur place et ce qu'il transmet au serveur.

Or transmettre au serveur, c'est précisément faire sortir la donnée. Le geste qu'on croyait local redevient distant dès que la requête dépasse les compétences de la puce, et l'utilisateur voit rarement où passe la ligne. Le « local d'abord » se mue sans bruit en « local quand c'est commode », selon un seuil que fixe le fabricant et non celui qui tient le téléphone.

La vraie question n'est donc pas la puissance du modèle, mais l'emplacement de cette frontière, et la main qui tient le crayon pour la tracer. Un téléphone qui maintient la ligne là où l'utilisateur la veut le sert vraiment ; un téléphone qui la fait glisser en douce sert d'abord la plateforme. L'intelligence est bien descendue dans la main. Reste à savoir qui décide de ce qu'elle garde pour elle, et de ce qu'elle continue de chuchoter au loin.