0,75 % de batterie pour 25 réponses : l'IA passe hors ligne

Sur un Pixel, vingt-cinq réponses pour 0,75 % de batterie, et rien ne quitte l'appareil. Gemma, Llama, Qwen : l'IA tient désormais dans le téléphone, hors ligne. Ce qu'on y gagne, ce qu'on y perd.

Un Pixel 9 Pro, posé sur la tablette d'un siège d'avion, en mode hors ligne. Vingt-cinq questions s'enchaînent : un résumé de note, une traduction, la reformulation d'un courriel. L'assistant répond à chacune, sans la moindre barre de réseau. Le compteur de batterie, lui, n'a bougé que de 0,75 %. Et aucune de ces vingt-cinq requêtes n'est partie vers un serveur : elles ont été traitées par une poignée de mégaoctets nichés dans le téléphone.

La scène n'a rien d'un prototype. Le modèle s'appelle Gemma 3 270M, Google l'a taillé pour tenir dans la mémoire d'un appareil ordinaire, et il marque un basculement discret. Pendant trois ans, parler à une IA voulait dire ouvrir un tuyau vers un centre de données lointain. Désormais, une part croissante de ces échanges ne quitte plus la main qui tient l'écran. Reste à savoir ce que l'on gagne, et ce que l'on cède, en rapatriant l'intelligence à domicile.

Le modèle a maigri jusqu'à tenir dans la poche

Gemma 3 270M porte son gabarit dans son nom : 270 millions de paramètres, là où les modèles de salon en alignent des centaines de milliards. Compressé en INT4, il se contente de 125 mégaoctets de mémoire, l'équivalent de quelques photos. Il tourne sur un téléphone, sur une carte Raspberry Pi, et garde en tête près de 33 000 mots de contexte. Sur le Pixel 9 Pro de Google, vingt-cinq conversations lui ont coûté moins de 1 % de batterie.

Il n'est pas seul. Meta diffuse Llama 3.2 en versions à 1 et 3 milliards de paramètres, Alibaba pousse sa famille Qwen de 0,5 à 3 milliards, Google a décliné une variante baptisée Gemma 3n, pensée d'emblée pour le mobile. Le point commun : ces modèles sont assez petits pour s'exécuter là où vous êtes, sans détour par le nuage.

Ce qui a rendu la chose possible n'est pas qu'une affaire de taille. Les moteurs d'inférence ont gagné en efficacité, llama.cpp s'est doté de noyaux optimisés pour les puces ARM des smartphones, et Apple a fait de l'exécution locale une brique de son système. Au fond, l'IA suit le chemin qu'avaient pris la photo numérique ou le GPS : d'abord un service distant, puis une fonction que l'appareil assure seul.

Ce que l'on gagne à couper le cordon

Le premier bénéfice est l'autonomie au sens propre. Un modèle embarqué fonctionne dans un avion, un tunnel, un village sans couverture, un sous-sol. Il ne réclame ni compte, ni abonnement mensuel, ni connexion : il est là, disponible, comme une calculatrice. Pour qui a déjà vu un assistant en ligne refuser de répondre faute de réseau, la différence est tangible.

Vient ensuite la vie privée, et elle pèse lourd. Quand le traitement reste sur l'appareil, le texte dicté, la note médicale, le brouillon de lettre ne transitent par aucun serveur, ne nourrissent aucun journal, n'alimentent aucun entraînement. À l'heure où le règlement européen sur l'IA et une méfiance grandissante font de la localisation des données un sujet de première ligne, garder ses mots chez soi cesse d'être un détail de geek.

Apple a fait de cet argument la colonne de son offre. À sa conférence développeurs du 8 juin 2026, l'entreprise a présenté ses modèles maison, AFM Core et une version avancée à l'architecture parcimonieuse, capables de tourner sur l'appareil sans rien en laisser sortir. Le gain se mesure aussi en temps : pas d'aller-retour réseau, la réponse arrive à l'instant, là où le moindre tunnel suffisait hier à la faire attendre.

Le prix du local

La contrepartie est réelle, et il serait malhonnête de la taire. Un modèle de 270 millions de paramètres ne raisonne pas comme un mastodonte de cloud. Sa culture est étroite, sa mémoire des faits trouée, et il invente avec d'autant plus d'aplomb qu'on l'interroge hors de son domaine. Pour résumer une note ou trier des messages, il excelle ; pour une question de droit ou de médecine, il se trompe sans prévenir.

Le matériel impose sa loi. Faire tourner un modèle, même léger, chauffe la puce, grignote la mémoire vive et, sur un téléphone de quelques années, rame. Les chiffres flatteurs de batterie supposent une puce récente et un modèle minuscule ; montez en taille pour gagner en finesse, et la facture énergétique grimpe avec.

Surtout, le local s'avère rarement seul. Le cadre dévoilé par Apple permet à une application de basculer, en une ligne de code, du modèle embarqué vers un modèle Gemini hébergé dans le cloud lorsque la tâche dépasse ses forces. L'architecture est habile, mais elle dit la vérité du moment : le petit modèle traite l'ordinaire, le gros reste au loin pour le difficile. L'autonomie promise est donc un plancher, pas un plafond, et la dépendance n'a pas disparu, elle s'est déplacée vers les cas qui comptent le plus.

La frontière repasse par l'appareil

Ce qui se joue n'est pas une victoire du téléphone sur le cloud, mais un partage nouveau. Pendant la décennie écoulée, le calcul avait migré loin de nous, vers des hangars de serveurs que nul ne voit. Le voilà qui revient, en partie, se loger dans l'objet que l'on garde en poche. Le lecteur n'a pas à choisir un camp ; il gagne un socle de capacités qui lui appartient vraiment, et au-dessus duquel le cloud n'intervient que s'il le décide.

La nuance vaut d'être tenue. Une IA qui répond sans réseau, sans compte et sans laisser de trace n'est pas plus puissante que celle des grands serveurs, elle est plus à soi. Dans un monde où chaque service réclame une connexion et conserve une copie, disposer d'un assistant qui se contente de la mémoire d'un téléphone est une forme rare de tranquillité.

La vraie question n'est plus de savoir si le modèle tient dans la poche, c'est désormais acquis. Elle est de savoir jusqu'où il saura rester utile sans appeler le dehors. Le jour où le petit modèle local couvrira l'essentiel de nos demandes ordinaires, l'IA aura cessé d'être un service auquel on se connecte pour devenir un outil que l'on possède.