Gemini Nano, Siri AI : votre assistant se passe désormais du cloud

Sur les Galaxy S26 et la nouvelle Siri, une part de l'assistant quitte le cloud pour la puce du téléphone. Plus de vie privée et d'autonomie, à quelques conditions près.

Sur un Galaxy S26, quand un appel suspect arrive, quelque chose d'inhabituel se produit : le téléphone écoute la conversation pour vous. Pendant que l'interlocuteur réclame un code, pousse à installer une application ou tente de vous faire basculer sur une autre messagerie, un modèle d'IA repère ces manœuvres d'ingénierie sociale et vous alerte. Le détail qui compte tient dans une phrase de Google : l'audio est traité de façon éphémère, rien n'est enregistré, stocké sur l'appareil ni transmis à qui que ce soit. Le calcul a lieu dans la puce, pas sur un serveur lointain.

Ce déplacement, du nuage vers la poche, est le vrai sujet. Depuis dix ans, l'assistant vocal vivait ailleurs : vous parliez, votre voix filait vers un centre de données, la réponse revenait. En 2026, une partie de cette intelligence redescend dans le téléphone lui-même. Apple a présenté en juin, à sa conférence développeurs, une nouvelle Siri adossée à des modèles maison dont le plus léger tourne entièrement sur l'appareil. Samsung et Google, eux, font fonctionner Gemini Nano localement sur les Galaxy S26. La question n'est plus seulement ce que sait faire l'assistant, mais où il le fait.

Un modèle de trois milliards de paramètres dans la poche

La bascule tient à une pièce de silicium : le NPU, un processeur dédié aux calculs d'IA, désormais gravé dans chaque téléphone haut de gamme. C'est lui qui permet d'exécuter, sur place, des modèles autrefois réservés aux serveurs. Apple décrit une famille de modèles dont le socle embarqué, baptisé AFM 3 Core, compte trois milliards de paramètres : assez pour comprendre une demande, résumer un texte, trier des photos, sans jamais ouvrir de connexion.

L'avantage est d'abord physique. Une requête traitée localement n'a pas de trajet à faire : pas d'aller-retour vers un centre de données, pas d'attente réseau. La réponse est immédiate, et elle reste disponible quand le réseau, lui, ne l'est pas. Le modèle ne dort plus dans le cloud, il habite l'appareil que vous tenez.

Ce que l'on gagne quand le calcul reste local

Le premier gain est la confidentialité, et il n'a rien de théorique. Reprenons la détection d'arnaque : pour juger si un appel est frauduleux, il faut en analyser le contenu, donc écouter. Confier cette écoute à un serveur reviendrait à faire transiter vos conversations les plus banales par une entreprise. En traitant tout sur la puce, le téléphone peut lire sans retenir : l'audio s'évapore une fois analysé. La donnée la plus intime, votre voix, ne quitte pas votre main.

Le deuxième gain est l'indépendance au réseau. Une traduction, une transcription, une dictée qui fonctionnent hors ligne, c'est un assistant qui vous suit dans un avion, un tunnel, un pays étranger sans forfait de données. Là où l'assistant connecté devient muet dès que la barre de signal tombe, l'assistant embarqué continue. On récupère une capacité qui ne dépend plus d'un abonnement ni d'une couverture réseau.

Le troisième gain est plus discret : la latence. Un assistant qui répond dans l'instant change la façon dont on s'en sert. On lui parle comme on tourne la tête, sans le délai qui rappelait, à chaque fois, qu'une machine à l'autre bout du monde réfléchissait à notre place.

La moitié qui reste dans le cloud

Reste que « sur l'appareil » ne signifie pas « tout, sur l'appareil ». Un modèle de trois milliards de paramètres, aussi habile soit-il, pèse bien moins que les géants qui répondent en ligne. Il excelle sur les tâches courtes et cadrées, il cale sur les raisonnements longs ou la connaissance encyclopédique. Apple l'assume : un orchestrateur local traite ce qu'il peut, puis fait remonter les demandes lourdes vers ses serveurs, un dispositif baptisé Private Cloud Compute, conçu pour être sans mémoire et vérifiable, mais qui reste, par définition, hors de votre poche.

La frontière est mouvante, et surtout invisible. Vous ne décidez pas, requête par requête, ce qui reste local et ce qui part au loin : l'appareil arbitre pour vous. La promesse de confidentialité devient alors conditionnelle, suspendue à une confiance dans la manière dont ce partage s'opère. « Sur l'appareil » est un argument de vente à moitié vrai, et cette moitié n'est pas toujours celle que l'on croit.

Réservé aux téléphones les plus neufs

Il y a un dernier péage, matériel. Faire tourner ces modèles exige une puce récente et de la mémoire : chez Samsung, l'intelligence embarquée réclame au moins douze gigaoctets de mémoire vive et un processeur de dernière génération, ce qui, à ce jour, écarte tout ce qui n'est pas un Galaxy S26. La détection d'arnaque, elle, ne fonctionne pour l'instant qu'en anglais et aux États-Unis, et elle n'est pas activée par défaut.

L'ironie est cruelle. Cette protection contre les escrocs, c'est précisément sur le vieux téléphone d'un parent qu'elle serait la plus utile, et c'est justement là qu'elle n'arrivera pas avant longtemps. Le dividende de l'IA locale, plus de vie privée, plus d'autonomie, va d'abord à ceux qui renouvellent leur appareil au prix fort. La confidentialité prend, au passage, des airs de service premium.

Un retour de balancier

Pendant une décennie, tout est monté vers le nuage : nos fichiers, nos photos, nos assistants. Voir une part de cette intelligence redescendre dans l'objet que l'on tient est un renversement discret, et plutôt sain. Un assistant qui raisonne sur place, sans mouchard ni signal, rend au propriétaire du téléphone un peu de la maîtrise que le cloud lui avait prise.

À condition de lire les petites lignes. L'autonomie regagnée est réelle, mais bornée : par un matériel qu'il faut renouveler, par une frontière invisible entre la puce et le serveur, par un modèle qui restera toujours plus modeste que celui d'en face. La bonne question à poser à son prochain téléphone n'est pas « sait-il faire ceci », mais « le fait-il sans que rien n'en sorte ». La réponse, de plus en plus souvent, sera : en partie.