Local-first : l’IA quitte le cloud et tourne sur votre PC grâce aux NPU

Pendant des années, “faire de l’IA” voulait dire “envoyer des données à un serveur” (Microsoft, Google, OpenAI et consorts). C’était logique : les modèles étaient volumineux, les GPU coûteux, et la latence acceptable.

Mais c’est en train de changer. Le matériel a rattrapé le logiciel, et pas seulement via les GPU : les NPU (Neural Processing Units) se généralisent dans les PC et smartphones, conçus pour exécuter des réseaux de neurones avec une bonne efficacité énergétique. Par exemple, Microsoft pousse une nouvelle catégorie de machines, les Copilot+ PCs, avec des prérequis matériels explicites côté NPU. Le résultat : une IA local-first, qui s’exécute chez vous, sur votre machine, et ne “sort” vers le cloud que si c’est nécessaire.

IA local-first : ce qui change vraiment

Le “local-first”, ce n’est pas juste “offline”. C’est une philosophie produit : vos données vivent d’abord sur l’appareil, et la synchronisation/le cloud deviennent un bonus, pas un prérequis. Avec l’IA, l’enjeu est encore plus concret : le prompt, les documents, l’écran, la voix… tout ce que vous donnez à un assistant est potentiellement sensible.

Pourquoi ça devient possible maintenant

1) Les NPU deviennent un standard

Les fabricants de PC/puces standardisent enfin, avec les NPUs, un “accélérateur IA” dédié, au même titre qu’un CPU ou un GPU. Microsoft liste des exigences claires pour utiliser CoPilote sur son PC:

NPU 40+ TOPS (40 TOPS = la NPU peut exécuter ~40 000 milliards d’opérations/s)
16 Go de RAM
256 Go de stockage
et des familles de puces compatibles (Snapdragon X, AMD Ryzen AI, Intel Core Ultra 200V).

Apple, de son côté, met en avant des Neural Engine de plus en plus solides (ex. M4 annoncé à 38 TOPS).

2) Les modèles “petits” deviennent bons

Les Small Language Models (SLM) ne sont plus des jouets. Par exemple, Phi-3-mini (3,8B) de Microsoft, est pensé pour tourner localement, avec des scores de benchmark annoncés comme proches de modèles bien plus gros. Il est utilisable sur téléphone.

Mistral a aussi sorti des modèles “edge/on-device” (Ministral 3B et 8B) explicitement positionnés pour ce type d’exécution.

3) Les éditeurs poussent le “on-device by default”

Microsoft met en avant des fonctionnalités qui tournent localement sur Copilot+ PC (ex. Live Captions, Photos super resolution, etc.). Apple, avec Apple Intelligence, propose également une approche sur l’appareil par défaut, et bascule vers une infrastructure cloud uniquement pour les demandes lourdes. Enfin, Google a annoncé une approche de “Private AI Compute”.

Se dirige t-on vers la fin du modèle d’abonnement SaaS pour l’IA ?

Probablement pas. Mais le “tout abonnement, tout cloud” va perdre du terrain.

Ce qui risque de basculer vers le local

Assistance rédactionnelle simple, reformulation, synthèse de notes personnelles
Recherche locale dans vos fichiers & emails
Automatisations perso (résumés de réunions, extraction d’actions) quand la donnée reste sur l’appareil

Ce qui restera SaaS ou hybride pour un bon moment

Les tâches qui demandent beaucoup de contexte, des outils externes, ou un niveau de fiabilité “premium”
Tout ce qui dépend de données toujours à jour (actualité, web, pricing, …)

Le scénario le plus probable, c’est un modèle hybride : local pour 60-80% des actions “du quotidien” et cloud pour les “grosses demandes” (raisonnement complexe, contextes énormes, orchestration d’agents)

Dans cet article, Apple formalise exactement cette logique : sur l’appareil quand possible, sinon bascule vers Private Cloud Compute pour les requêtes plus lourdes.

“Privacy by design” : le local-first comme avantage compétitif

Envoyer des données vers un serveur, c’est souvent :

multiplier les surfaces d’attaque
complexifier la conformité
créer de la défiance utilisateur (surtout en B2B, santé, finance, legal)

À l’inverse, le local-first s’aligne naturellement avec le principe de protection des données.

Concrètement, “privacy by design” devient plus simple

Les prompts et documents ne quittent pas l’appareil
Moins de contrats/sous-traitants à gérer
Possibilité d’offrir un mode offline réel (utile en déplacement, sites industriels, etc.)

Attention : “local” ne veut pas dire “magiquement sécurisé”. Il faut toujours chiffrer, gérer les accès, et penser à ce qui est stocké (ex. index, embeddings, historiques). Mais, réduire la donnée sortante, c’est réduire le risque.

SLM locaux vs géants du cloud : le vrai comparatif de performances

Quand on dit “performances”, il faut parler de 4 choses : qualité, latence, coût, et contraintes produit.

1) Qualité de réponse

Cloud (gros modèles) : meilleur niveau moyen, meilleur raisonnement long, meilleure robustesse multi-domaines.
SLM local : très bon sur des tâches ciblées (rédaction, extraction, classification, Q/R sur un périmètre), mais peut décrocher sur les cas ambigus.

2) Latence et expérience utilisateur

Cloud : latence variable (réseau + charge), mais peut rester rapide sur des infra optimisées.
Local : démarrage immédiat, pas d’aller-retour réseau, expérience plus fluide pour des micro-actions (réécrire, résumer, corriger).

Sur mobile, Google publie des vitesses très élevées en tokens/s pour Gemini Nano selon versions/appareils, ce qui donne une idée du potentiel du “on-device”.

3) Coût

Cloud : coût à l’usage (API) ou abonnement. À grande échelle, ça peut exploser… ou devenir imprévisible.
Local : coût principalement matériel + énergie. Et surtout, le coût marginal par requête tend vers zéro.

4) Contraintes

Cloud = contraintes de confidentialité, de conformité, et dépendance fournisseur.
Local = contraintes mémoire/énergie/thermiques, donc souvent besoin de quantization (compresser un modèle pour qu’il soit moins volumineux et plus rapide)

Ce que ça implique pour les produits et les entreprises

Les nouveaux “must-have” d’un modèle/ produit d’IA

Un mode offline (même partiel) devient un argument de vente.
La transparence : “ce qui reste sur l’appareil” vs “ce qui part au cloud”.
Une UX pensée pour l’hybride : bascule automatique, contrôle utilisateur, coûts maîtrisés.

Une stack différente pour l’IA locale vs l’IA cloud

Quand l’IA tourne en local, on exécute un modèle sur le matériel de l’utilisateur. Ça impose des runtimes capables d’exploiter le matériel disponible (CPU, GPU, surtout NPU) et de gérer les contraintes de mémoire ou encore de chauffe du matériel. C’est le rôle de briques comme Core ML côté Apple ou l’écosystème Windows/NPU côté Microsoft : standardiser l’inférence sur l’appareil, avec de vraies optimisations pour que ça reste fluide au quotidien.

Et côté usage, des outils comme Ollama rendent le local beaucoup plus accessible : Avant, faire tourner un modèle en local était complexe. C’est devenu plus simple aujourd’hui.

Conclusion

Le vrai changement, ce n’est pas “on n’utilisera plus le cloud”. C’est que, de plus en plus, le cloud devient l’exception, pas la règle.

Les NPU banalisent l’inférence locale.
Les SLM deviennent suffisamment bons pour une grande partie des usages.
La confidentialité devient un critère produit majeur, et le local-first s’aligne naturellement avec la logique “privacy by design”.