À l'avant-garde des LLM locaux en 2026 : l'intelligence artificielle va-t-elle se spécialiser ?

À l'avant-garde des LLM locaux en 2026

Entre 2025 et aujourd'hui en 2026, le monde des LLM (Large Language Models) locaux a atteint un tournant décisif. Une "IA capable de réfléchir", qui nécessitait autrefois d'immenses serveurs GPU, s'exécute désormais à une vitesse et avec une précision impressionnantes dans la mémoire d'un PC de bureau classique ou d'un ordinateur portable performant (comme un Apple M5).

Au passage, les tests de machines de Black Rabbit sont menés sur trois configurations : un MacBook Pro M5 32 Go, un processeur Intel Core i7 + RTX 4070, et un processeur AMD + Ryzen 7. Nous n'avons pas d'installations onéreuses comme le DGX Spark ou le Mac Studio Ultra, qui coûtent environ 1 million de yens.

Dans cet article, nous passons en revue les différents modèles en mettant l'accent sur la réduction de l'empreinte mémoire – la tendance technique majeure des LLM locaux actuels – y compris l'architecture MoE (Mixture of Experts), les progrès des capacités en japonais et les modèles de "raisonnement" (Reasoning).

Réduire l'utilisation de la VRAM résidente grâce au Mixture of Experts (MoE)

La consommation de mémoire VRAM par les LLM est colossale. C'est d'ailleurs la cause profonde de la pénurie mondiale de mémoire actuelle. Par conséquent, pour certains modèles, une approche architecturale appelée MoE (Mixture of Experts) a été développée afin de réduire la consommation de mémoire.

Le MoE est une technologie qui permet d'obtenir des temps de réponse ultra-rapides, sans rapport avec le nombre total de paramètres, en activant uniquement une partie du modèle (les experts) lors de l'inférence. En résumé, elle établit un "accueil" au sein du modèle pour répondre aux questions simples, tout en orientant les requêtes complexes vers des données entraînées dans des domaines d'expertise spécifiques. Cela permet au modèle de réduire considérablement son empreinte mémoire en VRAM résidente, malgré une capacité d'apprentissage totale massive. (Nous détaillerons les inconvénients plus tard.) De plus, une quantité réduite de données chargées en VRAM se traduit par des vitesses de réponse accrues. C'est une technologie remarquable. Le suffixe "A3B" souvent associé au nom des modèles signifie que la taille active (Active) n'est que de 3B, c'est-à-dire que la partie "accueil" ne fait que 3 milliards de paramètres, ce qui équivaut à charger en VRAM un LLM de taille 3B.

Par exemple, le modèle "Qwen3.5-35B-Coder" d'Alibaba possède un nombre total de paramètres de 35 milliards (35B), mais les paramètres actifs réellement sollicités pour les calculs sont limités à environ 3 milliards (3B). On obtient ainsi la combinaison idéale "haute intelligence et haute vitesse", en conservant les vastes connaissances d'un modèle de classe 35B tout en bénéficiant de la vitesse d'inférence d'un modèle de classe 3B. Après tout, il est inutile de charger des données d'apprentissage sur Rust ou JavaScript lorsque vous écrivez du code Python, ce qui rend cette approche logique.

L'arrivée de tels modèles a rendu l'assistance à la programmation et le raisonnement logique complexe accessibles sur des configurations grand public équipées de 12 Go à 24 Go de VRAM.

Réduire la taille des modèles grâce à la quantification

La technologie de quantification peut sembler complexe, mais elle s'apparente à ce que font quotidiennement les personnes gérant des milliards de yens qui arrondissent les sommes inférieures à dix mille yens pour avoir une vision globale. En résumé, c'est une méthode de réduction du volume de données en diminuant la précision des données du modèle. Bien que cela affecte la précision et puisse avoir un impact sur le raisonnement fin, les données numériques sont par définition quantifiées. Sachant qu'elles ne sont pas exactes à 100 % dès le départ, accepter ce compromis est raisonnable. Même si les données sont réduites de moitié, la direction de l'inférence n'est pas fortement affectée, ce qui rend les LLM très compatibles avec la quantification. (Cependant, si le texte est complexe et ne contient qu'une seule erreur de caractère dans un document massif, le manque de précision peut empêcher le modèle de la détecter.)

Compression de contexte

Le contexte fait référence à l'historique des conversations. Dans le processus d'itération des échanges avec l'IA pour améliorer la précision, lui faire relire tout l'historique à chaque fois était une perte de temps et de mémoire. Le KV Cache (enregistrement temporaire) et le Context Cache (enregistrement à long terme) ont été utilisés pour sauvegarder le contexte, mais à mesure que les dialogues s'allongeaient, le cache devenait plus grand que le modèle lui-même, saturant la mémoire et ralentissant le processus. Bien qu'il ait existé une méthode brute appelée GQA pour regrouper et compresser le contexte avec perte, le contexte est aujourd'hui compressé et réduit pour n'être décompressé qu'au moment de son utilisation. C'est comparable à l'emballage sous vide de couettes ou d'oreillers pour réduire leur volume, que l'on ne gonfle que si nécessaire. C'est ce qu'on appelle le MLA (Multi-head Latent Attention).

Ce mécanisme a considérablement réduit la consommation de contexte. Même les contextes longs de 128K (environ plus de 100 000 mots) peuvent être gérés avec peu de mémoire. Charger l'intégralité d'un document technique volumineux pour poser des questions est devenu tout à fait fluide sur un PC personnel.

Évolution spectaculaire des capacités linguistiques en japonais

Dans l'environnement linguistique japonais également, l'évolution des modèles locaux est stupéfiante. En plus du support multilingue devenu standard, des entreprises japonaises (telles qu'ELYZA, ABEJA et le projet Swallow du Tokyo Institute of Technology) ont mené un pré-entraînement continu avancé en japonais et du RLHF (Reinforcement Learning from Human Feedback) sur les derniers modèles de base. Il convient de noter la localisation des modèles de "raisonnement" (Reasoning), qui tirent leurs origines de la série o1 d'OpenAI. La méthode consistant à afficher un "processus de pensée (Chain of Thought)" avant de générer une réponse est devenue courante. Même avec des modèles de raisonnement spécialisés en japonais, il est possible de saisir des contextes et des nuances complexes pour élaborer des réponses via des étapes logiques.

LLM locaux représentatifs

Les modèles présentés dans le tableau ci-dessous sont des modèles LLM réels que j'ai exécutés sur mon MacBook Pro à l'aide de llama.cpp. Tous sont au format GGUF (actuellement le format de modèle dominant). Voici d'abord une explication de chaque modèle représentatif (hors grandes tailles).

Modèle	Présentation
Gemma Dernier "4"	Un LLM open-source fourni par Google ; de la même famille que Gemini. Sorti le 31 mars 2026. Disponible en tailles E2B, E4B, 31B et 26B A4B. Gemma3 est sorti en mars 2025 en tailles 1B, 4B, 12B et 27B. (Les modèles E2B et E4B prennent en charge une compatibilité multimodale étendue : gestion native du texte, des images avec ratios et résolutions variables, de la vidéo et de l'audio.)
GPT-OSS	Un LLM fourni par OpenAI ; de la même famille que ChatGPT. Possède de nombreux dérivés. gpt-oss-120b (117B) et gpt-oss-20b (21B) sont des LLM open-weights annoncés en août 2025. Le modèle 20b fonctionne sur un PC équipé d'environ 16 Go de mémoire.
Qwen Dernier "3.6"	Un LLM fourni par Alibaba Cloud en Chine. La version 3.5 est sortie en février 2026 en tailles 2B, 4B, 9B, 27B, 35B-A3B (MoE) et 122B-A10B (MoE). La version 3.6 est sortie en avril. Comprend des variantes Coder.
Phi Dernier "4"	Un LLM fourni par Microsoft. Phi-4 est sorti entre décembre 2024 et février 2025 en tailles 3.8B et 14B, chacune disposant d'une variante de raisonnement. Son entraînement étant principalement basé sur l'anglais et contenant très peu de japonais, il n'est pas adapté aux conversations en japonais. Il excelle en raisonnement mathématique.
Nemotron Dernier "3"	Un LLM fourni par NVIDIA. Nano-9B-v2-Japanese est sorti le 17 février 2026 et présente des capacités en japonais nettement améliorées. Le modèle 3 Super est sorti le 11 mars 2026.
Shisa Dernier "2.1"	Fourni par ShisaAI (une entreprise japonaise fondée par trois ressortissants chinois). Ses résultats sur les benchmarks japonais sont très bien notés. Sorti sous forme de Phi4-base (14B) le 22 avril 2025 et de Qwen3-base (8B) le 9 décembre 2025 – axé sur des améliorations plutôt que sur de nouvelles architectures.
LFM Dernier "2.5.1"	Un LLM fourni par LiquidAI. Je pensais qu'ils se spécialisaient uniquement dans les très petits modèles pour smartphones et PC, mais ils semblent également gérer des modèles ultra-larges. Celui que j'ai testé était le 1.2B-JP.

Actuellement, de nombreuses entreprises développent divers modèles, et ce sont ceux qui attirent l'attention ces derniers temps. *Les LLM de Meta sont exclus car ils sont trop volumineux pour tourner sur mon Mac.

4. Conclusion : Les LLM locaux entrent dans la phase d'"outils pratiques"

Aujourd'hui en 2026, les LLM locaux ne sont plus de simples jouets pour passionnés. Ils s'imposent comme des outils pratiques dans tous les scénarios, y compris pour l'assistance au code manipulant des données d'entreprise confidentielles, les systèmes RAG hautement personnalisés et les agents autonomes en environnement hors ligne.

J'ai l'impression que l'époque où nous dépendrons des LLM locaux pour les traitements qui ne peuvent être confiés aux IA publiques du cloud est à nos portes. En particulier, la diffusion d'architectures efficaces comme le MoE a favorisé la démocratisation de l'IA sans attendre que le matériel ne rattrape son retard. Japonais, raisonnement et optimisation de la mémoire : ces trois piliers étant désormais établis, l'ère où nous transporterons et utiliserons notre propre "intelligence privée" est devant nous.

Enfin, concernant les inconvénients ou faiblesses du MoE mentionnés ci-dessus : dans les modèles MoE comme le A3B, si le jugement initial du 3B est erroné, l'expert approprié ne sera pas appelé. De plus, lors de discussions ou de raisonnements couvrant plusieurs domaines d'expertise, la qualité de réponse tend à baisser notablement. Il reste donc de nombreux cas où les modèles denses (modèles non-MoE qui chargent tout) s'avèrent être le choix le plus sûr.

Sources :

Shisa.AI Benchmark Reports (v2.1)

Qwen3.5 Model Card & Benchmarks

Towards AI: Local LLM Trends and MoE Architectures