L'avanguardia dei LLM locali nel 2026: l'intelligenza artificiale si dividerà in specialisti?

L'avanguardia dei LLM locali nel 2026

Tra il 2025 e oggi nel 2026, il mondo dei LLM (Large Language Models) locali ha raggiunto un punto di svolta drammatico. Un'"IA pensante", che un tempo richiedeva enormi server GPU, ora funziona a una velocità e precisione incredibili all'interno della memoria di un tipico PC desktop o di un notebook ad alte prestazioni (come un Apple M5).

A proposito, i test sulle macchine di Black Rabbit vengono condotti su tre configurazioni: un MacBook Pro M5 da 32 GB, un Intel Core i7 + RTX 4070 e un AMD + Ryzen 7. Non disponiamo di configurazioni costose come il DGX Spark o il Mac Studio Ultra, che costano circa 1 milione di yen.

In questo articolo spieghiamo in modo esaustivo ciascun modello concentrandoci sulla riduzione della memoria (il principale trend tecnico nei LLM locali di oggi), inclusi MoE (Mixture of Experts), i progressi nelle funzionalità in lingua giapponese e i modelli di "ragionamento" (Reasoning).

Riduzione dell'utilizzo della VRAM residente tramite Mixture of Experts (MoE)

Il consumo di memoria VRAM nei LLM è enorme. Questa è anche la causa alla base dell'attuale carenza globale di memoria. Pertanto, per alcuni modelli, è stato concepito un approccio architetturale chiamato MoE (Mixture of Experts) al fine di ridurre il consumo di memoria.

MoE è una tecnologia che ottiene una velocità di risposta non proporzionale al numero di parametri attivando solo una parte dell'intero modello (esperti) durante l'inferenza. In breve, stabilisce una sorta di reception all'interno del modello per rispondere a domande semplici, mentre indirizza i prompt specialistici ai dati addestrati in specifici domini di esperti. Ciò consente al modello di ridurre notevolmente l'ingombro della memoria VRAM residente pur avendo una massiccia capacità di apprendimento totale. (Spiegheremo gli svantaggi più avanti). Inoltre, un minor ingombro dei dati distribuiti nella VRAM si traduce in velocità di risposta più elevate. È davvero una tecnologia eccezionale. Il suffisso "A3B" spesso aggiunto ai nomi dei modelli significa che la dimensione attiva (Active) è solo 3B, il che significa che la parte di ricezione è solo 3B, quindi l'installazione nella VRAM equivale a quella di un modello LLM da 3B.

Ad esempio, "Qwen3.5-35B-Coder" di Alibaba ha un numero totale di parametri di 35 miliardi (35B), ma i parametri attivi effettivamente utilizzati per il calcolo sono ridotti a solo circa 3 miliardi (3B). Ciò consente di ottenere la combinazione ideale "alta intelligenza, alta velocità", mantenendo la vasta conoscenza di un modello di classe 35B pur offrendo la velocità di inferenza di un modello di classe 3B. A pensarci bene, non hai bisogno di dati di apprendimento per Rust o JavaScript quando scrivi codice Python, quindi ha perfettamente senso.

L'arrivo di tali modelli ha reso l'assistenza alla programmazione e il ragionamento logico complesso pratici su ambienti consumer generici con VRAM da 12 GB a 24 GB.

Riduzione delle dimensioni del modello tramite tecnologia di quantizzazione

La tecnologia di quantizzazione sembra un concetto complesso, ma è simile a come le persone che gestiscono quotidianamente miliardi di yen potrebbero arrotondare le cifre inferiori a diecimila yen per cogliere il quadro generale: qualcosa che tutti fanno nella vita quotidiana in una certa misura. In breve, è un metodo per ridurre il volume dei dati riducendo la precisione dei dati del modello. Poiché influisce sulla precisione, potrebbe influire su ragionamenti fini e precisi, ma i dati digitali sono comunque quantizzati per definizione. Dato che non sono accurati al 100% fin dall'inizio, accettare questo compromesso è ragionevole. Anche quando i dati vengono dimezzati, la direzione dell'inferenza non viene fortemente influenzata, rendendo i LLM altamente compatibili con la quantizzazione. (Tuttavia, se il testo è complesso e contiene solo un errore di un singolo carattere in un documento enorme, la mancanza di precisione potrebbe impedire al modello di trovarlo).

Compressione del contesto

Il contesto si riferisce alla cronologia del dialogo. Nel processo di iterazione delle conversazioni con l'IA per migliorarne l'accuratezza, far leggere all'IA questa cronologia ogni volta era uno spreco di tempo e memoria. KV Cache (record temporaneo) e Context Cache (record a lungo termine) sono stati utilizzati per salvare il contesto, ma con l'allungarsi dei dialoghi la cache diventava più grande del modello stesso, consumando memoria e richiedendo tempi significativi. Sebbene in passato esistesse un metodo approssimativo chiamato GQA che raggruppava e comprimeva con perdita il contesto, attualmente il contesto viene compresso e ridotto, per essere decompresso solo quando utilizzato. È come confezionare sottovuoto trapunte o cuscini per rimpicciolirli, e gonfiare solo ciò che serve. Questo processo è chiamato MLA (Multi-head Latent Attention).

Questo meccanismo ha ridotto drasticamente il consumo del contesto. Anche contesti lunghi da 128K (circa oltre 100.000 parole) possono essere gestiti con memoria ridotta. Caricare un intero documento tecnico esteso per porre domande è diventato pratico su un PC personale senza stress.

Drammatica evoluzione delle capacità in lingua giapponese

Anche nell'ambiente della lingua giapponese l'evoluzione dei modelli locali è sbalorditiva. Oltre al supporto multilingue che sta diventando uno standard, le aziende nazionali (come ELYZA, ABEJA e il progetto Swallow del Tokyo Institute of Technology) hanno eseguito un pre-addestramento continuo in giapponese avanzato e il RLHF (Reinforcement Learning from Human Feedback) sugli ultimi modelli di base. Di rilievo è la localizzazione dei modelli di "ragionamento" (Reasoning), che traggono le loro radici dalla serie o1 di OpenAI. Il metodo di produrre un "processo di pensiero (Chain of Thought)" prima di generare una risposta è diventato comune. Anche con modelli di ragionamento specializzati in giapponese, è possibile cogliere contesti e sfumature giapponesi complessi per ricavare risposte attraverso passaggi logici.

LLM locali rappresentativi

I modelli nella tabella seguente sono modelli LLM effettivi che ho eseguito sul mio MacBook Pro utilizzando llama.cpp. Tutti sono nel formato GGUF (attualmente il formato di modello principale). Innanzitutto, una spiegazione di ciascun modello rappresentativo (escluse le grandi dimensioni).

Modello	Panoramica
Gemma Ultimo "4"	Un LLM open source fornito da Google; fratello di Gemini. Rilasciato il 31 marzo 2026. Disponibile nelle dimensioni E2B, E4B, 31B e 26B A4B. Gemma3 è stato rilasciato a marzo 2025 nelle dimensioni 1B, 4B, 12B e 27B. (I modelli E2B ed E4B supportano una compatibilità multimodale estesa: gestiscono nativamente testo, immagini con proporzioni e risoluzioni variabili, video e audio).
GPT-OSS	Un LLM fornito da OpenAI; fratello di ChatGPT. Ha molti derivati. gpt-oss-120b (117B) e gpt-oss-20b (21B) sono LLM a pesi aperti annunciati nell'agosto 2025. Il modello 20b funziona su un PC con circa 16 GB di memoria.
Qwen Ultimo "3.6"	Un LLM fornito da Alibaba Cloud in Cina. Il 3.5 è stato rilasciato a febbraio 2026 nelle dimensioni 2B, 4B, 9B, 27B, 35B-A3B (MoE) e 122B-A10B (MoE). L'ultimo 3.6 è stato rilasciato ad aprile. Include varianti Coder.
Phi Ultimo "4"	Un LLM fornito da Microsoft. Phi-4 è stato rilasciato tra dicembre 2024 e febbraio 2025 nelle dimensioni 3.8B e 14B, ciascuna dotata di una variante di ragionamento. Poiché il suo addestramento è principalmente basato sull'inglese e contiene pochissimo giapponese, non è adatto per conversazioni in giapponese. Eccelle nel ragionamento matematico.
Nemotron Ultimo "3"	Un LLM fornito da NVIDIA. Nano-9B-v2-Japanese è stato rilasciato il 17 febbraio 2026 e mostra capacità in giapponese notevolmente migliorate. Il 3 Super è stato rilasciato l'11 marzo 2026.
Shisa Ultimo "2.1"	Fornito da ShisaAI (un'azienda giapponese fondata da tre cittadini cinesi). I suoi benchmark in giapponese sono molto apprezzati. Rilasciato come Phi4-base (14B) il 22 aprile 2025 e Qwen3-base (8B) il 9 dicembre 2025, focalizzato su miglioramenti piuttosto che su nuove architetture.
LFM Ultimo "2.5.1"	Un LLM fornito da LiquidAI. Pensavo fossero specializzati solo in modelli molto piccoli per smartphone e PC, ma sembrano gestire anche modelli ultra-grandi. Quello che ho testato era 1.2B-JP.

Attualmente, molte aziende stanno sviluppando vari modelli, e questi sono quelli che hanno attirato l'attenzione di recente. *I LLM di Meta sono esclusi poiché troppo grandi per essere eseguiti sul mio Mac.

4. Conclusione: I LLM locali entrano nella fase di "strumento pratico"

Oggi nel 2026, i LLM locali non sono più solo giocattoli per appassionati. Si stanno affermando come strumenti pratici in tutti gli scenari, incluso il supporto alla codifica che gestisce dati riservati aziendali, sistemi RAG altamente personalizzati e agenti autonomi in ambienti offline.

Ho l'impressione che l'era di fare affidamento sui LLM locali per l'elaborazione che non può essere lasciata alle IA del cloud pubblico sia dietro l'angolo. In particolare, la diffusione di architetture efficienti come MoE ha guidato la democratizzazione dell'IA senza attendere che l'hardware si allineasse. Giapponese, ragionamento ed efficienza della memoria: ora che questi tre pilastri sono stabiliti, l'era di portare con sé e utilizzare la propria "intelligenza privata" è proprio di fronte a noi.

Infine, per quanto riguarda gli svantaggi o le debolezze di MoE menzionati in precedenza: nei modelli MoE come A3B, se il giudizio iniziale del 3B è errato, l'esperto corretto non verrà chiamato, e in discussioni o ragionamenti che coprono più domini di esperti, il tasso di risposta tende a calare significativamente. Pertanto, ci sono molti casi in cui i modelli densi (modelli non-MoE che caricano tutto) rimangono la scelta più sicura.

Fonti:

Report sui benchmark di Shisa.AI (v2.1)

Qwen3.5 Model Card & Benchmarks

Towards AI: Trend dei LLM locali e architetture MoE