Die Spitze der lokalen LLMs im Jahr 2026: Wird sich die künstliche Intelligenz in Spezialisten aufteilen?
blog Technology AI

Die Spitze der lokalen LLMs im Jahr 2026: Wird sich die künstliche Intelligenz in Spezialisten aufteilen?

Ein Überblick über lokale LLM-Trends ab April 2026. Erfahren Sie mehr über MoE-Architekturen, japanische Reasoning-Modelle und Technologien zur Speichereffizienz auf Standard-PCs.


Die Spitze der lokalen LLMs im Jahr 2026

Zwischen 2025 und dem heutigen Jahr 2026 hat die Welt der lokalen LLMs (große Sprachmodelle) einen dramatischen Wendepunkt erreicht. Eine "denkende KI", für die früher riesige GPU-Server erforderlich waren, läuft heute mit unglaublicher Geschwindigkeit und Genauigkeit im Speicher eines normalen Desktop-PCs oder eines Hochleistungs-Notebooks (wie einem Apple M5).

Übrigens werden die Tests der Black-Rabbit-Maschine auf drei Geräten durchgeführt: einem M5 MacBook Pro mit 32 GB, einem Intel Core i7 + RTX 4070 und einem AMD + Ryzen 7. Wir haben keine teuren Setups wie den DGX Spark oder den Mac Studio Ultra, die rund 1 Million Yen kosten.

In diesem Artikel erklären wir umfassend jedes Modell mit Fokus auf Speicherreduzierung – dem wichtigsten technischen Trend bei lokalen LLMs heute – einschließlich MoE (Mixture of Experts), Durchbrüchen bei der japanischen Sprachfähigkeit und "Reasoning"-Modellen (denkende Modelle).

Reduzierung des residenten VRAM-Bedarfs durch Mixture of Experts (MoE)

Der VRAM-Speicherverbrauch bei LLMs ist enorm. Dies ist auch die Ursache für den aktuellen weltweiten Speichermangel. Daher wurde für einige Modelle ein Architekturansatz namens MoE (Mixture of Experts) entwickelt, um den Speicherbedarf zu senken.

MoE ist eine Technologie, die eine schnelle Reaktionszeit im Verhältnis zur Parameteranzahl erzielt, indem während der Inferenz nur ein Teil des gesamten Modells (Experten) aktiviert wird. Kurz gesagt wird eine Art Empfang im Modell eingerichtet, um einfache Fragen zu beantworten, während spezialisierte Prompts an Daten weitergeleitet werden, die in bestimmten Expertenbereichen trainiert wurden. Dadurch kann das Modell den residenten VRAM-Speicherbedarf trotz einer enormen Gesamtlernkapazität drastisch reduzieren. (Auf die Nachteile gehen wir später ein.) Darüber hinaus bedeutet ein geringerer Speicherbedarf im VRAM schnellere Antwortzeiten. Es ist wirklich eine hervorragende Technologie. Das Suffix "A3B", das häufig an Modellnamen angehängt wird, bedeutet, dass die Active-Größe nur 3B beträgt. Das heißt, der Empfangsteil ist nur 3B groß, sodass die Bereitstellung im VRAM der eines 3B-großen LLM-Modells entspricht.

Alibabas "Qwen3.5-35B-Coder" hat beispielsweise eine Gesamtparameterzahl von 35 Milliarden (35B), aber die für die Berechnung tatsächlich genutzten aktiven Parameter sind auf nur etwa 3 Milliarden (3B) begrenzt. Dies erreicht die ideale Kombination aus "hoher Intelligenz und hoher Geschwindigkeit", indem das immense Wissen eines 35B-Klasse-Modells bei der Inferenzgeschwindigkeit eines 3B-Klasse-Modells erhalten bleibt. Wenn man darüber nachdenkt, benötigt man beim Schreiben von Python-Code keine Lerndaten für Rust oder JavaScript, sodass dieser Ansatz absolut sinnvoll ist.

Die Einführung solcher Modelle hat Programmierunterstützung und komplexe logische Argumentation auf allgemeinen Consumer-Umgebungen mit 12 GB bis 24 GB VRAM praxistauglich gemacht.


Reduzierung der Modellgröße durch Quantisierungstechnologie

Quantisierungstechnologie klingt anspruchsvoll, ähnelt aber der Art und Weise, wie Menschen, die täglich mit Milliarden von Yen umgehen, Beträge unter zehntausend Yen abrunden, um das Gesamtbild zu erfassen – etwas, das jeder im täglichen Leben in gewissem Maße tut. Kurz gesagt ist es eine Methode zur Reduzierung des Datenvolumens durch Verringerung der Präzision von Modelldaten. Da dies die Genauigkeit beeinflusst, kann es sich auf feine und präzise Argumentationen auswirken, aber digitale Daten sind per Definition sowieso quantisiert. Da sie von Anfang an nicht zu 100 % fehlerfrei sind, ist das Akzeptieren dieses Kompromisses vernünftig. Selbst wenn die Datenmenge um die Hälfte reduziert wird, wird die Richtung der Inferenz kaum beeinträchtigt, was LLMs hochkompatibel mit der Quantisierung macht. (Wenn der Text jedoch hochkomplex ist und nur einen einzigen Zeichenfehler in einem riesigen Dokument enthält, kann der Mangel an Präzision das Modell daran hindern, diesen zu finden.)


Kontextkomprimierung

Kontext bezieht sich auf den Dialogverlauf. Bei der Wiederholung von Gesprächen mit der KI zur Verbesserung der Genauigkeit war es eine Verschwendung von Zeit und Speicher, wenn die KI diesen Verlauf jedes Mal neu einlesen musste. KV-Cache (temporäre Speicherung) und Context-Cache (Langzeitspeicherung) wurden verwendet, um den Kontext zu sichern. Je länger die Dialoge jedoch wurden, desto größer wurde der Cache im Vergleich zum Modell selbst, was Speicher verbrauchte und erhebliche Zeit in Anspruch nahm. Obwohl es früher eine grobe Methode namens GQA gab, die den Kontext gruppierte und verlustbehaftet komprimierte, wird der Kontext heute komprimiert und reduziert, um erst bei der Verwendung wieder entpackt zu werden. Das ist vergleichbar mit dem Vakuumverpacken von Decken oder Kissen, um sie zu verkleinern, und dem Aufblasen nur bei Bedarf. Dies wird als MLA (Multi-head Latent Attention) bezeichnet.

Dieser Mechanismus hat den Kontextverbrauch drastisch reduziert. Selbst lange Kontexte von 128K (ca. 100.000+ Wörter) können mit geringem Speicher bewältigt werden. Das Laden eines gesamten umfangreichen technischen Dokuments, um Fragen zu stellen, ist auf einem persönlichen PC ohne Stress praxistauglich geworden.

Dramatische Entwicklung der japanischen Sprachfähigkeit

Auch im japanischsprachigen Raum ist die Entwicklung lokaler Modelle erstaunlich. Neben der Standardunterstützung für mehrere Sprachen haben inländische Unternehmen (wie ELYZA, ABEJA und das Swallow-Projekt des Tokyo Institute of Technology) ein fortschrittliches japanisches kontinuierliches Pre-Training und RLHF (Reinforcement Learning from Human Feedback) auf den neuesten Basismodellen durchgeführt. Bemerkenswert ist die Lokalisierung von "Reasoning"-Modellen, die ihre Wurzeln in der o1-Serie von OpenAI haben. Die Methode, einen "Denkprozess (Chain of Thought)" vor der Generierung einer Antwort auszugeben, hat sich etabliert. Selbst mit auf Japanisch spezialisierten Reasoning-Modellen ist es möglich, komplexe japanische Kontexte und Nuancen zu erfassen, um Antworten über logische Schritte abzuleiten.

Repräsentative lokale LLMs

Die Modelle in der folgenden Tabelle sind tatsächliche LLM-Modelle, die ich auf meinem MacBook Pro mit llama.cpp ausgeführt habe. Alle liegen im GGUF-Format vor (dem derzeit vorherrschenden Modellformat). Zunächst eine Erklärung der einzelnen repräsentativen Modelle (ohne große Größen).


Modell

Übersicht

Gemma

Neueste "4"

Ein von Google bereitgestelltes Open-Source-LLM; ein Geschwistermodell von Gemini. Veröffentlicht am 31. März 2026. Verfügbar in E2B, E4B, 31B und 26B A4B. Gemma3 wurde im März 2025 in den Größen 1B, 4B, 12B und 27B veröffentlicht. (Die E2B- und E4B-Modelle unterstützen eine erweiterte multimodale Kompatibilität: Sie verarbeiten nativ Text, Bilder mit variablen Seitenverhältnissen und Auflösungen, Video und Audio.)

GPT-OSS

Ein von OpenAI bereitgestelltes LLM; ein Geschwistermodell von ChatGPT. Hat viele Derivate. gpt-oss-120b (117B) und gpt-oss-20b (21B) sind Open-Weights-LLMs, die im August 2025 angekündigt wurden. Das 20b-Modell läuft auf einem PC mit etwa 16 GB Speicher.

Qwen

Neueste "3.6"

Ein von Alibaba Cloud in China bereitgestelltes LLM. Version 3.5 wurde im Februar 2026 in den Größen 2B, 4B, 9B, 27B, 35B-A3B (MoE) und 122B-A10B (MoE) veröffentlicht. Die neueste Version 3.6 wurde im April veröffentlicht. Enthält Coder-Varianten.

Phi

Neueste "4"

Ein von Microsoft bereitgestelltes LLM. Phi-4 wurde zwischen Dezember 2024 und Februar 2025 in den Größen 3.8B und 14B veröffentlicht, jeweils mit einer Reasoning-Variante. Da das Training hauptsächlich auf Englisch basiert und nur sehr wenig Japanisch enthält, ist es für japanische Konversationen nicht geeignet. Es zeichnet sich durch mathematische Logik aus.

Nemotron

Neueste "3"

Ein von NVIDIA bereitgestelltes LLM. Nano-9B-v2-Japanese wurde am 17. Februar 2026 veröffentlicht und zeigt stark verbesserte japanische Fähigkeiten. 3 Super wurde am 11. März 2026 veröffentlicht.

Shisa

Neueste "2.1"

Bereitgestellt von ShisaAI (einem japanischen Unternehmen, das von drei chinesischen Staatsbürgern gegründet wurde). Die japanischen Benchmarks werden hoch bewertet. Veröffentlicht als Phi4-base (14B) am 22. April 2025 und Qwen3-base (8B) am 9. Dezember 2025 – konzentriert auf Verbesserungen statt auf neue Architekturen.

LFM

Neueste "2.5.1"

Ein von LiquidAI bereitgestelltes LLM. Ich dachte, sie spezialisieren sich nur auf sehr kleine Modelle für Smartphones und PCs, aber sie scheinen auch ultragroße Modelle anzubieten. Das von mir getestete Modell war 1.2B-JP.


Derzeit entwickeln viele Unternehmen verschiedene Modelle, und dies sind diejenigen, die in letzter Zeit Aufmerksamkeit erregt haben. *Die LLMs von Meta sind ausgeschlossen, da sie zu groß waren, um auf meinem Mac zu laufen.

4. Fazit: Lokale LLMs treten in die Phase der "praktischen Werkzeuge" ein

Heute, im Jahr 2026, sind lokale LLMs nicht mehr nur Spielzeuge für Enthusiasten. Sie etablieren sich als praktische Werkzeuge in allen Szenarien, einschließlich der Programmierunterstützung bei der Verarbeitung vertraulicher Unternehmensdaten, hochgradig personalisierter RAG-Systeme und autonomer Agenten in Offline-Umgebungen.

Ich habe den Eindruck, dass die Ära, in der wir uns bei der Verarbeitung, die nicht der öffentlichen Cloud-KI anvertraut werden kann, auf lokale LLMs verlassen, direkt vor der Tür steht. Insbesondere die Verbreitung effizienter Architekturen wie MoE hat die Demokratisierung der KI vorangetrieben, ohne auf die Hardware warten zu müssen. Japanisch, Reasoning und Speichereffizienz – da diese drei Säulen nun etabliert sind, steht die Ära, in der wir unsere eigene "private Intelligenz" mitführen und nutzen, direkt vor uns.


Abschließend zu den oben erwähnten Nachteilen oder Schwächen von MoE: Bei MoE-Modellen wie A3B wird der richtige Experte nicht aufgerufen, wenn die erste 3B-Entscheidung falsch ist. Bei Diskussionen oder Argumentationen, die mehrere Expertenbereiche abdecken, sinkt die Antwortqualität tendenziell erheblich. Daher gibt es viele Fälle, in denen Dense-Modelle (Nicht-MoE-Modelle, die alles laden) weiterhin die sicherere Wahl sind.





Quellen:

Shisa.AI Benchmark-Berichte (v2.1)

Qwen3.5 Model Card & Benchmarks

Towards AI: Lokale LLM-Trends und MoE-Architekturen