2026年本地LLM最前沿：人工智能会走向专业分工吗？

2026年本地LLM最前沿

在2025年到今天的2026年之间，本地LLM（大型语言模型）的世界迎来了戏剧性的转折点。曾经需要庞大GPU服务器的“思考型AI”，如今可以在普通台式PC或高性能笔记本电脑（如Apple M5） durable的内存中以极高的速度和精度运行。

顺便提一下，黑兔（Black Rabbit）的机器测试是在三台机器上进行的：一台32GB的M5 MacBook Pro、一台Intel Core i7 + RTX 4070以及一台AMD + Ryzen 7。我们并没有像DGX Spark或Mac Studio Ultra那样价格在100万日元左右的昂贵设备。

在本文中，我们将围绕内存优化——这是当今本地LLM的主要技术趋势——全面解释各个模型，包括MoE（混合专家架构）、日语能力的飞跃以及“推理（Reasoning）”模型。

通过混合专家架构（MoE）减少常驻VRAM占用

LLM的VRAM显存消耗是极大的。这也是目前全球显存短缺的根本原因。因此，针对某些模型，人们设计了一种名为MoE（Mixture of Experts，混合专家）的架构方法来减少显存消耗。

MoE是一种通过在推理过程中仅激活整个模型的一部分（专家），从而实现与参数量不成比例的高速响应的技术。简而言之，它在模型内部设立了一个接待台来回答简单的问题，同时将专业提示路由到在特定专家领域训练的数据中。这使得模型尽管拥有庞大的总学习容量，却能大幅降低常驻VRAM显存的占用。（我们稍后会解释其缺点。）此外，部署在VRAM中的较小数据占用意味着更快的响应速度。这确实是一项杰出的技术。模型名称中经常附带的“A3B”后缀意味着活跃大小（Active size）仅为3B，也就是说接待台部分只有3B，因此部署到VRAM相当于一个3B大小的LLM模型。

例如，阿里巴巴的“Qwen3.5-35B-Coder”的总参数量为350亿（35B），但实际用于计算的活跃参数被压缩到仅约30亿（3B）。这实现了“高智能、高速度”的理想结合，既保留了35B级模型的广博知识，又提供了3B级模型的推理速度。仔细想想，写Python代码时确实不需要Rust或JavaScript的学习数据，所以这完全行得通。

此类模型的出现，使得在具有12GB至24GB VRAM的通用消费级环境下，进行编程辅助和复杂的逻辑推理变得切实可行。

通过量化技术减小模型大小

量化技术听起来很宏大，但它类似于每天管理数十亿日元的人可能会抹去万元以下的小数以掌握整体情况——这在一定程度上是每个人在日常生活中都会做的事情。简而言之，它是一种通过降低模型数据精度来减少数据量的方法。由于它会影响精度，可能会对细微和精确的推理产生影响，但数字数据本身定义上就是量化的。鉴于它从一开始就不是100%准确，接受这种权衡是合理的。即使数据被削减了一半，推理的方向也不会受到严重影响，这使得LLM与量化技术具有极高的兼容性。（然而，如果文本非常复杂，且在海量文档中仅包含一个字符的错误，精度的缺失可能会导致模型无法找到它。）

上下文压缩

上下文是指对话历史。在与AI反复对话以提高准确性的过程中，每次都让AI重新读取这些历史记录是浪费时间和显存的。尽管以前曾使用KV Cache（临时记录）和Context Cache（长期记录）来保存上下文，但随着对话变长，缓存会变得比模型本身还要大，既消耗内存又耗费大量时间。虽然曾经有一种名为GQA的粗略方法可以对上下文进行分组和有损压缩，但目前上下文会被压缩和缩减，仅在需要时解压。这就像用真空袋压缩被子或枕头以缩小其体积，只在需要时充气一样。这被称为MLA（Multi-head Latent Attention）。

这种机制极大降低了上下文的消耗。即使是128K（约10万字以上）的超长上下文，也可以用极小的内存来处理。将整篇冗长的技术文档加载进去提问，在个人PC上也变得切实可行且毫无压力。

日语能力的戏剧性演进

在日语语言环境中，本地模型的演进同样令人震惊。除了多语言支持成为标配之外，日本国内公司（如ELYZA、ABEJA和东京工业大学的Swallow项目）在最新的基座模型上进行了高级的日语增量预训练和RLHF（人类反馈强化学习）。值得注意的是起源于OpenAI的o1系列的“推理（Reasoning）”模型的本地化。在生成答案之前输出“思考过程（Chain of Thought）”的方法已变得非常普遍。即使是日语专用的推理模型，也能抓住复杂的日语上下文和细微差别，通过逻辑步骤得出答案。

代表性本地LLM

下表中的模型是我在MacBook Pro上使用llama.cpp实际运行过的LLM模型。全部为GGUF格式（目前主流的模型格式）。首先是对各个代表性模型（不含超大尺寸）的解释。

模型	概述
Gemma 最新“4”	由Google提供的开源LLM；Gemini的兄弟模型。发布于2026年3月31日。提供E2B、E4B、31B和26B A4B尺寸。Gemma3于2025年3月发布，有1B、4B、12B和27B尺寸。（E2B和E4B模型支持扩展的多模态兼容性：原生处理文本、具有可变长宽比和分辨率的图像、视频以及音频。）
GPT-OSS	由OpenAI提供的LLM；ChatGPT的兄弟模型。有许多衍生版本。gpt-oss-120b (117B) 和 gpt-oss-20b (21B) 是2025年8月公布的开源权重LLM。20b模型可在配有约16GB内存的PC上运行。
Qwen 最新“3.6”	由中国阿里云提供的LLM。3.5版本于2026年2月发布，有2B、4B、9B、27B、35B-A3B (MoE) 和 122B-A10B (MoE)。最新的3.6版本于4月发布。包含Coder（编程）变体。
Phi 最新“4”	由Microsoft提供的LLM。Phi-4于2024年12月至2025年2月之间发布，有3.8B和14B尺寸，均配有推理（Reasoning）变体。由于其训练数据大部分基于英文，日语内容极少，因此不适合进行日语对话。它在数学推理方面表现优异。
Nemotron 最新“3”	由NVIDIA提供的LLM。Nano-9B-v2-Japanese于2026年2月17日发布，展现出大幅提升的日语能力。3 Super于2026年3月11日发布。
Shisa 最新“2.1”	由ShisaAI（一家由三名中国籍人士在日本创立的公司）提供。其日语基准测试评价极高。于2025年4月22日发布了Phi4-base (14B)，于2025年12月9日发布了Qwen3-base (8B)——专注于优化而非新架构。
LFM 最新“2.5.1”	由LiquidAI提供的LLM。我曾以为他们只专注于在智能手机和PC上运行的极小模型，但他们似乎也处理超大型模型。我测试过的是1.2B-JP。

目前，许多公司正在开发各种模型，以上是近期备受关注的模型。*Meta的LLM被排除在外，因为它们太大，无法在我的Mac上运行。

4. 结论：本地LLM进入“实用工具”阶段

到了2026年的今天，本地LLM已不再只是爱好者的玩具。它们正在所有场景中确立自己作为实用工具的地位，包括处理公司机密数据的编码支持、高度个性化的RAG系统以及离线环境中的自主Agent。

我的印象是，在那些无法交给公共云端AI处理的场景下，依赖本地LLM的时代即将来临。特别是像MoE这样高效架构的普及，在无需等待硬件赶上的情况下推动了AI的民主化。日语支持、推理能力和内存效率——随着这三大支柱的确立，携带和利用我们自己的“私有智能”的时代已经近在眼前。

最后，关于上述MoE的缺点或弱点：在像A3B这样的MoE模型中，如果最初的3B判断错误，正确的专家将不会被调用；并且在涵盖多个专家领域的讨论或推理中，响应速度往往会显著下降。因此，在许多情况下，Dense模型（加载全部数据的非MoE模型）仍然是更安全的选择。

数据来源：

Shisa.AI 基准测试报告 (v2.1)

Qwen3.5 模型卡与基准测试

Towards AI: 本地LLM趋势与MoE架构