La vanguardia de los LLM locales en 2026: ¿se dividirá la inteligencia artificial en especialistas?

La vanguardia de los LLM locales en 2026

Entre 2025 y el día de hoy en 2026, el mundo de los LLM (modelos de lenguaje grande) locales ha alcanzado un punto de inflexión espectacular. Una "IA pensante", que antes requería enormes servidores GPU, ahora se ejecuta a una velocidad y precisión increíbles dentro de la memoria de una PC de escritorio típica o una notebook de alto rendimiento (como una Apple M5).

Por cierto, las pruebas de máquinas de Black Rabbit se realizan en tres equipos: una MacBook Pro M5 de 32 GB, una Intel Core i7 + RTX 4070 y una AMD + Ryzen 7. No disponemos de configuraciones costosas como DGX Spark o Mac Studio Ultra, que rondan el millón de yenes.

En este artículo, explicamos detalladamente cada modelo con un enfoque en la reducción de memoria (la principal tendencia técnica en los LLM locales actuales), incluyendo MoE (Mixture of Experts), los saltos en la capacidad en japonés y los modelos de "razonamiento" (Reasoning).

Reducción del uso de VRAM residente a través de Mixture of Experts (MoE)

El consumo de memoria VRAM en los LLM es enorme. Esta es también la causa fundamental de la actual escasez global de memoria. Por lo tanto, para algunos modelos se ideó un enfoque arquitectónico llamado MoE (Mixture of Experts) para reducir el consumo de memoria.

MoE es una tecnología que logra una respuesta de alta velocidad que no guarda proporción con el recuento de parámetros al activar solo una parte del modelo completo (expertos) durante la inferencia. En resumen, establece una recepción dentro del modelo para responder preguntas sencillas, mientras dirige las instrucciones especializadas a los datos entrenados en dominios de expertos específicos. Esto permite que el modelo reduzca en gran medida la huella de memoria VRAM residente a pesar de tener una capacidad de aprendizaje total masiva. (Explicaremos las desventajas más adelante). Además, una menor huella de datos desplegada en VRAM se traduce en velocidades de respuesta más rápidas. Es verdaderamente una tecnología excepcional. El sufijo "A3B" que suele acompañar a los nombres de los modelos significa que el tamaño activo (Active) es de solo 3B, es decir, la parte de la recepción es de solo 3B, por lo que el despliegue en VRAM equivale al de un modelo LLM de tamaño 3B.

Por ejemplo, "Qwen3.5-35B-Coder" de Alibaba tiene un recuento de parámetros total de 35 mil millones (35B), pero los parámetros activos realmente utilizados para el cálculo se reducen a solo unos 3 mil millones (3B). Esto logra la combinación ideal de "alta inteligencia y alta velocidad", manteniendo el vasto conocimiento de un modelo de clase 35B al tiempo que ofrece la velocidad de inferencia de un modelo de clase 3B. Si lo piensa bien, no necesita datos de aprendizaje para Rust o JavaScript cuando escribe código en Python, por lo que tiene mucho sentido.

La llegada de tales modelos ha hecho que la asistencia de programación y el razonamiento lógico complejo sean prácticos en entornos generales de consumo con 12 GB a 24 GB de VRAM.

Reducción del tamaño del modelo mediante tecnología de cuantización

La tecnología de cuantización suena grandiosa, pero es similar a cómo las personas que manejan miles de millones de yenes diariamente podrían redondear las cifras por debajo de los diez mil yenes para captar el panorama general: algo que todos hacen en la vida diaria hasta cierto punto. En resumen, es un método para reducir el volumen de datos al disminuir la precisión de los datos del modelo. Dado que afecta a la precisión, podría repercutir en el razonamiento fino y preciso, pero los datos digitales están cuantizados por definición de todos modos. Dado que no son 100% exactos desde el principio, aceptar esta compensación es razonable. Incluso cuando los datos se reducen a la mitad, la dirección de la inferencia no se ve muy afectada, lo que hace que los LLM sean altamente compatibles con la cuantización. (Sin embargo, si el texto es complejo y contiene solo un error de un carácter en un documento masivo, la falta de precisión podría impedir que el modelo lo encuentre).

Compresión de contexto

El contexto se refiere al historial de diálogo. En el proceso de iterar conversaciones con la IA para mejorar la precisión, hacer que la IA lea este historial cada vez era una pérdida de tiempo y memoria. Se utilizaron KV Cache (registro temporal) y Context Cache (registro a largo plazo) para guardar el contexto, pero a medida que los diálogos se hacían más largos, el caché se volvía más grande que el propio modelo, consumiendo memoria y tomando un tiempo significativo. Aunque antes existía un método aproximado llamado GQA que agrupaba y comprimía el contexto con pérdidas, actualmente el contexto se comprime y se desinfla, para descomprimirse solo cuando se utiliza. Es como envasar al vacío edredones o almohadas para encogerlos e inflar solo lo necesario. Esto se denomina MLA (Multi-head Latent Attention).

Este mecanismo ha reducido drásticamente el consumo de contexto. Incluso contextos largos de 128K (alrededor de más de 100,000 palabras) se pueden manejar con poca memoria. Cargar un documento técnico extenso y completo para hacer preguntas se ha vuelto práctico en una PC personal sin estrés.

Evolución espectacular en la capacidad del idioma japonés

En el entorno del idioma japonés, la evolución de los modelos locales también es asombrosa. Además de que el soporte multilingüe se está convirtiendo en un estándar, las empresas nacionales (como ELYZA, ABEJA y el proyecto Swallow del Instituto de Tecnología de Tokio) han realizado preentrenamiento continuo avanzado en japonés y RLHF (aprendizaje por refuerzo a partir de comentarios humanos) en los últimos modelos base. Cabe destacar la localización de los modelos de "razonamiento", que tienen sus raíces en la serie o1 de OpenAI. Se ha vuelto común el método de producir un "proceso de pensamiento (Chain of Thought)" antes de generar una respuesta. Incluso con modelos de razonamiento especializados en japonés, es posible captar contextos y matices complejos en japonés para deducir respuestas a través de pasos lógicos.

LLM locales representativos

Los modelos en la tabla siguiente son modelos LLM reales que ejecuté en mi MacBook Pro usando llama.cpp. Todos están en formato GGUF (actualmente el formato de modelo dominante). Primero, una explicación de cada modelo representativo (excluyendo tamaños grandes).

Modelo	Descripción general
Gemma Último "4"	Un LLM de código abierto provisto por Google; hermano de Gemini. Lanzado el 31 de marzo de 2026. Disponible en E2B, E4B, 31B y 26B A4B. Gemma3 se lanzó en marzo de 2025 en tamaños de 1B, 4B, 12B y 27B. (Los modelos E2B y E4B admiten compatibilidad multimodal extendida: manejan de forma nativa texto, imágenes con relaciones de aspecto y resoluciones variables, video y audio).
GPT-OSS	Un LLM provisto por OpenAI; hermano de ChatGPT. Tiene muchos derivados. gpt-oss-120b (117B) y gpt-oss-20b (21B) son LLM de pesos abiertos anunciados en agosto de 2025. El modelo 20b se ejecuta en una PC con aproximadamente 16 GB de memoria.
Qwen Último "3.6"	Un LLM provisto por Alibaba Cloud en China. 3.5 se lanzó en febrero de 2026 en 2B, 4B, 9B, 27B, 35B-A3B (MoE) y 122B-A10B (MoE). El último 3.6 se lanzó en abril. Incluye variantes Coder.
Phi Último "4"	Un LLM provisto por Microsoft. Phi-4 se lanzó entre diciembre de 2024 y febrero de 2025 en tamaños de 3.8B y 14B, cada uno con una variante de razonamiento. Dado que su entrenamiento se basa principalmente en el inglés y tiene muy poco japonés, no es adecuado para conversaciones en japonés. Sobresale en el razonamiento matemático.
Nemotron Último "3"	Un LLM provisto por NVIDIA. Nano-9B-v2-Japanese se lanzó el 17 de febrero de 2026 y muestra capacidades en japonés muy mejoradas. 3 Super se lanzó el 11 de marzo de 2026.
Shisa Último "2.1"	Provisto por ShisaAI (una empresa japonesa fundada por tres ciudadanos chinos). Sus evaluaciones de rendimiento en japonés están muy valoradas. Lanzado como Phi4-base (14B) el 22 de abril de 2025 y Qwen3-base (8B) el 9 de diciembre de 2025; enfocado en mejoras más que en nuevas arquitecturas.
LFM Último "2.5.1"	Un LLM provisto por LiquidAI. Pensaba que se especializaban solo en modelos muy pequeños que se ejecutaban en teléfonos inteligentes y PC, pero parecen manejar modelos ultra grandes también. El que probé fue 1.2B-JP.

Actualmente, muchas empresas están desarrollando varios modelos, y estos son los que han llamado la atención recientemente. *Los LLM de Meta están excluidos ya que eran demasiado grandes para ejecutarse en mi Mac.

4. Conclusión: Los LLM locales entran en la fase de "herramienta práctica"

Hoy en 2026, los LLM locales ya no son solo juguetes para entusiastas. Se están consolidando como herramientas prácticas en todos los escenarios, incluido el soporte de codificación que maneja datos confidenciales de la empresa, sistemas RAG altamente personalizados y agentes autónomos en entornos sin conexión.

Tengo la impresión de que la era de depender de los LLM locales para el procesamiento que no se puede dejar a las IA públicas en la nube está a la vuelta de la esquina. En particular, la difusión de arquitecturas eficientes como MoE ha impulsado la democratización de la IA sin esperar a que el hardware se ponga al día. Japonés, razonamiento y eficiencia de memoria: ahora que estos tres pilares están establecidos, la era de llevar y utilizar nuestra propia "inteligencia privada" está justo frente a nosotros.

Finalmente, con respecto a las desventajas o debilidades de MoE mencionadas anteriormente: en modelos MoE como A3B, si el juicio inicial de 3B es incorrecto, no se llamará al experto correcto, y en discusiones o razonamientos que cubren múltiples dominios de expertos, la tasa de respuesta tiende a caer significativamente. Por lo tanto, hay muchos casos en los que los modelos densos (modelos que no son MoE y cargan todo) siguen siendo la opción más segura.

Fuentes:

Informes de rendimiento de Shisa.AI (v2.1)

Ficha de modelo y benchmarks de Qwen3.5

Towards AI: Tendencias de LLM locales y arquitecturas MoE