Передовий досвід локальних LLM у 2026 році: чи розділиться штучний інтелект на фахівців?

Передовий досвід локальних LLM у 2026 році

Між 2025 роком та сьогоднішнім днем у 2026 році світ локальних LLM (великих мовних моделей) досяг кардинального перелому. «Мислительний ШІ», який раніше потребував величезних серверів із графічними процесорами, тепер працює з неймовірною швидкістю та точністю в оперативній пам'яті звичайного настільного ПК або високопродуктивного ноутбука (наприклад, Apple M5).

До речі, машинне тестування Black Rabbit проводиться на трьох комп'ютерах: M5 MacBook Pro 32GB, Intel Core i7 + RTX 4070 та AMD + Ryzen 7. Ми не маємо дорогих систем, таких як DGX Spark або Mac Studio Ultra, які коштують близько 1 мільйона єн.

У цій статті ми всебічно описуємо кожну модель з акцентом на зменшення споживання пам'яті — основний технічний тренд у локальних LLM на сьогодні — включаючи MoE (Mixture of Experts), якісний стрибок у підтримці японської мови та моделі «міркування» (Reasoning).

Зменшення використання постійної VRAM за допомогою Mixture of Experts (MoE)

Споживання пам'яті VRAM у LLM є колосальним. Це також є першопричиною нинішнього глобального дефіциту пам'яті. Тому для деяких моделей було розроблено архітектурний підхід під назвою MoE (Mixture of Experts), щоб зменшити споживання пам'яті.

MoE — це технологія, яка забезпечує високу швидкість відповіді, що не відповідає загальній кількості параметрів, шляхом активації лише частини всієї моделі (експертів) під час виведення. Коротше кажучи, вона створює стійку приймальні всередині моделі для відповіді на прості запитання, тоді як спеціалізовані запити направляються до даних, навчених у конкретних експертних областях. Це дозволяє моделі суттєво зменшити обсяг оперативної пам'яті VRAM, незважаючи на величезний загальний обсяг навчання. (Про недоліки ми розповімо пізніше.) Крім того, менший обсяг даних, розміщених у VRAM, забезпечує більшу швидкість відповіді. Це справді видатна технологія. Суфікс «A3B», який часто додається до назв моделей, означає, що активний розмір (Active size) становить лише 3B. Тобто частина приймальні становить лише 3B, тому розгортання у VRAM еквівалентне моделі LLM розміром 3B.

Наприклад, модель «Qwen3.5-35B-Coder» від Alibaba має загальну кількість параметрів 35 мільярдів (35B), але активні параметри, які фактично використовуються для обчислень, обмежені лише близько 3 мільярдами (3B). Це забезпечує ідеальне поєднання «високого інтелекту та високої швидкості», зберігаючи величезні знання моделі класу 35B при швидкості виведення моделі класу 3B. Якщо замислитися, вам не потрібні навчальні дані для Rust або JavaScript при написанні коду на Python, тому в цьому є повний сенс.

Поява таких моделей зробила допомогу в програмуванні та складні логічні міркування практичними у звичайних користувацьких середовищах із VRAM від 12 ГБ до 24 ГБ.

Зменшення розміру моделі за допомогою технології квантування

Технологія квантування звучить складно, але це схоже на те, як люди, які щодня оперують мільярдами єн, можуть округляти суми менше десяти тисяч єн, щоб зрозуміти загальну картину — те, що кожен певною мірою робить у повсякденному житті. Коротше кажучи, це метод зменшення обсягу даних шляхом зниження точності даних моделі. Оскільки це впливає на точність, це може вплинути на складні та точні міркування, але цифрові дані все одно квантовані за визначенням. Враховуючи, що вони не є на 100% точними від початку, прийняття цього компромісу є розумним. Навіть коли обсяг даних зменшується вдвічі, напрямок виведення суттєво не змінюється, що робить LLM дуже сумісними з квантуванням. (Однак, якщо текст складний і містить лише один помилковий символ у великому документі, брак точності може завадити моделі його знайти.)

Стиснення контексту

Контекст означає історію діалогу. У процесі повторення розмов із ШІ для підвищення точності змушувати ШІ читати цю історію щоразу було марною тратою часу та пам'яті. Для збереження контексту використовувалися KV Cache (тимчасовий запис) та Context Cache (довгостроковий запис), але в міру подовження діалогів кеш ставав більшим за саму модель, споживаючи пам'ять та вимагаючи значного часу. Хоча раніше існував грубий метод під назвою GQA, який групував і стискав контекст із втратами, зараз контекст стискається та зменшується в обсязі, щоб розпаковуватися лише при використанні. Це схоже на вакуумне пакування ковдр чи подушок для зменшення їхнього розміру та надування лише за потреби. Це називається MLA (Multi-head Latent Attention).

Цей механізм кардинально зменшив споживання контексту. Навіть довгі контексти обсягом 128K (близько 100 000+ слів) можна обробляти з мінімальним обсягом пам'яті. Завантаження цілого великого технічного документа для запитань стало практичним на персональному ПК без зайвого навантаження.

Вражаюча еволюція підтримки японської мови

В японськомовному середовищі еволюція локальних моделей також вражає. Окрім того, що підтримка багатьох мов стала стандартом, японські компанії (такі як ELYZA, ABEJA та проект Swallow Токійського технологічного інституту) провели передове попереднє навчання японської мови та RLHF (навчання з підкріпленням на основі відгуків людей) на найновіших базових моделях. Варто відзначити локалізацію моделей «міркування», які беруть свій початок від серії o1 від OpenAI. Метод виведення «процесу мислення (Chain of Thought)» перед генерацією відповіді став загальноприйнятим. Навіть із японськими моделями міркування можна розуміти складні японські контексти та нюанси для отримання відповідей за допомогою логічних кроків.

Представницькі локальні LLM

Моделі в таблиці нижче — це реальні моделі LLM, які я запускав на своєму MacBook Pro за допомогою llama.cpp. Усі вони у форматі GGUF (наразі основний формат моделей). Спочатку опис кожної представницької моделі (за винятком великих розмірів).

Модель	Огляд
Gemma Остання "4"	Офіційна відкрита LLM від Google; споріднена з Gemini. Випущена 31 березня 2026 року. Доступна в розмірах E2B, E4B, 31B та 26B A4B. Gemma3 була випущена в березні 2025 року в розмірах 1B, 4B, 12B та 27B. (Моделі E2B та E4B підтримують розширену мультимодальну сумісність: безпосередню роботу з текстом, зображеннями зі змінним співвідношенням сторін і роздільною здатністю, відео та аудіо.)
GPT-OSS	LLM від OpenAI; споріднена з ChatGPT. Має багато похідних моделей. gpt-oss-120b (117B) та gpt-oss-20b (21B) — це LLM з відкритими вагами, анонсовані в серпні 2025 року. Модель 20b працює на ПК з приблизно 16 ГБ оперативної пам'яті.
Qwen Остання "3.6"	LLM від Alibaba Cloud в Китаї. Версія 3.5 була випущена в лютому 2026 року в розмірах 2B, 4B, 9B, 27B, 35B-A3B (MoE) та 122B-A10B (MoE). Остання версія 3.6 була випущена в квітні. Включає варіанти Coder.
Phi Остання "4"	LLM від Microsoft. Phi-4 була випущена в період з грудня 2024 року по лютий 2025 року в розмірах 3.8B та 14B, кожна з яких має варіант міркування. Оскільки її навчання базується переважно на англійській мові та містить дуже мало японської, вона не підходить для спілкування японською мовою. Вона чудово справляється з математичними міркуваннями.
Nemotron Остання "3"	LLM від NVIDIA. Nano-9B-v2-Japanese була випущена 17 лютого 2026 року і демонструє значно покращені можливості японської мови. Версія 3 Super була випущена 11 березня 2026 року.
Shisa Остання "2.1"	Надана ShisaAI (японська компанія, заснована трьома громадянами Китаю). Її японські тести мають високі оцінки. Випущена як Phi4-base (14B) 22 квітня 2025 року та Qwen3-base (8B) 9 грудня 2025 року — зосереджена на вдосконаленні, а не на нових архітектурах.
LFM Остання "2.5.1"	LLM від LiquidAI. Я думав, що вони спеціалізуються лише на дуже маленьких моделях для смартфонів та ПК, але, схоже, вони працюють і з надвеликими моделями. Те, що я тестував, було 1.2B-JP.

Наразі багато компаній розробляють різні моделі, і саме ці привернули увагу останнім часом. *Моделі LLM від Meta виключені, оскільки вони були занадто великими для роботи на моєму комп'ютері Mac.

4. Висновок: локальні LLM переходять у фазу «практичного інструменту»

Сьогодні у 2026 році локальні LLM вже не є просто іграшками для ентузіастів. Вони зарекомендували себе як практичні інструменти в усіх сценаріях, включаючи підтримку кодування конфіденційних корпоративних даних, високоперсоналізовані RAG-системи та автономних агентів в офлайн-середовищах.

У мене складається враження, що ера залежності від локальних LLM для обробки даних, які не можна довірити публічним хмарним ШІ, вже не за горами. Зокрема, поширення ефективних архітектур, таких як MoE, стимулювало демократизацію ШІ, не чекаючи розвитку апаратного забезпечення. Японська мова, міркування та ефективність пам'яті — тепер, коли ці три стовпи встановлені, ера використання нашого власного «приватного інтелекту» стоїть прямо перед нами.

Нарешті, щодо згаданих вище недоліків або слабкостей MoE: у таких моделях, як A3B, якщо початкове рішення 3B є помилковим, правильний експерт не буде викликаний, а в обговореннях або міркуваннях, що охоплюють кілька експертних областей, швидкість відповіді має тенденцію значно знижуватися. Тому існує багато випадків, коли моделі Dense (моделі без MoE, які завантажують усе) залишаються безпечнішим вибором.

Джерела:

Звіти про тестування Shisa.AI (v2.1)

Карта моделі та результати тестів Qwen3.5

Towards AI: Тенденції локальних LLM та архітектури MoE