前言
雖然在 AI 出現之前很難想像,但 2026 年工作上我已經很少「手寫程式」而是透過 AI 更有效率的輔助開發,我相信在 AI 百家爭鳴的時代不用特別執著用哪個模型或工具,挑個最新順手的免費方案就夠了,未來模型只會更便宜更有效率。
可以優先找免費的模型服務來用:2026 我在用的 AI Agent 工具。雖然有時候也會遇到問題需要本地 LLM:
- 斷網
- 限流
- 延遲
- 政策
- 隱私
- $$
最簡單運行本地 LLM 的方式
OLLAMA是開源社群最活躍的免費工具,如果下載新版 OLLAMA 會發現它已經簡單到把常用的對話、Coding 工具甚至龍蝦整合進去了,可以一鍵啟動本地模型:
ollama launch opencodeollamaOllama 0.20.3
Chat with a model Start an interactive chat with a model
Launch Claude Code Anthropic's coding tool with subagents
Launch Codex OpenAI's open-source coding agent
Launch OpenClaw (install) Personal AI with 100+ skills
▸ Launch OpenCode Anomaly's open-source coding agent
Launch Droid (not installed) Factory's coding agent across terminal and IDEs
Launch Pi (install) Minimal AI agent toolkit with plugin support上去 OLLAMA Models 挑個模型就可以直接跑,例如最新的 gemma4 安裝只要:
ollama run gemma4實戰上直接到 CanIRun.ai 選擇自己裝置的規格就能過濾出合適的模型。
讀懂模型配置
參數 (Parameters)
有點像腦細胞數量
模型中的參數數量以十億計(如 7B 或 70B),參數越多模型越強大、記憶體需求更高且推論速度通常較慢。7B 適合基本任務,13B~34B 是平衡點,70B+ 有更高最高品質但需要強大硬體配合。
量化 (Quantization)
有點像壓縮記憶的模式
模型中的量化透過 GGUF 量化格式的命名規則表示,例如 Q4_K_M、Q8_0或 F16(16 位元,原精度最大),量化降低精度以縮小模型大小並加速運行,但犧牲些許品質。
- Q = Quantization(量化)
- F = Float(浮點)
- K = K-means 量化演算法
- M = Medium(尺寸等級)
VRAM
VRAM 是 GPU 記憶體,量化模型檔案通常需完全放入 VRAM(或 Apple 統一記憶體),否則無法順利運行或退回慢速 CPU 推論(如 8GB 模型需至少 8GB VRAM)。
Dense vs MoE(Mixture of Experts)架構
-
Dense 模型單純且易於預估,每次運算激活所有參數。
-
MoE 模型將參數分為專家群,每 token 只激活少數專家(如 Mixtral 8x7B 總
46.7B但僅用12.9B),提供大模型品質但需全載入記憶體,達成用較少的算力,得到具備極大參數規模模型才有的回應水平。
上下文長度(Context Length)
模型可以一次處理的 Token 上限。
每秒 Token 速度(Tokens per Second (tok/s))
每秒 LLM 回應多少 Token。
記憶體頻寬(Memory Bandwidth)
從 VRAM 讀取資料的速度。
推理瓶頸在於從記憶體中讀取模型權重,因此更高的頻寬意味著每秒可以讀取更多的 Token。這就是為什麼搭載 Apple 晶片的 Mac(具有高統一記憶體頻寬)能夠出色地運行大型模型,以及為什麼即使在相同的顯存使用量下,RTX 4090 生成文本的速度也比 RTX 4060 更快。
延伸閱讀
- What is Ollama? Running Local LLMs Made Simple - IBM Technology
- Quantization - Hugging Face
- Docs - CanIRun.ai