Host the Right Model Through Ollama

學會挑選合適的模型透過 Ollama 本地運行 LLM

前言

雖然在 AI 出現之前很難想像,但 2026 年工作上我已經很少「手寫程式」而是透過 AI 更有效率的輔助開發,我相信在 AI 百家爭鳴的時代不用特別執著用哪個模型或工具,挑個最新順手的免費方案就夠了,未來模型只會更便宜更有效率。

可以優先找免費的模型服務來用:2026 我在用的 AI Agent 工具。雖然有時候也會遇到問題需要本地 LLM:

  • 斷網
  • 限流
  • 延遲
  • 政策
  • 隱私
  • $$

最簡單運行本地 LLM 的方式

OLLAMA🔗是開源社群最活躍的免費工具,如果下載新版 OLLAMA🔗 會發現它已經簡單到把常用的對話、Coding 工具甚至龍蝦整合進去了,可以一鍵啟動本地模型:

Terminal window
ollama launch opencode
ollama
Ollama 0.20.3
Chat with a model
Start an interactive chat with a model
Launch Claude Code
Anthropic's coding tool with subagents
Launch Codex
OpenAI's open-source coding agent
Launch OpenClaw (install)
Personal AI with 100+ skills
Launch OpenCode
Anomaly's open-source coding agent
Launch Droid (not installed)
Factory's coding agent across terminal and IDEs
Launch Pi (install)
Minimal AI agent toolkit with plugin support

上去 OLLAMA Models🔗 挑個模型就可以直接跑,例如最新的 gemma4🔗 安裝只要:

Terminal window
ollama run gemma4

實戰上直接到 CanIRun.ai🔗 選擇自己裝置的規格就能過濾出合適的模型。

讀懂模型配置

參數 (Parameters)

有點像腦細胞數量

模型中的參數數量以十億計(如 7B70B),參數越多模型越強大、記憶體需求更高且推論速度通常較慢。7B 適合基本任務,13B~34B 是平衡點,70B+ 有更高最高品質但需要強大硬體配合。

量化 (Quantization)

有點像壓縮記憶的模式

模型中的量化透過 GGUF 量化格式的命名規則表示,例如 Q4_K_MQ8_0F16(16 位元,原精度最大),量化降低精度以縮小模型大小並加速運行,但犧牲些許品質。

  • Q = Quantization(量化)
  • F = Float(浮點)
  • K = K-means 量化演算法
  • M = Medium(尺寸等級)

VRAM

VRAM 是 GPU 記憶體,量化模型檔案通常需完全放入 VRAM(或 Apple 統一記憶體),否則無法順利運行或退回慢速 CPU 推論(如 8GB 模型需至少 8GB VRAM)。

Dense vs MoE(Mixture of Experts)架構

  • Dense 模型單純且易於預估,每次運算激活所有參數。

  • MoE 模型將參數分為專家群,每 token 只激活少數專家(如 Mixtral 8x7B 總 46.7B 但僅用 12.9B),提供大模型品質但需全載入記憶體,達成用較少的算力,得到具備極大參數規模模型才有的回應水平。

上下文長度(Context Length)

模型可以一次處理的 Token 上限。

每秒 Token 速度(Tokens per Second (tok/s))

每秒 LLM 回應多少 Token。

記憶體頻寬(Memory Bandwidth)

從 VRAM 讀取資料的速度。

推理瓶頸在於從記憶體中讀取模型權重,因此更高的頻寬意味著每秒可以讀取更多的 Token。這就是為什麼搭載 Apple 晶片的 Mac(具有高統一記憶體頻寬)能夠出色地運行大型模型,以及為什麼即使在相同的顯存使用量下,RTX 4090 生成文本的速度也比 RTX 4060 更快。

延伸閱讀