Host the Right Model Through Ollama

學會挑選合適的模型透過 Ollama 本地運行 LLM

@ AI

#unsorted

前言

雖然在 AI 出現之前很難想像，但 2026 年工作上我已經很少「手寫程式」而是透過 AI 更有效率的輔助開發，我相信在 AI 百家爭鳴的時代不用特別執著用哪個模型或工具，挑個最新順手的免費方案就夠了，未來模型只會更便宜更有效率。

可以優先找免費的模型服務來用：2026 我在用的 AI Agent 工具。雖然有時候也會遇到問題需要本地 LLM：

斷網
限流
延遲
政策
隱私
$$

最簡單運行本地 LLM 的方式

OLLAMA🔗是開源社群最活躍的免費工具，如果下載新版 OLLAMA🔗 會發現它已經簡單到把常用的對話、Coding 工具甚至龍蝦整合進去了，可以一鍵啟動本地模型：

ollama launch opencode
ollama
Ollama 0.20.3

  Chat with a model
    Start an interactive chat with a model

  Launch Claude Code
    Anthropic's coding tool with subagents

  Launch Codex
    OpenAI's open-source coding agent

  Launch OpenClaw (install)
    Personal AI with 100+ skills

▸ Launch OpenCode
    Anomaly's open-source coding agent

  Launch Droid (not installed)
    Factory's coding agent across terminal and IDEs

  Launch Pi (install)
    Minimal AI agent toolkit with plugin support

上去 OLLAMA Models🔗 挑個模型就可以直接跑，例如最新的 gemma4🔗 安裝只要：

ollama run gemma4

實戰上直接到 CanIRun.ai🔗 選擇自己裝置的規格就能過濾出合適的模型。

讀懂模型配置

參數 (Parameters)

有點像腦細胞數量

模型中的參數數量以十億計（如 7B 或 70B），參數越多模型越強大、記憶體需求更高且推論速度通常較慢。7B 適合基本任務，13B~34B 是平衡點，70B+ 有更高最高品質但需要強大硬體配合。

量化 (Quantization)

有點像壓縮記憶的模式

模型中的量化透過 GGUF 量化格式的命名規則表示，例如 Q4_K_M、Q8_0或 F16（16 位元，原精度最大），量化降低精度以縮小模型大小並加速運行，但犧牲些許品質。

Q = Quantization（量化）
F = Float（浮點）
K = K-means 量化演算法
M = Medium（尺寸等級）

VRAM

VRAM 是 GPU 記憶體，量化模型檔案通常需完全放入 VRAM（或 Apple 統一記憶體），否則無法順利運行或退回慢速 CPU 推論（如 8GB 模型需至少 8GB VRAM）。

Dense vs MoE（Mixture of Experts）架構

Dense 模型單純且易於預估，每次運算激活所有參數。
MoE 模型將參數分為專家群，每 token 只激活少數專家（如 Mixtral 8x7B 總 46.7B 但僅用 12.9B），提供大模型品質但需全載入記憶體，達成用較少的算力，得到具備極大參數規模模型才有的回應水平。

上下文長度（Context Length）

模型可以一次處理的 Token 上限。

每秒 Token 速度（Tokens per Second (tok/s)）

每秒 LLM 回應多少 Token。

記憶體頻寬（Memory Bandwidth）

從 VRAM 讀取資料的速度。

推理瓶頸在於從記憶體中讀取模型權重，因此更高的頻寬意味著每秒可以讀取更多的 Token。這就是為什麼搭載 Apple 晶片的 Mac（具有高統一記憶體頻寬）能夠出色地運行大型模型，以及為什麼即使在相同的顯存使用量下，RTX 4090 生成文本的速度也比 RTX 4060 更快。

全站搜尋

學會挑選合適的模型透過 Ollama 本地運行 LLM

前言

最簡單運行本地 LLM 的方式

讀懂模型配置

參數 (Parameters)

量化 (Quantization)

VRAM

Dense vs MoE（Mixture of Experts）架構

上下文長度（Context Length）

每秒 Token 速度（Tokens per Second (tok/s)）

記憶體頻寬（Memory Bandwidth）

延伸閱讀