在本機運行未審查的大型語言模型 —— 沒人能撤銷的存取權

為什麼選本機、為什麼是現在

2026 年 6 月 12 日，美國一紙出口管制命令迫使 Anthropic 在一夜之間對所有外國國民停用 Fable 5 與 Mythos 5——無需任何不當行為。上游政策一變，數億人就失去了他們依賴的工具。這正是向把關者租用智慧的結構性風險：存取權是一種許可，而許可會被收回、地理封鎖、重新定價或記錄。

權重存在你自己磁碟上的模型則沒有這種脆弱性。它不會被一紙你從未看過的命令切斷、被限速，或在你不知情下被「微調」來對付你。開放權重模型之於 AI，就如同自運節點之於比特幣：比託管方案笨重，卻以託管方案永遠做不到的方式真正屬於你。

這裡的「未審查」指兩件事：無需 API 關卡就能運行的權重，以及不會拒絕善意請求的微調版本。兩者都重要——但都不會讓模型更聰明或更誠實。把輸出當成任何工具一樣看待：有用、會出錯，且由你負責。

硬體的現實（以及量化這個取巧法）

唯一重要的數字是記憶體——有 GPU 就看 VRAM，沒有就看系統 RAM。讓本機模型變得實用的取巧法是量化：把權重從 16 位元壓到 4 位元，品質損失極小。4 位元（Q4_K_M）GGUF 模型的粗略法則：

70–80 億參數：約 5 GB。筆電就能跑，甚至純 CPU（較慢）。8 GB VRAM 很舒適。
130–140 億：約 9 GB。一張 12 GB GPU 或 16 GB 的 Mac。
300–340 億：約 20 GB。一張 24 GB GPU（3090/4090）或 32 GB 的 Mac。
700 億：約 42 GB。兩張 24 GB GPU、一張 48 GB 卡，或 64 GB 以上的 Mac。

Apple Silicon 表現超乎身價，因為 GPU 與系統 RAM 共用——一台 64 GB 的 Mac 能跑同級 PC 需要兩張顯卡才跑得動的模型。完全沒有 GPU？70 億模型仍能用 CPU 跑；預期每秒幾個 token，而非數十個。

挑一個執行環境

Ollama——最省事的起點。安裝一次，然後 ollama run llama3.1 就會拉取並運行模型。在 11434 埠開放一個多數聊天介面都支援的本機 API。推薦給幾乎所有人。
LM Studio——精緻的桌面 GUI。從 Hugging Face 瀏覽與下載模型、聊天，並開放一個相容 OpenAI 的本機伺服器。完全不想碰終端機就選它。
llama.cpp——多數其他工具底層的裸機引擎。最大的掌控力與最廣的硬體支援；需自行編譯並管理 GGUF 檔案。
vLLM / TGI——在真正的 GPU 上為大量請求高速提供單一模型。對個人來說過頭了；適合共用主機。

挑一個模型

先從強大的開放權重基礎模型開始，若想要更少的拒絕回應，再挑一個微調版本：

開放權重基礎模型：Llama（Meta）、Qwen（阿里巴巴）、Mistral / Mixtral、Gemma（Google）、DeepSeek。全部可下載、全部能在本機運行。Qwen 與 Llama 8B 是目前最佳的「塞得進筆電」全能選手。
未審查／「abliterated（消融）」微調版本：Dolphin 系列、Nous Hermes，以及「abliterated」版本（一種從既有模型中精準移除「拒絕方向」的技術）。它們會直接回答而不是說教——對安全研究、小說創作，以及託管模型會過度保姆化的邊緣問題很有用。代價是：它們至少同樣會幻覺、有時更嚴重，而且你與一個自信卻錯誤的答案之間沒有任何護欄。

從 Hugging Face 取得權重。透過 Ollama，多數熱門的未審查版本只要一道指令（例如 ollama run dolphin-mistral）。

用 Ollama 快速上手

// 安裝（macOS/Linux）
curl -fsSL https://ollama.com/install.sh | sh

// 拉取並與 8B 全能模型對話
ollama run llama3.1:8b

// 改用未審查的微調版本
ollama run dolphin-mistral

// 列出已有模型，之後可釋放磁碟空間
ollama list
ollama rm dolphin-mistral

把任何相容 OpenAI 的用戶端指向 http://localhost:11434/v1，你就有了一個私密的本機替代方案。想要聊天介面，Open WebUI 用一個容器就能跑起來，且開箱即與 Ollama 對接。

讓它真正私密

拉取權重後就斷網。模型一旦在磁碟上，就完全不需要網路。若不想讓 Hugging Face／註冊表把你的 IP 與模型清單記錄在一起，就透過 Tor 或 VPN 下載。
阻止執行環境回傳。Ollama 與 llama.cpp 完全在本機運行，但仍應為該行程設防火牆（或在實體隔離的機器上運行），以免未來的更新在你背後偷加遙測。
把提示詞留在裝置上。這正是重點：你的對話永遠不離開這台機器。沒有帳號、沒有伺服器端紀錄、沒有東西可供傳票調取。
全碟加密現在更重要。你的提示歷史與任何已存對話都在本機——若硬體被沒收或遺失，全碟加密就是最後防線。

誠實的提醒

未審查不等於更聰明。移除拒絕回應並不會增加知識或準確度。消融過的 8B 仍然只是個 8B。
本機不等於前沿。桌上的 70B 確實好用，但在最困難的任務上比不上最頂尖的託管模型。你做的取捨是用能力換主權——要想清楚再上路。
輸出由你負責。沒有供應商替你過濾，這正是重點——也是責任。你生成什麼、拿來做什麼，都由你承擔。

延伸閱讀

這裡的主權邏輯，與本站每一則收錄背後的邏輯相同：你掌控的工具勝過你租用的工具。更廣泛的威脅模型探討見我們的 OPSEC52 系列；若想在下載權重時不讓 ISP 建立你的檔案，見 /vpns。