為什麼選本機、為什麼是現在
2026 年 6 月 12 日,美國一紙出口管制命令迫使 Anthropic 在一夜之間對所有外國國民停用 Fable 5 與 Mythos 5——無需任何不當行為。上游政策一變,數億人就失去了他們依賴的工具。這正是向把關者租用智慧的結構性風險:存取權是一種許可,而許可會被收回、地理封鎖、重新定價或記錄。
權重存在你自己磁碟上的模型則沒有這種脆弱性。它不會被一紙你從未看過的命令切斷、被限速,或在你不知情下被「微調」來對付你。開放權重模型之於 AI,就如同自運節點之於比特幣:比託管方案笨重,卻以託管方案永遠做不到的方式真正屬於你。
這裡的「未審查」指兩件事:無需 API 關卡就能運行的權重,以及不會拒絕善意請求的微調版本。兩者都重要——但都不會讓模型更聰明或更誠實。把輸出當成任何工具一樣看待:有用、會出錯,且由你負責。
硬體的現實(以及量化這個取巧法)
唯一重要的數字是記憶體——有 GPU 就看 VRAM,沒有就看系統 RAM。讓本機模型變得實用的取巧法是量化:把權重從 16 位元壓到 4 位元,品質損失極小。4 位元(Q4_K_M)GGUF 模型的粗略法則:
- 70–80 億參數:約 5 GB。筆電就能跑,甚至純 CPU(較慢)。8 GB VRAM 很舒適。
- 130–140 億:約 9 GB。一張 12 GB GPU 或 16 GB 的 Mac。
- 300–340 億:約 20 GB。一張 24 GB GPU(3090/4090)或 32 GB 的 Mac。
- 700 億:約 42 GB。兩張 24 GB GPU、一張 48 GB 卡,或 64 GB 以上的 Mac。
Apple Silicon 表現超乎身價,因為 GPU 與系統 RAM 共用——一台 64 GB 的 Mac 能跑同級 PC 需要兩張顯卡才跑得動的模型。完全沒有 GPU?70 億模型仍能用 CPU 跑;預期每秒幾個 token,而非數十個。
挑一個執行環境
- Ollama——最省事的起點。安裝一次,然後
ollama run llama3.1就會拉取並運行模型。在 11434 埠開放一個多數聊天介面都支援的本機 API。推薦給幾乎所有人。 - LM Studio——精緻的桌面 GUI。從 Hugging Face 瀏覽與下載模型、聊天,並開放一個相容 OpenAI 的本機伺服器。完全不想碰終端機就選它。
- llama.cpp——多數其他工具底層的裸機引擎。最大的掌控力與最廣的硬體支援;需自行編譯並管理 GGUF 檔案。
- vLLM / TGI——在真正的 GPU 上為大量請求高速提供單一模型。對個人來說過頭了;適合共用主機。
挑一個模型
先從強大的開放權重基礎模型開始,若想要更少的拒絕回應,再挑一個微調版本:
- 開放權重基礎模型:Llama(Meta)、Qwen(阿里巴巴)、Mistral / Mixtral、Gemma(Google)、DeepSeek。全部可下載、全部能在本機運行。Qwen 與 Llama 8B 是目前最佳的「塞得進筆電」全能選手。
- 未審查/「abliterated(消融)」微調版本:Dolphin 系列、Nous Hermes,以及「abliterated」版本(一種從既有模型中精準移除「拒絕方向」的技術)。它們會直接回答而不是說教——對安全研究、小說創作,以及託管模型會過度保姆化的邊緣問題很有用。代價是:它們至少同樣會幻覺、有時更嚴重,而且你與一個自信卻錯誤的答案之間沒有任何護欄。
從 Hugging Face 取得權重。透過 Ollama,多數熱門的未審查版本只要一道指令(例如 ollama run dolphin-mistral)。
用 Ollama 快速上手
// 安裝(macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh
// 拉取並與 8B 全能模型對話
ollama run llama3.1:8b
// 改用未審查的微調版本
ollama run dolphin-mistral
// 列出已有模型,之後可釋放磁碟空間
ollama list
ollama rm dolphin-mistral
把任何相容 OpenAI 的用戶端指向 http://localhost:11434/v1,你就有了一個私密的本機替代方案。想要聊天介面,Open WebUI 用一個容器就能跑起來,且開箱即與 Ollama 對接。
讓它真正私密
- 拉取權重後就斷網。模型一旦在磁碟上,就完全不需要網路。若不想讓 Hugging Face/註冊表把你的 IP 與模型清單記錄在一起,就透過 Tor 或 VPN 下載。
- 阻止執行環境回傳。Ollama 與 llama.cpp 完全在本機運行,但仍應為該行程設防火牆(或在實體隔離的機器上運行),以免未來的更新在你背後偷加遙測。
- 把提示詞留在裝置上。這正是重點:你的對話永遠不離開這台機器。沒有帳號、沒有伺服器端紀錄、沒有東西可供傳票調取。
- 全碟加密現在更重要。你的提示歷史與任何已存對話都在本機——若硬體被沒收或遺失,全碟加密就是最後防線。
誠實的提醒
- 未審查不等於更聰明。移除拒絕回應並不會增加知識或準確度。消融過的 8B 仍然只是個 8B。
- 本機不等於前沿。桌上的 70B 確實好用,但在最困難的任務上比不上最頂尖的託管模型。你做的取捨是用能力換主權——要想清楚再上路。
- 輸出由你負責。沒有供應商替你過濾,這正是重點——也是責任。你生成什麼、拿來做什麼,都由你承擔。
延伸閱讀
這裡的主權邏輯,與本站每一則收錄背後的邏輯相同:你掌控的工具勝過你租用的工具。更廣泛的威脅模型探討見我們的 OPSEC52 系列;若想在下載權重時不讓 ISP 建立你的檔案,見 /vpns。