xmr.club
EN 中文 ES RU
★ 可用成為首頁贊助— 1.5 XMR/月 · 全站 1 個版位 · 首頁、每個分類、每個服務商頁頂部橫幅
/ai · 已驗證 2026-05-26

llama.cpp

A

開源 LLM 的參考 C++ 推理引擎。Ollama、LM Studio、Jan、KoboldCpp 的基礎層。

一覽

等級
A ()
KYC 立場
匿名註冊
手續費
Free · MIT · single binary · CPU + CUDA + ROCm + Metal + Vulkan
最後驗證
2026-05-26
營運起始
2023 · 3y — llama.cpp launched 2023 by Georgi Gerganov (ggml.ai team). github.com WHOIS 2007 is the host platform.
A 為什麼是 A 級?

Best evidence tier. Signup tested end-to-end by xmr.club curator — deposit + withdrawal + edge cases. No-KYC posture verified at retail volume. Last_verified within 12 months.

完整細則 + 7 步驗證流程見 /methodology.

評測

開源 LLM 的參考 C++ 推理引擎 — Ollama / LM Studio / Jan / KoboldCpp / llamafile 全部封裝的專案,由發明了開源權重生態系統標準化的 GGUF 模型格式的開發者創建。評級為 Grade A,因為 `llama.cpp` 是不可簡化的本地推理層:資料路徑上無運營者、MIT 授權、單一二進位檔安裝、整個過程中零帳號、原生加速支援 CPU + NVIDIA CUDA + AMD ROCm + Apple Metal + Vulkan。本目錄中最強的隱私姿態,與 Ollama(位於上方一個封裝層)並列,並且當您想要對量化、上下文窗口、批次大小和卸載分割的最大控制時的正確答案 — 這些正是 Ollama 所抽象掉的東西。

它是什麼。 `llama.cpp` 是一個單一儲存庫的 C++ 專案(`github.com/ggml-org/llama.cpp`,70k+ 星),載入量化後的 GGUF 模型權重並對其執行 LLM 推理。它提供:

  • 一個 CLI(`./llama-cli`)用於一次性提示和互動式 REPL
  • 一個 HTTP 伺服器(`./llama-server`)提供 OpenAI 相容的 `/v1/chat/completions` 端點
  • 一個可從任何主語言連結的 C++ 函式庫(Python 透過 `llama-cpp-python`,Rust 透過 `llama-rs`,Go、Node 等)
  • `convert_hf_to_gguf.py` 工具鏈用於將任何 Hugging Face 模型轉換為 GGUF
  • 生成從 `Q2_K` 到 `Q8_0` 到完整 FP16 / BF16 每個量化等級的 `quantize` 二進位檔

Ollama 是「消費者應用」封裝層,而 `llama.cpp` 是引擎。每個 Ollama 功能(模型服務、提示模板、GPU 卸載、函數呼叫)底層都是 `llama.cpp`。如果您想跳過封裝層 — 擁有自己的模型檔案、按部署控制量化、將函式庫連結到自訂伺服器 — 這就是該專案。

背景。Georgi Gerganov 於 2023 年 3 月啟動,作為將 Meta 的 LLaMA 模型移植到 C++ 的專案,最初針對 Apple Silicon Mac。該專案迅速成為本地執行開源權重 LLM 的事實參考實現 — 到 2024 年中,整個本地 LLM 生態系統(Ollama、LM Studio、KoboldCpp、GPT4All、llamafile、OpenWebUI 的本地後端、vLLM 的 CPU 模式)都已標準化採用 Gerganov 的 GGUF 模型格式和他的量化演算法。

`llama.cpp` 由一個開源集體透過 `ggml-org` GitHub 組織維護(截至 2025 年中約 600 名貢獻者)。Gerganov 還運營 ggml.ai 公司(保加利亞索菲亞),該公司提供商業支援並向上遊貢獻推理引擎改進,但程式碼庫仍保持 MIT 授權和社群治理 — 無 CLA、無版權轉讓、無企業分支。

您信任什麼。

  • 推理是本機的。 一旦您在磁碟上擁有 GGUF,生成完全在您的硬體上執行。二進位檔在推理期間不進行任何網路呼叫。您可以在離線機器上運行 `llama-server` 並永久使用它。
  • 無帳號、無註冊、無註冊庫依賴。 您從 GitHub 下載原始碼/發行版二進位檔,構建(或解壓預編譯版本),指向 GGUF 檔案。不存在「llama.cpp 帳號」。不進行任何上遊查詢。
  • MIT 授權,約 70k 星,約 600 名貢獻者。 任何人的提交都可以在 `github.com/ggml-org/llama.cpp` 審計。錯誤修復在嚴重問題被報告後的幾小時內發布。多家公司(Mozilla、ggml.ai、個人)贊助維護者。
  • 自帶模型權重。 GGUF 檔案來自 Hugging Face(`hf.co/<org>/<model>-GGUF`)、TheBloke 的存檔、運營者自己從 `safetensors` 檢查點進行的轉換,或您信任的任何第三方。沒有中央註冊庫控制您可以執行什麼。
  • 可重現構建。 原始碼在任何 POSIX 系統上使用標準 `cmake` + `make` 乾淨編譯;`release` tarball 包含原始碼 + 二進位檔。您可以透過從標記的原始碼重新構建來驗證二進位檔。
  • 遙測為零。 無分析、無使用 ping、無錯誤報告離開您的機器。該專案沒有可以收集資料的運營者,即使他們想收集也不行。

運營規格。

  • 安裝 — `git clone https://github.com/ggml-org/llama.cpp && cmake -B build && cmake --build build`(現代機器上約 5 分鐘)。或從 GitHub 下載發行版 tarball。每個發行版提供預編譯的 Linux / macOS / Windows 二進位檔。
  • 硬體 — 小型(1-3B)模型在 Q4 下最低 4 GB RAM;7B 約 8 GB;13B 需 16-32 GB;70B 需 64+ GB。GPU 可選。加速路徑:NVIDIA CUDA、AMD ROCm + Vulkan、Apple Metal、Intel SYCL、Vulkan(跨供應商)。僅 CPU 推理在 x86-64 + ARM(包括透過 Android 移植的手機)上運作。
  • 模型格式 — GGUF(原生,所有量化等級從 `IQ1_S` 1.5-bit 到 `F32` 32-bit 浮點)。提供來自 Hugging Face `safetensors`、PyTorch `.bin`、原始 `LLaMA` 檢查點的轉換器。
  • CLI 標誌 — `./llama-cli -m model.gguf -p "您的提示" -n 256 --temp 0.7 -ngl 35 -c 4096`。`-ngl` 控制 GPU 層卸載(7B/Q4 上的完全 GPU 為 33-99)。`-c` 設定上下文長度。`--cache-type-k Q8_0 --cache-type-v Q8_0` 為更長上下文量化 KV 快取。
  • 伺服器模式 — `./llama-server -m model.gguf --port 8080 --host 0.0.0.0 -c 8192 -ngl 99`。提供 `/completion`、`/chat/completions`(OpenAI 相容)、`/embeddings`、`/v1/audio/transcriptions`(whisper.cpp 整合),以及根路徑的內建聊天 UI。
  • Python 繫結 — `pip install llama-cpp-python` 為您提供 Python API 下的相同引擎;LangChain、LlamaIndex、自訂 RAG 管道的首選。
  • 採樣 — top-k、top-p、min-p、locally-typical、mirostat、XTC、DRY、溫度調節。該領域發明的每個現代採樣器,都作為 CLI 標誌提供。
  • 推測解碼 — 草稿模型加速(`--model-draft`),在有能力硬體上實現 1.5-3× 更快的生成。
  • 支援 — GitHub Issues(活躍,處理數週的積壓)、Discord、專案的討論區。免費層無商業 SLA;`ggml.ai` 銷售商業服務。

運營者哲學。 Gerganov 明確表示 `llama.cpp` 是為「所有人、所有地方」構建的 — 明確的目標是讓 LLM 推理在用戶擁有的任何硬體上工作,包括手機、微控制器和僅 CPU 的伺服器。該專案對 `IQ1_S`(1.5-bit)和 `Q2_K`(2-bit)量化的一等支援正是此目標的體現:即使是 70B 模型也可以擠進 16 GB 的 RAM 中,代價是部分品質。底層的 GGML 函式庫是一個單獨維護的張量原語,其他專案(whisper.cpp、stable-diffusion.cpp、bark.cpp)都共享它 — Gerganov 正在構建開放推理基礎設施,而非任何一個應用程式。

評級理由。 Grade A 反映了:本目錄中最強的隱私姿態(推理是本機的、資料路徑上無運營者、無帳號、無遙測)、在寬鬆的開源規範下的 MIT 授權(可分支、可審計、無 CLA)、最廣泛的硬體支援(每個常見平台上的每個消費級加速器 + CPU)、整個本地 LLM 生態系統構建在其上的基礎引擎(Ollama、LM Studio、Jan、KoboldCpp、llamafile 都依賴它 — 可信度向上繼承)、具名運營者責任制但無運營者依賴(Gerganov + ggml.ai 已公開身分,但即使其中任何一方消失,執行環境仍可繼續運作)、過去 12 個月內 r/LocalLLaMA / r/MachineLearning / GitHub issues 中無重大事件,以及活躍維護 — 每月多次發行。最後驗證於 2026-05-26。

何時適用:

  • 您想要對量化等級、KV 快取類型、上下文長度和 GPU 卸載分割的完全控制 — 這些正是 Ollama 所抽象掉的東西。
  • 您正在將 LLM 推理整合到自訂應用程式中(Electron、FFI 繫結、嵌入式系統),需要 C++ 函式庫而非伺服器。
  • 您正在優化絕對最小的二進位檔大小/最小執行時佔用(ZeroMQ + `llama.cpp` 是約 5 MB 的可行推理技術棧)。
  • 您需要 Ollama 不提供的特定採樣器(mirostat、XTC、DRY)。
  • 您想要在 Ollama 不乾淨支援的硬體上執行(僅 Vulkan 的 GPU、Intel SYCL、奇怪的 ARM SoC、您已經在付費的 Hetzner CPU 主機)。
  • 您正在構建/執行基準測試,需要對每個推理參數進行確定性的每次執行控制。

注意事項:

  • 設定是 C++ 開發者級別的。 首次安裝是 `git clone + cmake + make` 約 5 分鐘;對於非開發者,Ollama 的 curl-install + 自動配置是通往相同底層引擎的更友善路徑。
  • 無模型註冊庫。 您自行尋找 GGUF 檔案(Hugging Face 是事實上的儲存庫,但請驗證上傳者;某些量化工作會引入微妙的品質退化)。Ollama 用 `ollama.com/library` 封裝了這一點;`llama.cpp` 不提供。
  • API 表面是功能性的但很精簡。 `localhost:8080/` 的內建聊天 UI 是基礎的 — 適合測試,不適合生產終端用戶。搭配真正的前端(Open WebUI、自訂 React、您自己的東西)。
  • 快速迭代期間的破壞性更改。 該專案每月發布多次發行版,有時會破壞模型相容性(舊版 GGUF 需要針對新版本重新量化)。對於生產環境,請固定發行標籤並在升級前重新測試。
  • GPU 卸載需要正確的構建標誌。 NVIDIA 使用 `cmake -DGGML_CUDA=ON`,AMD 使用 `-DGGML_HIPBLAS=ON`,Apple 使用 `-DGGML_METAL=ON`(macOS 預設)。忘記某個標誌會默默地回退到 CPU,這會摧毀吞吐量。README 記錄了這一點;在假設 GPU 正在工作之前請先檢查。
  • 免費層無供應商支援合約。 錯誤作為 GitHub Issues 提交;嚴肅用戶從 `ggml.ai` 購買商業服務。如果您依賴推理獲取收入,請將該專案與內部問題分類能力配對。
  • `llama.cpp` CLI 在各發行版之間更改 API。 `./main` 在 2024 年中更名為 `./llama-cli`,`./server` 更名為 `./llama-server`,等等。固定到舊二進位檔名稱的腳本需要針對新發行版進行更新。

手續費

Free · MIT · single binary · CPU + CUDA + ROCm + Metal + Vulkan

連結

稽核軌跡 — 編輯主張的收據

  • UPSTREAM 正常 · HTTP 200 · 675ms · 檢查於 8h ago
  • ONION 未列出 .onion 鏡像
  • MANUAL 最後手動驗證 2026-05-26 (<90d)

評論 — 已審核 · 規則

尚無社群評論。當第一個。

新增評論

歡迎誠實、中立的回饋。策展人審核後才會顯示。不需 JS。

必填:評論內容。誠實、具描述性的評論一天內核可。行銷文案、辱罵或攻擊會被退件。每 IP 每日上限 5 筆。