Name: llama.cpp
Brand: llama.cpp
Rating: 5 (1 reviews)

評測

開源 LLM 的參考 C++ 推理引擎 — Ollama / LM Studio / Jan / KoboldCpp / llamafile 全部封裝的專案，由發明了開源權重生態系統標準化的 GGUF 模型格式的開發者創建。評級為 Grade A，因為 `llama.cpp` 是不可簡化的本地推理層：資料路徑上無運營者、MIT 授權、單一二進位檔安裝、整個過程中零帳號、原生加速支援 CPU + NVIDIA CUDA + AMD ROCm + Apple Metal + Vulkan。本目錄中最強的隱私姿態，與 Ollama（位於上方一個封裝層）並列，並且當您想要對量化、上下文窗口、批次大小和卸載分割的最大控制時的正確答案 — 這些正是 Ollama 所抽象掉的東西。

它是什麼。 `llama.cpp` 是一個單一儲存庫的 C++ 專案（`github.com/ggml-org/llama.cpp`，70k+ 星），載入量化後的 GGUF 模型權重並對其執行 LLM 推理。它提供：

一個 CLI（`./llama-cli`）用於一次性提示和互動式 REPL
一個 HTTP 伺服器（`./llama-server`）提供 OpenAI 相容的 `/v1/chat/completions` 端點
一個可從任何主語言連結的 C++ 函式庫（Python 透過 `llama-cpp-python`，Rust 透過 `llama-rs`，Go、Node 等）
`convert_hf_to_gguf.py` 工具鏈用於將任何 Hugging Face 模型轉換為 GGUF
生成從 `Q2_K` 到 `Q8_0` 到完整 FP16 / BF16 每個量化等級的 `quantize` 二進位檔

Ollama 是「消費者應用」封裝層，而 `llama.cpp` 是引擎。每個 Ollama 功能（模型服務、提示模板、GPU 卸載、函數呼叫）底層都是 `llama.cpp`。如果您想跳過封裝層 — 擁有自己的模型檔案、按部署控制量化、將函式庫連結到自訂伺服器 — 這就是該專案。

背景。 由 Georgi Gerganov 於 2023 年 3 月啟動，作為將 Meta 的 LLaMA 模型移植到 C++ 的專案，最初針對 Apple Silicon Mac。該專案迅速成為本地執行開源權重 LLM 的事實參考實現 — 到 2024 年中，整個本地 LLM 生態系統（Ollama、LM Studio、KoboldCpp、GPT4All、llamafile、OpenWebUI 的本地後端、vLLM 的 CPU 模式）都已標準化採用 Gerganov 的 GGUF 模型格式和他的量化演算法。

`llama.cpp` 由一個開源集體透過 `ggml-org` GitHub 組織維護（截至 2025 年中約 600 名貢獻者）。Gerganov 還運營 ggml.ai 公司（保加利亞索菲亞），該公司提供商業支援並向上遊貢獻推理引擎改進，但程式碼庫仍保持 MIT 授權和社群治理 — 無 CLA、無版權轉讓、無企業分支。

您信任什麼。

推理是本機的。 一旦您在磁碟上擁有 GGUF，生成完全在您的硬體上執行。二進位檔在推理期間不進行任何網路呼叫。您可以在離線機器上運行 `llama-server` 並永久使用它。
無帳號、無註冊、無註冊庫依賴。 您從 GitHub 下載原始碼／發行版二進位檔，構建（或解壓預編譯版本），指向 GGUF 檔案。不存在「llama.cpp 帳號」。不進行任何上遊查詢。
MIT 授權，約 70k 星，約 600 名貢獻者。 任何人的提交都可以在 `github.com/ggml-org/llama.cpp` 審計。錯誤修復在嚴重問題被報告後的幾小時內發布。多家公司（Mozilla、ggml.ai、個人）贊助維護者。
自帶模型權重。 GGUF 檔案來自 Hugging Face（`hf.co/<org>/<model>-GGUF`）、TheBloke 的存檔、運營者自己從 `safetensors` 檢查點進行的轉換，或您信任的任何第三方。沒有中央註冊庫控制您可以執行什麼。
可重現構建。 原始碼在任何 POSIX 系統上使用標準 `cmake` + `make` 乾淨編譯；`release` tarball 包含原始碼 + 二進位檔。您可以透過從標記的原始碼重新構建來驗證二進位檔。
遙測為零。 無分析、無使用 ping、無錯誤報告離開您的機器。該專案沒有可以收集資料的運營者，即使他們想收集也不行。

運營規格。

安裝 — `git clone https://github.com/ggml-org/llama.cpp && cmake -B build && cmake --build build`（現代機器上約 5 分鐘）。或從 GitHub 下載發行版 tarball。每個發行版提供預編譯的 Linux / macOS / Windows 二進位檔。
硬體 — 小型（1-3B）模型在 Q4 下最低 4 GB RAM；7B 約 8 GB；13B 需 16-32 GB；70B 需 64+ GB。GPU 可選。加速路徑：NVIDIA CUDA、AMD ROCm + Vulkan、Apple Metal、Intel SYCL、Vulkan（跨供應商）。僅 CPU 推理在 x86-64 + ARM（包括透過 Android 移植的手機）上運作。
模型格式 — GGUF（原生，所有量化等級從 `IQ1_S` 1.5-bit 到 `F32` 32-bit 浮點）。提供來自 Hugging Face `safetensors`、PyTorch `.bin`、原始 `LLaMA` 檢查點的轉換器。
CLI 標誌 — `./llama-cli -m model.gguf -p "您的提示" -n 256 --temp 0.7 -ngl 35 -c 4096`。`-ngl` 控制 GPU 層卸載（7B/Q4 上的完全 GPU 為 33-99）。`-c` 設定上下文長度。`--cache-type-k Q8_0 --cache-type-v Q8_0` 為更長上下文量化 KV 快取。
伺服器模式 — `./llama-server -m model.gguf --port 8080 --host 0.0.0.0 -c 8192 -ngl 99`。提供 `/completion`、`/chat/completions`（OpenAI 相容）、`/embeddings`、`/v1/audio/transcriptions`（whisper.cpp 整合），以及根路徑的內建聊天 UI。
Python 繫結 — `pip install llama-cpp-python` 為您提供 Python API 下的相同引擎；LangChain、LlamaIndex、自訂 RAG 管道的首選。
採樣 — top-k、top-p、min-p、locally-typical、mirostat、XTC、DRY、溫度調節。該領域發明的每個現代採樣器，都作為 CLI 標誌提供。
推測解碼 — 草稿模型加速（`--model-draft`），在有能力硬體上實現 1.5-3× 更快的生成。
支援 — GitHub Issues（活躍，處理數週的積壓）、Discord、專案的討論區。免費層無商業 SLA；`ggml.ai` 銷售商業服務。

運營者哲學。 Gerganov 明確表示 `llama.cpp` 是為「所有人、所有地方」構建的 — 明確的目標是讓 LLM 推理在用戶擁有的任何硬體上工作，包括手機、微控制器和僅 CPU 的伺服器。該專案對 `IQ1_S`（1.5-bit）和 `Q2_K`（2-bit）量化的一等支援正是此目標的體現：即使是 70B 模型也可以擠進 16 GB 的 RAM 中，代價是部分品質。底層的 GGML 函式庫是一個單獨維護的張量原語，其他專案（whisper.cpp、stable-diffusion.cpp、bark.cpp）都共享它 — Gerganov 正在構建開放推理基礎設施，而非任何一個應用程式。

評級理由。 Grade A 反映了：本目錄中最強的隱私姿態（推理是本機的、資料路徑上無運營者、無帳號、無遙測）、在寬鬆的開源規範下的 MIT 授權（可分支、可審計、無 CLA）、最廣泛的硬體支援（每個常見平台上的每個消費級加速器 + CPU）、整個本地 LLM 生態系統構建在其上的基礎引擎（Ollama、LM Studio、Jan、KoboldCpp、llamafile 都依賴它 — 可信度向上繼承）、具名運營者責任制但無運營者依賴（Gerganov + ggml.ai 已公開身分，但即使其中任何一方消失，執行環境仍可繼續運作）、過去 12 個月內 r/LocalLLaMA / r/MachineLearning / GitHub issues 中無重大事件，以及活躍維護 — 每月多次發行。最後驗證於 2026-05-26。

何時適用：

您想要對量化等級、KV 快取類型、上下文長度和 GPU 卸載分割的完全控制 — 這些正是 Ollama 所抽象掉的東西。
您正在將 LLM 推理整合到自訂應用程式中（Electron、FFI 繫結、嵌入式系統），需要 C++ 函式庫而非伺服器。
您正在優化絕對最小的二進位檔大小／最小執行時佔用（ZeroMQ + `llama.cpp` 是約 5 MB 的可行推理技術棧）。
您需要 Ollama 不提供的特定採樣器（mirostat、XTC、DRY）。
您想要在 Ollama 不乾淨支援的硬體上執行（僅 Vulkan 的 GPU、Intel SYCL、奇怪的 ARM SoC、您已經在付費的 Hetzner CPU 主機）。
您正在構建／執行基準測試，需要對每個推理參數進行確定性的每次執行控制。

注意事項：

設定是 C++ 開發者級別的。 首次安裝是 `git clone + cmake + make` 約 5 分鐘；對於非開發者，Ollama 的 curl-install + 自動配置是通往相同底層引擎的更友善路徑。
無模型註冊庫。 您自行尋找 GGUF 檔案（Hugging Face 是事實上的儲存庫，但請驗證上傳者；某些量化工作會引入微妙的品質退化）。Ollama 用 `ollama.com/library` 封裝了這一點；`llama.cpp` 不提供。
API 表面是功能性的但很精簡。 `localhost:8080/` 的內建聊天 UI 是基礎的 — 適合測試，不適合生產終端用戶。搭配真正的前端（Open WebUI、自訂 React、您自己的東西）。
快速迭代期間的破壞性更改。 該專案每月發布多次發行版，有時會破壞模型相容性（舊版 GGUF 需要針對新版本重新量化）。對於生產環境，請固定發行標籤並在升級前重新測試。
GPU 卸載需要正確的構建標誌。 NVIDIA 使用 `cmake -DGGML_CUDA=ON`，AMD 使用 `-DGGML_HIPBLAS=ON`，Apple 使用 `-DGGML_METAL=ON`（macOS 預設）。忘記某個標誌會默默地回退到 CPU，這會摧毀吞吐量。README 記錄了這一點；在假設 GPU 正在工作之前請先檢查。
免費層無供應商支援合約。 錯誤作為 GitHub Issues 提交；嚴肅用戶從 `ggml.ai` 購買商業服務。如果您依賴推理獲取收入，請將該專案與內部問題分類能力配對。
`llama.cpp` CLI 在各發行版之間更改 API。 `./main` 在 2024 年中更名為 `./llama-cli`，`./server` 更名為 `./llama-server`，等等。固定到舊二進位檔名稱的腳本需要針對新發行版進行更新。

llama.cpp

一覽

評測

手續費

連結

稽核軌跡 — 編輯主張的收據

評論 — 已審核 · 規則

新增評論