Name: llama.cpp
Brand: llama.cpp
Rating: 5 (1 reviews)

Обзор

Эталонный движок инференции C++ для LLM с открытым исходным кодом — проект, который оборачивают Ollama / LM Studio / Jan / KoboldCpp / llamafile, созданный разработчиком, который изобрёл формат модели GGUF, на котором стандартизировалась экосистема открытых весов. Оценён как Grade A, потому что `llama.cpp` является несводимым слоем локальной инференции: без оператора на пути данных, под лицензией MIT, установка одного бинарного файла, ноль учётных записей где-либо, нативное ускорение на CPU + NVIDIA CUDA + AMD ROCm + Apple Metal + Vulkan. Самая сильная позиция конфиденциальности, доступная в этом справочнике, совместно с Ollama (который находится на один слой обёртки выше), и правильный ответ, когда вам нужен максимальный контроль над квантованием, контекстным окном, размером пакета и распределением выгрузки — то, что Ollama абстрагирует.

Что это. `llama.cpp` — это проект на C++ в одном репозитории (`github.com/ggml-org/llama.cpp`, 70k+ звёзд), который загружает квантованные веса модели GGUF и выполняет инференцию LLM. Он включает:

CLI (`./llama-cli`) для одноразовых запросов и интерактивного REPL
HTTP-сервер (`./llama-server`), предоставляющий совместимую с OpenAI конечную точку `/v1/chat/completions`
Библиотеку C++, которую можно линковать из любого основного языка (Python через `llama-cpp-python`, Rust через `llama-rs`, Go, Node и т.д.)
Цепочку инструментов `convert_hf_to_gguf.py` для конвертации любой модели Hugging Face в GGUF
Бинарный файл `quantize`, производящий каждый уровень квантования от `Q2_K` до `Q8_0` до полного FP16 / BF16

Ollama — это обёртка «потребительского приложения», а `llama.cpp` — это движок. Каждая функция Ollama (обслуживание моделей, шаблоны промптов, выгрузка на GPU, вызов функций) основана на `llama.cpp`. Если вы хотите пропустить обёртку — владеть своими файлами моделей, контролировать квантование для каждого развёртывания, линковать библиотеку в пользовательский сервер — это тот самый проект.

Предыстория. Запущен в марте 2023 года Georgi Gerganov как порт модели LLaMA от Meta на C++, изначально ориентированный на Mac с Apple Silicon. Проект быстро стал де-факто эталонной реализацией для локального запуска LLM с открытыми весами — к середине 2024 года вся локальная экосистема LLM (Ollama, LM Studio, KoboldCpp, GPT4All, llamafile, локальный бэкенд OpenWebUI, режим CPU vLLM) стандартизировалась на формате модели GGUF Gerganov и его алгоритмах квантования.

`llama.cpp` поддерживается открытым коллективом через организацию GitHub `ggml-org` (~600 участников на середину 2025 года). Gerganov также управляет компанией ggml.ai (София, Болгария), которая предоставляет коммерческую поддержку и вносит улучшения движка инференции в upstream, но кодовая база остаётся под лицензией MIT и управляется сообществом — без CLA, без передачи авторских прав, без корпоративного форка.

Чему вы доверяете.

Инференция локальна. Как только у вас есть GGUF на диске, генерация выполняется полностью на вашем оборудовании. Бинарный файл выполняет ноль сетевых вызовов во время инференции. Вы можете запустить `llama-server` на изолированной машине и использовать его вечно.
Без учётной записи, без регистрации, без зависимости от реестра. Вы загружаете исходный код / релизный бинарный файл с GitHub, собираете (или распаковываете предварительно скомпилированный), указываете на файл GGUF. «Учётной записи llama.cpp» не существует. Никаких запросов к upstream не происходит.
Лицензия MIT, ~70k звёзд, ~600 участников. Аудируйте коммит любого в `github.com/ggml-org/llama.cpp`. Исправления ошибок выпускаются в течение нескольких часов после сообщения о серьёзной проблеме. Несколько компаний (Mozilla, ggml.ai, частные лица) спонсируют мейнтейнеров.
Принесите свои собственные веса модели. Файлы GGUF поступают из Hugging Face (`hf.co/<org>/<model>-GGUF`), архива TheBloke, собственной конвертации оператора из чекпоинта `safetensors` или от любого третьего лица, которому вы доверяете. Нет центрального реестра, контролирующего, что вы можете запускать.
Воспроизводимые сборки. Исходный код чисто компилируется стандартными `cmake` + `make` на любой POSIX-системе; релизные tarball включают исходный код + бинарные файлы вместе. Вы можете проверить бинарный файл, пересобрав из помеченного исходного кода.
Телеметрия равна нулю. Никакой аналитики, никаких ping-сигналов использования, никаких отчётов об ошибках, покидающих вашу машину. У проекта нет оператора, который мог бы собирать данные, даже если бы захотел.

Операционные характеристики.

Установка — `git clone https://github.com/ggml-org/llama.cpp && cmake -B build && cmake --build build` (~5 мин на современной машине). Или скачайте релизный tarball с GitHub. Предварительно скомпилированные бинарные файлы для Linux / macOS / Windows поставляются с каждым релизом.
Оборудование — минимум 4 ГБ ОЗУ для маленьких (1-3B) моделей при Q4; ~8 ГБ для 7B; 16-32 ГБ для 13B; 64+ ГБ для 70B. GPU опционально. Пути ускорения: NVIDIA CUDA, AMD ROCm + Vulkan, Apple Metal, Intel SYCL, Vulkan (кроссплатформенный). Инференция только на CPU работает на x86-64 + ARM (включая телефоны через порт Android).
Форматы моделей — GGUF (нативный, все уровни квантования от `IQ1_S` 1.5-бит до `F32` 32-бит с плавающей точкой). Конвертеры доступны из `safetensors` Hugging Face, `.bin` PyTorch, оригинальных чекпоинтов `LLaMA`.
Флаги CLI — `./llama-cli -m model.gguf -p "ваш промпт" -n 256 --temp 0.7 -ngl 35 -c 4096`. `-ngl` управляет выгрузкой слоёв на GPU (33-99 для полного GPU на 7B/Q4). `-c` устанавливает длину контекста. `--cache-type-k Q8_0 --cache-type-v Q8_0` квантует KV-кэш для более длинного контекста.
Режим сервера — `./llama-server -m model.gguf --port 8080 --host 0.0.0.0 -c 8192 -ngl 99`. Предоставляет `/completion`, `/chat/completions` (совместим с OpenAI), `/embeddings`, `/v1/audio/transcriptions` (интеграция whisper.cpp) и встроенный чат-интерфейс в корне.
Привязки Python — `pip install llama-cpp-python` даёт вам тот же движок под Python API; первый класс для LangChain, LlamaIndex, пользовательских RAG-пайплайнов.
Сэмплирование — top-k, top-p, min-p, locally-typical, mirostat, XTC, DRY, температурное формирование. Каждый современный сэмплер, изобретённый в этой области, представлен в виде флагов CLI.
Спекулятивное декодирование — ускорение черновой модели (`--model-draft`) для в 1.5-3× более быстрой генерации на способном оборудовании.
Поддержка — GitHub Issues (активны, обрабатывается отставание в несколько недель), Discord, вкладка обсуждений проекта. Без коммерческого SLA на бесплатном уровне; `ggml.ai` продаёт коммерческие услуги.

Философия оператора. Gerganov ясно выразил, что `llama.cpp` создан для «всех, везде» — явная цель состоит в том, чтобы заставить инференцию LLM работать на любом оборудовании, которое есть у пользователя, включая телефоны, микроконтроллеры и серверы только с CPU. Первоклассная поддержка проектом квантования `IQ1_S` (1.5-бит) и `Q2_K` (2-бит) является следствием этого: даже модель 70B может поместиться в 16 ГБ ОЗУ ценой некоторого качества. Библиотека GGML, лежащая в основе, является отдельно поддерживаемым тензорным примитивом, который другие проекты (whisper.cpp, stable-diffusion.cpp, bark.cpp) все разделяют — Gerganov строит открытый субстрат инференции, а не какое-то одно приложение.

Обоснование оценки. Grade A отражает: самую сильную позицию конфиденциальности в справочнике (инференция локальна, без оператора на пути данных, без учётной записи, без телеметрии), лицензию MIT под разрешительными нормами открытого исходного кода (можно форкнуть, аудировать, без CLA), самую широкую поддержку оборудования (каждый потребительский ускоритель + CPU на каждой распространённой платформе), фундаментальный движок, на котором построена вся локальная экосистема LLM (Ollama, LM Studio, Jan, KoboldCpp, llamafile зависят от него — доверие наследуется вверх), подотчётность названного оператора без зависимости от оператора (Gerganov + ggml.ai публично идентифицированы, но среда выполнения продолжает работать, если кто-либо исчезнет), отсутствие серьёзных инцидентов в r/LocalLLaMA / r/MachineLearning / GitHub issues за последние 12 месяцев, и активное обслуживание — несколько релизов в месяц. Последняя проверка 2026-05-26.

Полезно когда:

Вам нужен полный контроль над уровнем квантования, типом KV-кэша, длиной контекста и распределением выгрузки на GPU — то, что Ollama абстрагирует.
Вы интегрируете инференцию LLM в пользовательское приложение (Electron, привязка FFI, встроенная система) и нуждаетесь в библиотеке C++, а не в сервере.
Вы оптимизируете для абсолютно минимального размера бинарного файла / минимального потребления runtime (ZeroMQ + `llama.cpp` — жизнеспособный стек инференции в ~5 МБ).
Вам нужен конкретный сэмплер (mirostat, XTC, DRY), который Ollama не предоставляет.
Вы хотите запускать на оборудовании, которое Ollama не поддерживает чисто (только Vulkan GPU, Intel SYCL, необычные ARM SoC, уже оплаченный вами сервер Hetzner CPU).
Вы строите/запускаете бенчмарки и нуждаетесь в детерминированном контроле каждого параметра инференции для каждого запуска.

Предостережения:

Настройка на уровне разработчика C++. Первая установка — `git clone + cmake + make` и ~5 минут; для не-разработчиков установка curl + автоконфигурация Ollama — более дружественный путь к тому же базовому движку.
Нет реестра моделей. Вы самостоятельно ищете файлы GGUF (Hugging Face — де-факто репозиторий, но проверяйте загрузчика; некоторые работы по квантованию вносят subtle регрессии качества). Ollama оборачивает это с помощью `ollama.com/library`; `llama.cpp` — нет.
Поверхность API функциональна, но минималистична. Встроенный чат-интерфейс на `localhost:8080/` — базовый — подходит для тестирования, но не для конечных пользователей в production. Сочетайте с настоящим фронтендом (Open WebUI, пользовательский React, ваше собственное решение).
Ломающие изменения во время быстрой итерации. Проект выпускает несколько релизов в месяц и иногда ломает совместимость моделей (старые GGUF требуют переквантования под новые версии). Для production зафиксируйте тег релиза и перетестируйте перед обновлением.
Выгрузка на GPU требует правильных флагов сборки. `cmake -DGGML_CUDA=ON` для NVIDIA, `-DGGML_HIPBLAS=ON` для AMD, `-DGGML_METAL=ON` (по умолчанию на macOS) для Apple. Забытый флаг молча переключает на CPU, что разрушает пропускную способность. README документирует это; проверьте перед тем, как предполагать, что GPU работает.
Нет контракта на поддержку вендора на бесплатном уровне. Ошибки подаются как GitHub Issues; серьёзные пользователи покупают коммерческие услуги у `ggml.ai`. Сочетайте проект с внутренней возможностью сортировки, если вы зависите от инференции для дохода.
CLI `llama.cpp` меняет API между релизами. `./main` был переименован в `./llama-cli` в середине 2024 года, `./server` в `./llama-server` и т.д. Скрипты, привязанные к старым именам бинарных файлов, нуждаются в обновлении для новых релизов.

llama.cpp

Сводка

Обзор

Комиссии

Ссылки

Audit-trail — квитанции к редакционному заявлению

Отзывы — модерировано · правила

Добавить отзыв