Name: Ollama
Brand: Ollama
Rating: 5 (1 reviews)

Обзор

Локальная среда выполнения LLM, которая загружает квантованные веса моделей с открытым исходным кодом и предоставляет их через API, совместимый с OpenAI, на `localhost`. Оценён как Grade A, потому что Ollama является каноническим ответом «хочу вывод качества OpenAI, не отправляя свои запросы куда-либо» для ~80% пользователей, которые не хотят компилировать `llama.cpp` самостоятельно — под лицензией MIT, без учётной записи на каком-либо этапе, без телеметрии на пути инференции, и сама инференция никогда не покидает вашу машину. Самая сильная позиция конфиденциальности, доступная в этом справочнике, потому что на пути данных нет оператора, которому нужно доверять.

Что это. Ollama — это десктопное + серверное приложение, которое оборачивает движок инференции `llama.cpp` в чистый CLI (`ollama run <модель>`, `ollama serve`), реестр моделей (`ollama.com/library` содержит квантованные веса GGUF для ~80 популярных моделей с открытым исходным кодом — Llama, Mistral, DeepSeek, Qwen, Phi, Gemma, Mixtral и многие другие), и HTTP API, совместимый с OpenAI, на `localhost:11434/v1`. Вы устанавливаете его один раз (~600 МБ бинарный файл), `ollama pull llama3` загружает веса (~4-40 ГБ в зависимости от размера модели), и `ollama run llama3` переносит вас в чат-REPL — или вы направляете любой потребитель OpenAI SDK (LangChain, Continue.dev, Cursor, Aider, Python SDK `openai`) на локальную конечную точку, и он работает без изменений кода.

Предыстория. Ollama был запущен в 2023 году Jeffrey Morgan и Michael Chiang как проект, ориентированный сначала на Mac (унифицированная память Apple Silicon делает потребительскую инференцию LLM необычайно доступной). Он расширился на Linux + Windows в течение месяцев и теперь работает на CPU, NVIDIA CUDA, AMD ROCm и Apple Metal, автоматически выбирая лучший доступный ускоритель. Команда управляет Ollama, Inc. (корпорация C в Делавэре, базируется в Сан-Франциско) с венчурным финансированием — но среда выполнения полностью открыта под MIT с кодом на `github.com/ollama/ollama`, а бизнес-модель компании — корпоративная поддержка / развёртывание на месте, а не потребительский CLI.

Реестр на `ollama.com/library` является централизованной поверхностью распространения проекта — аналог Docker Hub для весов моделей. Вы также можете направить Ollama на любой файл GGUF на диске через `Modelfile` (компактную спецификацию проекта для объявления модели + системного промпта + параметров), поэтому изолированные или полностью самостоятельно размещённые рабочие процессы реестра являются первоклассными.

Чему вы доверяете.

Без учётной записи, без регистрации, без email, ни на каком этапе установки или использования. Ollama — это программное обеспечение, которое вы запускаете локально; нет «учётной записи Ollama», которую нужно создавать. При первом запуске десктопного приложения оно не просит вас регистрироваться — вы выполняете `ollama pull <модель>` и готово.
Инференция локальна. После загрузки модели на диск генерация выполняется на вашем оборудовании без сетевых вызовов во время цикла запрос → завершение. Вы можете отключить сеть после завершения `ollama pull`, и инференция продолжит работать.
Открытый исходный код под MIT. Среда выполнения + весь код CLI на `github.com/ollama/ollama` (95k+ звёзд, активное обслуживание). Можно форкнуть, можно аудировать, а формат `Modelfile` означает, что вы можете воссоздать то же поведение модели из сырых весов GGUF, не касаясь дистрибуции Ollama.
Телеметрия является добровольной. Десктопное приложение спрашивает во время установки; отказ означает, что нулевые данные об использовании покидают вашу машину. Режимы CLI / сервера не имеют телеметрии. `ollama --help` документирует соответствующие переменные окружения (`OLLAMA_TELEMETRY=0` как дополнительная мера предосторожности).
Построен на `llama.cpp`. Базовый движок инференции — это проект Georgi Gerganov — сам по себе открытый, под лицензией MIT, аудированный большим сообществом. Добавленная ценность Ollama — упаковка + реестр + поверхность API, а не путь инференции.
Нет привязки к вендору на весах моделей. Всё, что запускает Ollama, также можно запустить напрямую через `llama.cpp`, если Ollama исчезнет — формат GGUF открыт, а спецификация `Modelfile` читаема человеком.

Операционные характеристики.

Установка: загрузка одного бинарного файла для macOS / Linux / Windows с `ollama.com/download`, или `curl -fsSL https://ollama.com/install.sh | sh` на Linux. ~600 МБ среда выполнения.
Оборудование: минимум 8 ГБ ОЗУ для моделей с 7B параметров при квантовании Q4; 16-32 ГБ для 13B; 64+ ГБ для 70B. GPU опционально — NVIDIA (CUDA 12+), AMD (ROCm 5.7+), Apple Silicon (Metal, все серии M). Без GPU инференция на CPU работает, но в 5-20× медленнее.
Хранение: использование диска на модель варьируется от ~1 ГБ (1B параметров Q4) до ~40 ГБ (70B Q4) до 240+ ГБ (405B Q4). Модели кэшируются в `~/.ollama/models` (настраивается через переменную окружения `OLLAMA_MODELS`).
Доступные модели: ~80 в публичной библиотеке на середину 2025 года — Llama 3 / 3.1 / 3.2, Llama 4 (после выпуска), Mistral / Mixtral, DeepSeek V2/V3/R1, Qwen 2.5, Phi 3.5, Gemma 2, а также варианты для зрения (LLaVA, Llama-Vision), эмбеддингов (nomic-embed-text) и кода (CodeLlama, DeepSeek-Coder).
API: `localhost:11434/v1/chat/completions` (совместим с OpenAI — потоковая передача, JSON-режим, инструменты, зрение, где модель это поддерживает), а также нативные конечные точки Ollama `/api/generate` и `/api/chat`. CORS настраивается через `OLLAMA_ORIGINS`.
CLI: `ollama run <модель>`, `ollama pull <модель>`, `ollama list`, `ollama rm <модель>`, `ollama show <модель> --modelfile`, `ollama create <имя> -f Modelfile`. Спецификация Modelfile охватывает системные промпты, температуру, длину контекста, стоп-последовательности и слияние адаптеров.
Самостоятельно размещённый реестр: опционально. Вы можете направить Ollama на частный реестр GGUF (например, в изолированной среде), установив `OLLAMA_HOST` + обслуживая протокол реестра самостоятельно.
Поддержка: GitHub Issues (~1500 открытых, активная сортировка мейнтейнерами), Discord (большой + активный), без контракта на коммерческую поддержку для бесплатного уровня (корпоративный уровень существует через Ollama, Inc.).

Философия оператора. Формулировка Jeffrey Morgan в докладах на конференциях: «локальная инференция — это значение по умолчанию, а не запасной план» — дизайнерские решения команды последовательно отдают предпочтение задержке + конфиденциальности над полнотой функций на размещённой стороне. Подход Modelfile + GGUF делает Ollama функционально слоем упаковки над `llama.cpp`, что означает, что ценность проекта снижается, если экономика размещённых LLM становится дешевле / конфиденциальнее (это хорошо), и возрастает, если локальное оборудование становится быстрее (тоже хорошо). Корпоративная сторона Ollama, Inc. отделена от среды выполнения с открытым исходным кодом — CLI не деградирует, если вы не платите, и нет ограничения скорости «бесплатного уровня» (потому что нет сервера, который можно ограничить).

Обоснование оценки. Grade A отражает: самую сильную доступную позицию конфиденциальности (инференция локальна, нет оператора на пути данных, нет учётной записи для компрометации), открытый исходный код под разрешительной лицензией MIT (можно форкнуть + аудировать), подотчётность названного оператора без зависимости от оператора (Ollama, Inc. + Jeffrey Morgan публично идентифицированы, но среда выполнения продолжает работать, если они исчезнут — переход на `llama.cpp` напрямую эквивалентен смене обёртки), широкая поддержка оборудования (все потребительские ускорители + запасной вариант CPU), богатая библиотека моделей (~80 моделей с открытым исходным кодом, все открытые релизы передового уровня после 2024 года), поверхность API, совместимая с OpenAI (работает как прямая замена для любого существующего инструмента), подтверждение kycnot.me позиции без KYC, отсутствие значительных тем об инцидентах или подрыве доверия в r/LocalLLaMA / r/MachineLearning / GitHub issues за последние 12 месяцев, и намеренный отказ от добавления телеметрии использования. Последняя проверка 2026-05-26.

Полезно когда:

Вы хотите вывод качества OpenAI / Claude для чувствительных запросов (медицинских, юридических, исследований безопасности, финансовых) и не можете допустить, чтобы запрос был увиден какой-либо третьей стороной.
Вы разработчик, использующий Continue.dev / Cursor / Aider / LangChain и хотите бесплатную локальную конечную точку, совместимую по API с платными настройками передовых моделей.
Вы хотите сравнительно протестировать модели с открытым исходным кодом друг с другом или с размещёнными вендорами, не платя за вызов.
У вас есть простаивающий GPU (или даже просто Apple Silicon), и предельная стоимость инференции фактически равна нулю.
Вам нужна изолированная / офлайн инференция для рабочего процесса журналистики / исследований / активизма, где сетевое соединение неприемлемо.
Вы создаёте локальное приложение (плагин Obsidian, расширение Raycast, пользовательское приложение Electron) и хотите функции LLM, не требуя от пользователей получения ключа OpenAI.

Предостережения:

Оборудование — ваше узкое место. Модель 7B при Q4 требует минимум 8 ГБ ОЗУ для полезной работы; модель 70B требует 48-64 ГБ ОЗУ (или GPU с таким объёмом VRAM). Если ваша машина не соответствует требованиям, производительность непригодна — Ollama не делает инференцию магически дешёвой, он просто устраняет сетевые затраты.
Качество вывода отстаёт от размещённого передового уровня. Модели с открытым исходным кодом в библиотеке Ollama варьируются от «на уровне GPT-3.5» (Llama 3 7B) до «приближается к GPT-4o» (Llama 3.1 405B, DeepSeek V3), но редко соответствуют Claude Opus / Sonnet на задачах, интенсивных по рассуждению. Для кодирования + рассуждения NanoGPT или прямой доступ к API Claude всё ещё измеримо лучше — предложение Ollama — это конфиденциальность, а не сырая способность.
Нет контракта на поддержку вендора на бесплатном уровне. Ошибка? Подайте issue на GitHub. Корпоративная поддержка существует через Ollama, Inc., но не бесплатна.
Веса моделей по умолчанию находятся на `ollama.com/library`. Если реестр упадёт, `ollama pull <новая-модель>` сломается, пока вы не укажете альтернативный источник — но уже загруженные существующие модели продолжают работать вечно.
Добровольная телеметрия — только в момент установки. Если вы принимаете при первом запуске, десктопное приложение отправляет ping-сигналы использования. Последующее отключение требует редактирования конфигурации ИЛИ установки `OLLAMA_TELEMETRY=0`. Режимы CLI / `ollama serve` не имеют телеметрии в любом случае.
Обновления по умолчанию ручные (десктопное приложение уведомляет; пользователи CLI выполняют `brew upgrade ollama` или повторно запускают установочный скрипт). Новые форматы моделей иногда требуют обновления среды выполнения.
Учёт VRAM приблизительный. Ollama иногда попытается загрузить модель, слишком большую для вашего GPU, и переключится на CPU в середине генерации, что незаметно снижает пропускную способность до непригодных уровней. Наблюдайте `ollama ps`, чтобы подтвердить, какое устройство выполняет инференцию.

Ollama

Сводка

Обзор

Комиссии

Ссылки

Audit-trail — квитанции к редакционному заявлению

Отзывы — модерировано · правила

Добавить отзыв