Почему локально и почему сейчас
12 июня 2026 года экспортная директива США заставила Anthropic приостановить доступ к Fable 5 и Mythos 5 для всех иностранных граждан — за ночь, без всякой вины. Изменение политики наверху — и сотни миллионов людей лишились инструмента, на который полагались. Это структурный риск аренды интеллекта у привратника: доступ — это разрешение, а разрешения отзывают, геоблокируют, переоценивают и логируют.
У модели, чьи веса лежат на вашем диске, такой хрупкости нет. Её нельзя отключить директивой, которую вы и не видели, нельзя задушить по скорости или тихо дообучить против вас. Модели с открытыми весами для ИИ — то же, что собственный узел для биткоина: грубее облачного варианта и ваши так, как облачный вариант не сможет быть никогда.
«Нецензурированный» здесь значит две вещи: веса, которые можно запускать без API-шлюза, и дообучения, которые не отказывают на безобидные запросы. Важно и то, и другое — но ни то, ни другое не делает модель умнее или правдивее. Относитесь к выводу как к любому инструменту: полезно, ошибается, и ответственность на вас.
Реальность железа (и приём с квантизацией)
Единственное, что важно, — память: VRAM, если есть GPU, и системная RAM, если нет. Приём, который делает локальные модели практичными, — квантизация: сжатие весов с 16 бит до 4 бит с малой потерей качества. Грубое правило для 4-битной (Q4_K_M) GGUF-модели:
- 7–8 млрд параметров: ~5 ГБ. Работает на ноутбуке, даже на одном CPU (медленно). 8 ГБ VRAM — комфортно.
- 13–14 млрд: ~9 ГБ. GPU на 12 ГБ или Mac на 16 ГБ.
- 30–34 млрд: ~20 ГБ. GPU на 24 ГБ (3090/4090) или Mac на 32 ГБ.
- 70 млрд: ~42 ГБ. Две GPU по 24 ГБ, карта на 48 ГБ или Mac на 64 ГБ+.
Apple Silicon бьёт выше своего класса, потому что GPU делит системную RAM — Mac на 64 ГБ запускает модели, для которых сопоставимому ПК нужны две видеокарты. Совсем нет GPU? 7B всё равно идёт на CPU; ждите несколько токенов в секунду, а не десятки.
Выберите рантайм
- Ollama — самый простой старт. Одна установка, затем
ollama run llama3.1скачивает и запускает модель. Поднимает локальный API на порту 11434, который понимает большинство чат-интерфейсов. Рекомендуется почти всем. - LM Studio — отполированный десктопный GUI. Просматривайте и качайте модели с Hugging Face, общайтесь и поднимайте локальный сервер, совместимый с OpenAI. Лучший выбор, если не хотите терминал.
- llama.cpp — голый движок под большинством остальных. Максимум контроля и самая широкая поддержка железа; собираете сами и сами управляете файлами GGUF.
- vLLM / TGI — чтобы обслуживать одну модель на множество запросов быстро на настоящей GPU. Перебор для одного человека; то, что нужно для общего сервера.
Выберите модель
Начните с сильной базы с открытыми весами, затем выберите дообучение, если хотите меньше отказов:
- Базы с открытыми весами: Llama (Meta), Qwen (Alibaba), Mistral / Mixtral, Gemma (Google), DeepSeek. Все скачиваемы, все работают локально. Qwen и Llama 8B — сегодня лучшие универсалы из тех, что «влезают в ноутбук».
- Нецензурированные / «abliterated» дообучения: серия Dolphin, Nous Hermes и сборки «abliterated» (приём, хирургически удаляющий «направление отказа» из готовой модели). Они отвечают, а не читают нотации — полезно для исследований безопасности, художественных текстов и пограничных вопросов, которые облачная модель нянчит. Цена: они галлюцинируют как минимум не меньше, иногда больше, и между вами и уверенно неверным ответом нет никакого ограждения.
Берите веса с Hugging Face. С Ollama большинство популярных нецензурированных сборок — в одной команде (например, ollama run dolphin-mistral).
Быстрый старт с Ollama
// установка (macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh
// скачать + пообщаться с универсалом на 8B
ollama run llama3.1:8b
// вместо этого — нецензурированное дообучение
ollama run dolphin-mistral
// список того, что есть; позже освободить диск
ollama list
ollama rm dolphin-mistral
Направьте любой OpenAI-совместимый клиент на http://localhost:11434/v1 — и у вас приватная локальная замена. Для чат-интерфейса Open WebUI запускается одним контейнером и общается с Ollama из коробки.
Сделайте по-настоящему приватно
- Скачайте веса, затем уходите офлайн. Как только модель на диске, сеть ей не нужна вовсе. Качайте через Tor или VPN, если предпочитаете, чтобы Hugging Face / реестр не записывали ваш IP рядом со списком моделей.
- Запретите рантайму «звонить домой». Ollama и llama.cpp работают полностью локально, но всё равно поставьте процессу файрвол (или запускайте на изолированной машине), чтобы будущее обновление не добавило телеметрию за вашей спиной.
- Держите промпты на устройстве. В этом весь смысл: ваши разговоры никогда не покидают машину. Без аккаунта, без серверной истории, нечего истребовать повесткой.
- Шифрование диска теперь важнее. История промптов и любые сохранённые чаты лежат локально — полнодисковое шифрование (см. наши гайды по устройствам) — это страховка, если железо изъяли или потеряли.
Честные оговорки
- Нецензурированное не значит умнее. Удаление отказов не добавляет знаний или точности. «Abliterated» 8B — всё ещё 8B.
- Локальное не значит фронтир. 70B у вас на столе реально полезна, но не сравнится с лучшими облачными моделями на самых сложных задачах. Ваш размен — возможности за суверенитет; идите с открытыми глазами.
- Вывод — ваш. Ни один провайдер не фильтрует за вас, в этом и суть — и ответственность. Что вы генерируете и что с этим делаете — на вас.
См. также
Логика суверенитета здесь та же, что стоит за каждой позицией на этом сайте: инструменты, которыми вы управляете, лучше тех, что вы арендуете. Смотрите нашу серию OPSEC52 для более широкой работы с моделями угроз и /vpns, если хотите скачивать веса так, чтобы провайдер не строил ваш профиль.