Ejecuta LLMs sin censura en local — el acceso que nadie puede revocar

Por qué en local, por qué ahora

El 12 de junio de 2026 una directiva de control de exportaciones de EE. UU. obligó a Anthropic a suspender el acceso a Fable 5 y Mythos 5 para todo extranjero — de un día para otro, sin necesidad de ninguna falta. Un cambio de política aguas arriba, y cientos de millones de personas perdieron una herramienta de la que dependían. Ese es el riesgo estructural de alquilar inteligencia a un guardián: el acceso es un permiso, y los permisos se revocan, geobloquean, reprecian o registran.

Un modelo cuyos pesos viven en tu propio disco no tiene esa fragilidad. No puede cortarse con una directiva que nunca viste, ni estrangularse, ni ajustarse en silencio en tu contra. Los modelos de pesos abiertos son a la IA lo que correr tu propio nodo es a Bitcoin: más tosco que la opción alojada, y tuyo de un modo que la opción alojada nunca podrá ser.

"Sin censura" aquí significa dos cosas: pesos que puedes ejecutar sin una puerta de API, y ajustes finos que no rechazan peticiones benignas. Ambas importan — pero ninguna hace al modelo más listo ni más veraz. Trata las salidas como las de cualquier herramienta: útiles, falibles y bajo tu responsabilidad.

La realidad del hardware (y el truco de la cuantización)

El único número que importa es la memoria — VRAM si tienes GPU, RAM del sistema si no. El truco que hace prácticos los modelos locales es la cuantización: comprimir los pesos de 16 bits a 4 bits con poca pérdida de calidad. Regla aproximada para un modelo GGUF de 4 bits (Q4_K_M):

7–8B parámetros: ~5 GB. Corre en un portátil, incluso solo CPU (lento). 8 GB de VRAM van cómodos.
13–14B: ~9 GB. Una GPU de 12 GB o un Mac de 16 GB.
30–34B: ~20 GB. Una GPU de 24 GB (3090/4090) o un Mac de 32 GB.
70B: ~42 GB. Dos GPU de 24 GB, una tarjeta de 48 GB, o un Mac de 64 GB+.

Apple Silicon rinde por encima de su categoría porque la GPU comparte la RAM del sistema — un Mac de 64 GB corre modelos para los que un PC comparable necesita dos tarjetas gráficas. ¿Sin GPU? Un 7B aún corre en CPU; espera unos pocos tokens por segundo, no decenas.

Elige un runtime

Ollama — el arranque más fácil. Una instalación, y luego ollama run llama3.1 descarga y ejecuta un modelo. Expone una API local en el puerto 11434 que la mayoría de las UI de chat entienden. Recomendado para casi todos.
LM Studio — una GUI de escritorio pulida. Explora y descarga modelos de Hugging Face, chatea y expón un servidor local compatible con OpenAI. Lo mejor si no quieres terminal.
llama.cpp — el motor a ras de metal bajo casi todos los demás. Máximo control y el soporte de hardware más amplio; lo compilas y gestionas los archivos GGUF tú mismo.
vLLM / TGI — para servir un modelo a muchas peticiones a velocidad en una GPU real. Excesivo para una persona; ideal para una máquina compartida.

Elige un modelo

Empieza con una base de pesos abiertos sólida, y luego elige un ajuste fino si quieres menos rechazos:

Bases de pesos abiertos: Llama (Meta), Qwen (Alibaba), Mistral / Mixtral, Gemma (Google), DeepSeek. Todos descargables, todos corren en local. Qwen y Llama 8B son hoy los mejores todoterreno que "caben en un portátil".
Ajustes finos sin censura / "abliterated": la serie Dolphin, Nous Hermes y las versiones "abliterated" (una técnica que elimina quirúrgicamente la dirección de rechazo de un modelo existente). Responden en vez de sermonear — útiles para investigación de seguridad, ficción y preguntas límite que un modelo alojado sobreprotege. El coste: alucinan al menos igual, a veces más, sin ninguna barrera entre tú y una respuesta segura pero equivocada.

Consigue los pesos en Hugging Face. Con Ollama, la mayoría de las versiones sin censura populares están a un comando (p. ej. ollama run dolphin-mistral).

Inicio rápido con Ollama

// instalar (macOS/Linux)
curl -fsSL https://ollama.com/install.sh | sh

// descargar + chatear con un todoterreno de 8B
ollama run llama3.1:8b

// en su lugar, un ajuste fino sin censura
ollama run dolphin-mistral

// lista lo que tienes, libera disco después
ollama list
ollama rm dolphin-mistral

Apunta cualquier cliente compatible con OpenAI a http://localhost:11434/v1 y tienes un reemplazo privado y local. Para una UI de chat, Open WebUI corre en un contenedor y habla con Ollama de fábrica.

Hazlo realmente privado

Descarga los pesos y luego desconéctate. Una vez en disco, el modelo no necesita red en absoluto. Descarga por Tor o VPN si prefieres que Hugging Face / el registro no registren tu IP junto a una lista de modelos.
Impide que el runtime llame a casa. Ollama y llama.cpp corren totalmente en local, pero pon un firewall al proceso igualmente (o córrelo en una máquina aislada) para que una actualización futura no añada telemetría a tus espaldas.
Mantén los prompts en el dispositivo. Ese es el punto: tus conversaciones nunca salen de la máquina. Sin cuenta, sin historial en servidor, nada que citar judicialmente.
El cifrado de disco importa más ahora. Tu historial de prompts y cualquier chat guardado viven en local — el cifrado de disco completo (ver nuestras guías de dispositivos) es el respaldo si incautan o pierdes el hardware.

Advertencias honestas

Sin censura no es más listo. Quitar los rechazos no añade conocimiento ni precisión. Un 8B "abliterated" sigue siendo un 8B.
Local no es frontera. Un 70B en tu escritorio es genuinamente útil, pero no igualará a los mejores modelos alojados en las tareas más difíciles. El trato que haces es capacidad por soberanía — entra con los ojos abiertos.
La salida es tuya. Ningún proveedor filtra en tu nombre, que es el punto — y la responsabilidad. Lo que generes y hagas con ello es cosa tuya.

Véase también

La lógica de soberanía aquí es la misma que hay detrás de cada ficha de este sitio: las herramientas que controlas superan a las que alquilas. Mira nuestra serie OPSEC52 para el trabajo más amplio de modelos de amenaza, y /vpns si quieres descargar pesos sin que tu ISP construya un perfil.