Best evidence tier. Signup tested end-to-end by xmr.club curator — deposit + withdrawal + edge cases. No-KYC posture verified at retail volume. Last_verified within 12 months.
Rubric completo + recorrido de verificación de 7 pasos en /methodology.
Reseña
Entorno de ejecución LLM local-first que descarga pesos de modelos de código abierto cuantizados y los expone a través de una API compatible con OpenAI en `localhost`. Calificado como Grade A porque Ollama es la respuesta canónica de "quiero salida de calidad OpenAI sin enviar mis consultas a ningún lado" para el ~80% de usuarios que no quieren compilar `llama.cpp` ellos mismos — con licencia MIT, sin cuenta en ningún punto del flujo, sin telemetría en la ruta de inferencia, y la inferencia nunca sale de tu máquina. La postura de privacidad más fuerte disponible en este directorio porque no hay operador en quien confiar en la ruta de datos.
Qué es. Ollama es una aplicación de escritorio + servidor que envuelve el motor de inferencia `llama.cpp` en una CLI limpia (`ollama run <modelo>`, `ollama serve`), un registro de modelos (`ollama.com/library` aloja pesos GGUF cuantizados para ~80 modelos populares de código abierto — Llama, Mistral, DeepSeek, Qwen, Phi, Gemma, Mixtral y muchos más), y una API HTTP compatible con OpenAI en `localhost:11434/v1`. Lo instalas una vez (~600 MB binario), `ollama pull llama3` descarga los pesos (~4-40 GB según el tamaño del modelo), y `ollama run llama3` te lleva a un REPL de chat — o apuntas cualquier consumidor del SDK de OpenAI (LangChain, Continue.dev, Cursor, Aider, el SDK Python `openai`) al endpoint local y funciona sin cambios de código.
Antecedentes. Ollama fue iniciado en 2023 por Jeffrey Morgan y Michael Chiang como un proyecto primero para Mac (la memoria unificada de Apple Silicon hace que la inferencia LLM de grado consumidor sea inusualmente factible). Se expandió a Linux + Windows en meses y ahora funciona en CPU, NVIDIA CUDA, AMD ROCm y Apple Metal, seleccionando automáticamente el mejor acelerador disponible. El equipo opera Ollama, Inc. (una corporación C de Delaware, con sede en SF) con respaldo de capital de riesgo — pero el entorno de ejecución es completamente de código abierto bajo MIT con el código en `github.com/ollama/ollama`, y el modelo de negocio de la empresa es soporte empresarial / despliegue local, no la CLI de consumo.
El registro en `ollama.com/library` es la superficie de distribución centralizada del proyecto — análogo a Docker Hub para pesos de modelos. También puedes apuntar Ollama a cualquier archivo GGUF en disco mediante un `Modelfile` (la especificación compacta del proyecto para declarar un modelo + prompt del sistema + parámetros), por lo que los flujos de trabajo con registro desconectado o completamente autoalojado son de primera clase.
En qué confías.
Sin cuenta, sin registro, sin email, en ningún punto del flujo de instalación o uso. Ollama es software que ejecutas localmente; no hay una "cuenta Ollama" que crear. La primera vez que inicias la aplicación de escritorio, no te pide que te registres — ejecutas `ollama pull <modelo>` y listo.
La inferencia es local. Una vez que un modelo se descarga al disco, la generación se ejecuta en tu hardware sin llamadas de red durante el ciclo de ida y vuelta prompt → completación. Puedes desconectar la red después de que `ollama pull` termine y la inferencia sigue funcionando.
Código abierto bajo MIT. Entorno de ejecución + todo el código CLI en `github.com/ollama/ollama` (95k+ estrellas, mantenimiento activo). Bifurcable, auditable, y el formato `Modelfile` significa que puedes recrear el mismo comportamiento del modelo desde pesos GGUF crudos sin tocar la distribución de Ollama.
La telemetría es opt-in. La aplicación de escritorio pregunta en el momento de la instalación; rechazar significa que cero datos de uso salen de tu máquina. Los modos CLI / servidor no tienen telemetría. `ollama --help` documenta las variables de entorno relevantes (`OLLAMA_TELEMETRY=0` como salvaguarda adicional).
Construido sobre `llama.cpp`. El motor de inferencia subyacente es el proyecto de Georgi Gerganov — en sí mismo de código abierto, con licencia MIT, auditado por una gran comunidad. El valor añadido de Ollama es el empaquetado + registro + superficie API, no la ruta de inferencia.
Sin bloqueo de proveedor en los pesos de los modelos. Todo lo que Ollama ejecuta también se puede ejecutar directamente mediante `llama.cpp` si Ollama desapareciera — el formato GGUF es abierto y la especificación `Modelfile` es legible por humanos.
Especificaciones operativas.
Instalación: descarga de un solo binario para macOS / Linux / Windows desde `ollama.com/download`, o `curl -fsSL https://ollama.com/install.sh | sh` en Linux. ~600 MB de entorno de ejecución.
Hardware: mínimo 8 GB de RAM para modelos de 7B parámetros en cuantización Q4; 16-32 GB para 13B; 64+ GB para 70B. GPU opcional — NVIDIA (CUDA 12+), AMD (ROCm 5.7+), Apple Silicon (Metal, todas las series M). Sin GPU, la inferencia por CPU funciona pero es 5-20× más lenta.
Almacenamiento: el uso de disco por modelo varía desde ~1 GB (1B parámetros Q4) hasta ~40 GB (70B Q4) hasta 240+ GB (405B Q4). Los modelos se almacenan en caché en `~/.ollama/models` (configurable mediante la variable de entorno `OLLAMA_MODELS`).
Modelos expuestos: ~80 en la biblioteca pública a mediados de 2025 — Llama 3 / 3.1 / 3.2, Llama 4 (cuando se publique), Mistral / Mixtral, DeepSeek V2/V3/R1, Qwen 2.5, Phi 3.5, Gemma 2, más variantes de visión (LLaVA, Llama-Vision), embedding (nomic-embed-text) y código (CodeLlama, DeepSeek-Coder).
API: `localhost:11434/v1/chat/completions` (compatible con OpenAI — streaming, modo JSON, herramientas, visión donde el modelo lo soporte), más los endpoints nativos de Ollama `/api/generate` y `/api/chat`. CORS configurable mediante `OLLAMA_ORIGINS`.
CLI: `ollama run <modelo>`, `ollama pull <modelo>`, `ollama list`, `ollama rm <modelo>`, `ollama show <modelo> --modelfile`, `ollama create <nombre> -f Modelfile`. La especificación Modelfile cubre prompts del sistema, temperatura, longitud de contexto, secuencias de parada y fusión de adaptadores.
Registro autoalojado: opcional. Puedes apuntar Ollama a un registro GGUF privado (por ejemplo, dentro de un entorno desconectado) configurando `OLLAMA_HOST` + sirviendo el protocolo de registro tú mismo.
Soporte: GitHub Issues (~1500 abiertos, triaje activo de mantenedores), Discord (grande + activo), sin contrato de soporte comercial para el nivel gratuito (el nivel empresarial existe a través de Ollama, Inc.).
Filosofía del operador. El encuadre de Jeffrey Morgan en charlas de conferencias es "la inferencia local es el valor predeterminado, no el plan B" — las elecciones de diseño del equipo favorecen consistentemente la latencia + privacidad sobre la completitud de funciones en el lado alojado. El enfoque Modelfile + GGUF hace que Ollama sea funcionalmente una capa de empaquetado sobre `llama.cpp`, lo que significa que el valor del proyecto se deprecia si la economía de LLM alojados se vuelve más barata / privada (algo bueno) y se acrecienta si el hardware local se vuelve más rápido (también algo bueno). El lado empresarial de Ollama, Inc. está desacoplado del entorno de ejecución de código abierto — la CLI no se degrada si no pagas, y no hay límite de velocidad de "nivel gratuito" (porque no hay servidor que limitar).
Justificación de la calificación. Grade A refleja: la postura de privacidad más fuerte disponible (la inferencia es local, sin operador en la ruta de datos, sin cuenta que comprometer), código abierto bajo la permisiva licencia MIT (bifurcable + auditable), responsabilidad del operador nombrado sin dependencia del operador (Ollama, Inc. + Jeffrey Morgan públicamente identificados, pero el entorno de ejecución sigue funcionando si desaparecen — cambiar a `llama.cpp` directamente equivale a cambiar un envoltorio), amplio soporte de hardware (todos los aceleradores de consumo + respaldo de CPU), rica biblioteca de modelos (~80 modelos de código abierto, todos los lanzamientos abiertos de grado frontera posteriores a 2024), superficie API compatible con OpenAI (funciona como reemplazo directo para cualquier herramienta existente), corroboración de kycnot.me sobre la postura de no KYC, sin hilos importantes de incidentes o erosión de confianza en r/LocalLLaMA / r/MachineLearning / GitHub issues en los últimos 12 meses, y negativa deliberada a agregar telemetría de uso. Última verificación 2026-05-26.
Útil cuando:
Quieres salida de calidad OpenAI / Claude para consultas sensibles (médicas, legales, investigación de seguridad, financieras) y no puedes aceptar que la consulta sea vista por ningún tercero.
Eres un desarrollador que usa Continue.dev / Cursor / Aider / LangChain y quieres un endpoint local gratuito compatible con la API de configuraciones de modelos de frontera de pago.
Quieres probar comparativamente modelos de código abierto entre sí o contra proveedores alojados sin pagar por llamada.
Tienes una GPU (o incluso solo Apple Silicon) inactiva y el costo marginal de inferencia es efectivamente cero.
Necesitas inferencia desconectada / sin conexión para un flujo de trabajo de periodismo / investigación / activismo donde no se acepta ninguna conexión de red.
Estás construyendo una aplicación local-first (plugin de Obsidian, extensión de Raycast, aplicación Electron personalizada) y quieres funciones LLM sin decirles a tus usuarios que obtengan una clave de OpenAI.
Advertencias:
El hardware es tu cuello de botella. Un modelo 7B en Q4 necesita mínimo 8 GB de RAM para funcionar de manera útil; un modelo 70B necesita 48-64 GB de RAM (o una GPU con esa VRAM). Si tu máquina no cumple con el requisito, el rendimiento es inutilizable — Ollama no hace mágicamente que la inferencia sea barata, solo elimina el costo de red.
La calidad de salida va por detrás de la frontera alojada. Los modelos de código abierto en la biblioteca de Ollama van desde "tan buenos como GPT-3.5" (Llama 3 7B) hasta "se acerca a GPT-4o" (Llama 3.1 405B, DeepSeek V3) pero raramente igualan a Claude Opus / Sonnet en tareas intensivas en razonamiento. Para codificación + razonamiento, NanoGPT o el acceso directo a la API de Claude sigue siendo mediblemente mejor — la propuesta de Ollama es privacidad, no capacidad bruta.
Sin contrato de soporte de proveedor en el nivel gratuito. ¿Error? Presenta un issue en GitHub. El soporte empresarial existe a través de Ollama, Inc. pero no es gratuito.
Los pesos de los modelos residen en `ollama.com/library` por defecto. Si el registro se cae, `ollama pull <nuevo-modelo>` se rompe hasta que apuntes a una fuente alternativa — pero los modelos existentes ya descargados siguen funcionando para siempre.
La telemetría opt-in es solo en el momento de la instalación. Si aceptas en el primer lanzamiento, la aplicación de escritorio envía pings de uso. Deshabilitarlo después requiere editar la configuración O configurar `OLLAMA_TELEMETRY=0`. Los modos CLI / `ollama serve` no tienen telemetría en ningún caso.
Las actualizaciones son manuales por defecto (la aplicación de escritorio avisa; los usuarios de CLI ejecutan `brew upgrade ollama` o vuelven a ejecutar el script de instalación). Los nuevos formatos de modelo a veces requieren una actualización del entorno de ejecución.
La contabilidad de VRAM es aproximada. Ollama a veces intentará cargar un modelo demasiado grande para tu GPU y recurrirá a CPU a mitad de la generación, lo que silenciosamente reduce el rendimiento a niveles inutilizables. Observa `ollama ps` para confirmar qué dispositivo está realizando la inferencia.