Cómo ejecutar un LLM local: Guía completa de instalación, configuración y los mejores modelos (2025)

¿Quieres sacarle el máximo provecho a la Inteligencia Artificial sin depender de la nube, reduciendo costos y garantizando la privacidad de tus datos?
En esta guía práctica descubrirás, paso a paso, todo lo que necesitas para montar tu propio local LLM, desde el hardware indispensable hasta la selección del modelo ideal, pasando por las herramientas más amigables como LM Studio AI y Ollama, y la opción de ejecutarlos dentro de un contenedor Ollama Docker.


Índice rápido

SecciónQué encontrarás
1. ¿Qué es un local LLM y por qué usarlo?Conceptos básicos, ventajas y casos de uso.
2. Hardware recomendadoGPU, VRAM, CPU, RAM y almacenamiento óptimos.
3. Software esencialServidores, interfaces y paquetes “todo en uno”.
4. Instalación de LM Studio AIGuía paso a paso para Windows, macOS y Linux.
5. Instalación de OllamaDesde la versión nativa hasta Ollama Docker.
6. Los mejores modelos para correr localmenteTabla comparativa de tamaños, requisitos y usos.
7. Optimización y cuantizaciónCómo reducir el consumo de VRAM sin perder calidad.
8. Integración con herramientas de automatizaciónUso de scripts, API y flujos de trabajo con n8n.
9. Solución de problemas comunesMensajes de error frecuentes y cómo resolverlos.
10. Recursos adicionalesEnlaces a repositorios, comunidades y documentación.
11. Ideas de prompts para imágenesSugerencias de generación visual basada en este artículo.

1. ¿Qué es un local LLM y por qué usarlo?

1.1 Definición sencilla

Un Large Language Model (LLM) es un modelo de IA entrenado con millones o miles de millones de parámetros para generar texto, código y, en algunos casos, interpretar imágenes. Cuando decimos local LLM nos referimos a que el modelo se ejecuta en tu propio ordenador o servidor en vez de en los servidores de una empresa externa.

1.2 Ventajas principales

VentajaPor qué importa
Privacidad totalNingún dato sale de tu red; ideal para sectores regulados (salud, finanzas, legal).
Costos predeciblesPagas la inversión inicial en hardware y software libre; sin facturas mensuales por API.
Control absolutoPuedes ajustar el “system prompt”, entrenar con tus propios datos o añadir funciones personalizadas.
Disponibilidad offlineFunciona sin conexión a internet, perfecto para entornos con conectividad limitada.
Aprendizaje profundoEntiendes cómo funciona la IA a nivel de hardware y software, lo cual es una gran experiencia formativa.

2. Hardware recomendado

Ejecutar un LLM local no es magia; requiere recursos suficientes para que el modelo cargue en la memoria de la GPU y pueda responder en tiempo razonable. A continuación, la configuración mínima y la recomendada para diferentes tamaños de modelo.

2.1 GPU y VRAM (el factor crítico)

VRAM disponibleModelos compatibles (aprox.)Uso recomendado
6‑8 GBLlama‑3 7B‑Q4, Mistral‑7B‑Instruct, Gemma‑2BExperimentación y pruebas de concepto.
12 GBLlama‑3 13B‑Q4, Qwen‑2.5‑7B‑C, Phi‑4‑miniFlujo de trabajo diario, generación de código.
24 GBLlama‑3 34B‑Q4, Mixtral‑8x7B, Granite‑8B‑v3Aplicaciones de alta calidad y uso intensivo.
>24 GB (ej. RTX 4090, A100)Modelos de 70B‑100B (por ejemplo Llama‑3 70B)Uso empresarial, investigación avanzada.

2.2 CPU y RAM

  • CPU: Un procesador de 6‑8 núcleos (AMD Ryzen 5 5600X, Intel i5‑12400) es suficiente. Si vas a usar Docker intensivo o ejecutar varios contenedores simultáneos, opta por 8‑12 núcleos.
  • RAM: Igual o superior a la VRAM de tu GPU (p.ej., 24 GB de RAM para una GPU de 12 GB). Con 32 GB tendrás margen para cargar varios modelos o versiones cuantizadas.

2.3 Almacenamiento

  • SSD NVMe de al menos 500 GB. Los modelos pueden ocupar entre 4 GB y 80 GB cada uno, y el SSD garantiza una carga de modelo en segundos en vez de minutos.
  • Backup: Un disco duro externo o NAS para guardar checkpoints y datasets personalizados.

2.4 Tip especial para Apple Silicon

Los chips M1, M2, M3 cuentan con Unified Memory Architecture (UMA). Con 32 GB de RAM puedes ejecutar modelos de hasta 13 B sin problemas, aunque la velocidad de inference será ligeramente menor que en una GPU dedicada de NVIDIA.


3. Software esencial

3.1 Categorías de software

CategoríaFunciónEjemplos destacados
Servidores (backend)Gestionan la carga del modelo, exponen API REST/GRPC.ollama, lm-studio-server, text-generation-webui.
Interfaces gráficas (frontend)Chat, pruebas interactivas, ajustes de parámetros.LM Studio AI, OpenWebUI, LobeChat.
Soluciones “todo en uno”Combina servidor + UI + gestor de modelos.Ollama, LM Studio (modo “All‑in‑One”).
ContenedoresDespliegue reproducible, aislamiento de dependencias.Ollama Docker, Docker‑Compose con n8n, etc.

3.2 Por qué elegir LM Studio AI o Ollama

  • LM Studio AI: Interfaz visual amigable, búsqueda de modelos en Hugging Face directamente desde la app, compatibilidad multi‑plataforma. Ideal para principiantes y usuarios que prefieren “click‑and‑run”.
  • Ollama: Ligero, basado en CLI, excelente para scripts y automatizaciones. Soporta Ollama Docker, lo que permite escalar o compartir el entorno con otros usuarios.

4. Instalación de LM Studio AI

A continuación, los pasos para cada sistema operativo. Todos los comandos se pueden ejecutar desde una terminal (PowerShell, iTerm, etc.).

4.1 Windows

  1. Descarga el instalador desde https://lmstudio.ai/download.
  2. Ejecuta el archivo .exe y sigue el asistente; elige la carpeta de instalación (recomendado: C:\Program Files\LMStudio).
  3. Al iniciar la app, permite que descargue los drivers CUDA si tu GPU es NVIDIA.
  4. En la pestaña Model Hub, busca “Llama‑3 8B Q4_K_M”. Haz clic en DownloadLoad.
  5. Configura la memoria de la GPU: Settings → Advanced → GPU VRAM limit (ej. 10 GB).
  6. ¡Listo! Empieza a chatear con el modelo desde la interfaz.

4.2 macOS (Apple Silicon & Intel)

  1. Homebrew: brew install --cask lmstudio.
  2. Si usas M1/M2, LM Studio detectará automáticamente la arquitectura y usará Metal como backend.
  3. Abre la app desde Launchpad y sigue los mismos pasos de descarga de modelo que en Windows.

4.3 Linux (Ubuntu/Debian)

# 1. Instala dependencias
sudo apt update && sudo apt install -y curl git unzip

# 2. Descarga el tarball
curl -L -o lmstudio.tar.gz https://downloads.lmstudio.ai/linux/latest

# 3. Extrae
tar -xzf lmstudio.tar.gz -C $HOME/.local/share/

# 4. Añade al PATH
echo 'export PATH=$HOME/.local/share/lmstudio:$PATH' >> ~/.bashrc
source ~/.bashrc

# 5. Ejecuta
lmstudio

Tip: En sistemas sin GPU, LM Studio soporta inference en CPU mediante ggml; sin embargo la latencia será alta (>10 s por respuesta).

4.4 Configuración avanzada (opcional)

ParámetroDescripciónValor recomendado
--max-contextNúmero máximo de tokens que el modelo puede “recordar”.4096 para Llama‑3‑8B.
--temperatureControla la aleatoriedad de la salida.0.7 para respuestas creativas, 0.2 para respuestas determinísticas.
--threadsNúcleos de CPU que se usarán (solo CPU).8 en máquinas de 12‑16 GB RAM.

5. Instalación de Ollama

5.1 Versión nativa (macOS, Linux, Windows)

  1. macOS (Homebrew)
   brew install ollama
  1. Linux (Debian/Ubuntu)
   curl -fsSL https://ollama.com/install.sh | sh
  1. Windows (Scoop)
   scoop install ollama
  1. Verifica la instalación: ollama --version.
  2. Descarga un modelo (ej.: Llama‑3 8B):
   ollama pull llama3
  1. Ejecuta el modelo en modo chat:
   ollama run llama3

5.2 Ollama Docker (ideal para entornos aislados)

# docker‑compose.yml
version: "3.8"
services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    restart: unless‑stopped
    ports:
      - "11434:11434"      # API REST
      - "8080:8080"        # UI opcional (OpenWebUI)
    volumes:
      - ./ollama_data:/root/.ollama   # Persistencia de modelos
    environment:
      - OLLAMA_NUM_THREADS=8
      - OLLAMA_MAX_CTX=4096
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
  1. Crear la carpeta: mkdir -p ollama_data.
  2. Iniciar: docker compose up -d.
  3. Descargar modelo dentro del contenedor:
   docker exec -it ollama ollama pull llama3
  1. Acceder a la API: http://localhost:11434/api/generate.

5.3 Integración con OpenWebUI (interfaz web ligera)

docker run -d \
  -p 8080:8080 \
  -v $(pwd)/openwebui:/app/backend/data \
  --restart unless‑stopped \
  ghcr.io/open-webui/open-webui:latest

Conecta la UI a Ollama mediante la variable de entorno OLLAMA_HOST=http://ollama:11434. Así podrás chatear con el modelo desde cualquier navegador.


6. Los mejores modelos para correr localmente

A continuación, una tabla que resume los principales modelos open‑source disponibles en Hugging Face y compatibles con LM Studio y Ollama. Se incluyen detalles de tamaño, requisitos de VRAM y caso de uso recomendado.

ModeloParámetrosTipo de cuantización (ejemplo)VRAM mínima*Uso recomendadoLicencia
Llama‑3‑8B‑Q4_K_M8 BGGUF Q48 GBChat general, razonamiento medioMeta (LLAMA‑3)
Llama‑3‑13B‑Q5_K_S13 BGGUF Q512 GBGeneración de código, asistencia en documentaciónMeta
Mistral‑7B‑Instruct‑v0.27 BGGUF Q46 GBAsistentes de soporte, respuesta rápidaApache‑2.0
Mixtral‑8x7B‑Instruct45 B (MoE)GGUF Q424 GBTareas complejas, razonamiento avanzadoApache‑2.0
Gemma‑2B‑Instruct2 BGGUF Q44 GBDispositivos con 6 GB VRAM, chat ligeroApache‑2.0
Phi‑4‑mini‑4k‑q44 BGGUF Q46 GBAplicaciones embebidas, IoTMIT
Qwen‑2.5‑7B‑Coder7 BGGUF Q48 GBAsistentes de programación, depuraciónApache‑2.0
Granite‑8B‑Chat8 BGGUF Q512 GBChat corporativo, asistencia legalApache‑2.0
OpenChat‑3.5‑7B7 BGGUF Q48 GBChat amigable, soporte al clienteApache‑2.0
LLaVA‑Phi‑3‑mini‑vision3 B (multimodal)GGUF Q48 GBIA que interpreta imágenes + textoApache‑2.0

*VRAM mínima estimada para ejecutar el modelo sin offloading. Con técnicas de CPU offload puedes reducir este número, pero la latencia aumentará.

6.1 Cómo elegir el modelo ideal

  1. Define el caso de uso: Chat general → Llama‑3 8B; generación de código → Qwen‑2.5‑Coder; razonamiento profundo → Mixtral‑8x7B.
  2. Comprueba tu VRAM: Si dispones de 12 GB, evita modelos >13 B sin cuantización avanzada.
  3. Evalúa la licencia: Algunas empresas requieren que los modelos sean usados bajo licencia compatible con su política de datos.
  4. Prueba cuantizaciones: Los formatos GGUF Q4 / Q5 reducen el consumo de VRAM hasta un 60 % con pérdida mínima de calidad.

7. Optimización y cuantización

7.1 Qué es la cuantización

Consiste en representar los pesos del modelo con menos bits (por ejemplo, 4 bits en vez de 16 bits). El objetivo es reducir la memoria ocupada y acelerar la inferencia. Los principales formatos son:

FormatoBitsCompresiónImpacto en calidad
FP1616N/AReferencia (máxima calidad)
Q8_08Muy bajo impacto
Q4_K_M4Pequeña pérdida en tareas complejas
Q3_K_S35.3×Adecuado solo para pruebas rápidas

7.2 Herramientas para cuantizar

  • gguf-convert (incluido en Ollama)
  • lmstudio-quantize (CLI de LM Studio)
  • torch.quantization (para usuarios de PyTorch)

Paso a paso: cuantizar un modelo con LM Studio

lmstudio quantize \
  --model llama3-8b \
  --output llama3-8b-q4.gguf \
  --bits 4 \
  --format q4_k_m

Una vez convertido, cárgalo desde la UI de LM Studio seleccionando Add local model y eligiendo el archivo .gguf.

7.3 Offloading a CPU

Si tu GPU tiene menos memoria que el modelo, puedes usar offload (carga parcial en GPU y el resto en RAM). En Ollama, agrega la variable:

export OLLAMA_GPU_OFFLOAD=0.5   # 50 % del modelo en GPU, 50 % en RAM

En LM Studio, habilita GPU Offload desde Settings → Advanced y elige el porcentaje deseado.


8. Integración con herramientas de automatización

8.1 Usando la API REST de Ollama

curl -X POST http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
        "model": "llama3",
        "prompt": "Resume las novedades de la IA en 2025 en 3 párrafos.",
        "max_tokens": 300,
        "temperature": 0.6
      }'

La respuesta JSON contiene el texto generado, que puedes usar en scripts Python, Bash o incluso en herramientas no‑code como n8n.

8.2 Conexión a n8n (workflow de automatización)

  1. Crear un HTTP Request node con la URL http://localhost:11434/api/generate.
  2. Configurar el cuerpo con JSON (ver ejemplo anterior).
  3. Añadir un Set node para formatear la salida (por ejemplo, enviar por correo, guardar en base de datos o publicar en Slack).
  4. Ejecutar el workflow automáticamente al recibir un email o al detectar un archivo nuevo en una carpeta.

8.3 Scripts de ejemplo (Python)

import requests, json

def ask_llm(prompt, model="llama3"):
    url = "http://localhost:11434/api/generate"
    payload = {
        "model": model,
        "prompt": prompt,
        "max_tokens": 512,
        "temperature": 0.7
    }
    resp = requests.post(url, json=payload)
    return resp.json()["response"]

print(ask_llm("Explica la diferencia entre LLM y ChatGPT en menos de 100 palabras."))

Con este script puedes crear chatbots locales o generar contenido para blogs sin tocar la nube.


9. Solución de problemas comunes

SíntomaPosible causaAcción recomendada
“CUDA out of memory”Modelo más grande que la VRAM disponible.Reduce el modelo, usa cuantización Q4, o activa CPU offload.
Respuesta muy lenta (>10 s)GPU no detectada, ejecución en CPU.Verifica drivers NVIDIA (nvidia-smi), instala CUDA 12.x, reinicia el servicio.
Error “Model not found” al pullNombre de modelo incorrecto o sin conexión a internet.Revisa la ortografía, verifica que el repositorio en Hugging Face sea público.
API devuelve 500Contenedor Docker sin acceso a GPU.Añade --gpus all al docker run o revisa la configuración de runtime (nvidia vs runc).
Texto truncadomax_context inferior al número de tokens del prompt.Aumenta --max-context a 4096 o más según el modelo.
Modelo no carga en LM StudioArchivo corrupto o formato no compatible.Descarga nuevamente el modelo; si usas gguf, verifica que la versión sea >= 0.6.0.

10. Recursos adicionales

TipoEnlaceDescripción
Repositorio oficial de Ollamahttps://github.com/ollama/ollamaCódigo fuente, releases y documentación Docker.
Página de descargas de LM Studiohttps://lmstudio.ai/downloadInstaladores y guía de usuario.
Catálogo de modelos en Hugging Facehttps://huggingface.co/modelsBusca por tareas, tamaño, licencia y formatos GGUF.
Comunidad Discord de Ollamahttps://discord.gg/ollamaSoporte en tiempo real, ejemplos y proyectos colaborativos.
Guía de cuantización de GGUFhttps://github.com/ggerganov/ggml/blob/master/docs/gguf.mdDetalles técnicos y comparativas de calidad.
Tutorial de n8n + Ollamahttps://github.com/n8n-io/n8n/tree/master/workflowsPlantillas de workflow para integrar LLMs en pipelines de negocio.
Artículo “Local LLMs: The Future of Private AI”https://arxiv.org/abs/2409.11234Investigación académica sobre seguridad y privacidad.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *