La semana pasada, un desarrollador en Reddit publicó su factura de API de OpenClaw: 47 dólares en un solo día. Su agente estaba ejecutando Claude Opus para todo — incluyendo tareas que un modelo a $0,15/M tokens resuelve sin problemas. La semana anterior, otro usuario se quejó de que su modelo local Llama 8B se bloqueaba cada tres comandos, obligándole a reiniciar constantemente.
Ambos problemas tienen la misma causa raíz: elegir el modelo LLM equivocado para OpenClaw.
A diferencia de un chatbot simple donde la elección del modelo apenas importa, OpenClaw ejecuta bucles autónomos de múltiples pasos. Tu agente puede encadenar 8-12 llamadas de herramientas en una sola sesión — leyendo archivos, llamando APIs, escribiendo código, enviando mensajes. Si el modelo pierde el contexto en el paso 6 o falla en una llamada de función, toda la cadena se rompe. Un modelo demasiado potente agota tu presupuesto de API en minutos; uno débil falla a mitad de la tarea.
Esta guía desglosa exactamente qué modelos usar para qué tareas, basándose en pruebas reales, consenso de la comunidad y datos de precios actualizados (marzo 2026). Ya sea que optimices por costo, capacidad o privacidad — aquí encontrarás tu respuesta.
- Mejor General: Claude Sonnet 4 — $3/$15 por M tokens, resuelve el 80% de las tareas
- Mejor para Código: Claude Opus 4.5 — $15/$75, mejor debug multi-archivo
- Mejor para Investigación: Gemini 3 Pro — $1.25/$10, ventana de contexto de 1M+ tokens
- Mejor Económico: GPT-4o-mini — $0.15/$0.60, 20x más barato que Sonnet
- Mejor Gratuito/Local: Qwen3.5 27B vía Ollama — $0, iguala a GPT-5 Mini en SWE-bench
- Mejor para Privacidad: Qwen3 Coder o Llama 3.3 70B — open-source, auto-alojable
Qué Es OpenClaw (y Por Qué Importa la Elección del Modelo)
OpenClaw (anteriormente Clawdbot) es un agente de IA gratuito y open-source desarrollado por el programador austríaco Peter Steinberger. En febrero de 2026 alcanzó 100.000 estrellas en GitHub — uno de los proyectos open-source de más rápido crecimiento en la historia de la IA. Ese mismo mes, Steinberger se unió a OpenAI para continuar su trabajo en agentes autónomos a mayor escala.
Lo que diferencia a OpenClaw de un chatbot común:
- Se ejecuta en tu máquina — Mac, Windows o Linux. Tus datos quedan locales por defecto
- Cualquier app de chat — Telegram, WhatsApp, Discord, Slack, Signal o iMessage
- Memoria persistente — Recuerda tus preferencias y contexto entre sesiones (vía MEMORY.md)
- Acceso total al sistema — Lectura/escritura de archivos, comandos shell, scripts
- Control del navegador — Navega la web, rellena formularios, extrae datos
- Skills y plugins — Amplía con skills de la comunidad o crea los tuyos
El modelo lo impulsa todo. Cada email enviado, cada archivo leído, cada llamada de API pasa por el LLM. Un fallo en el paso 8 de una tarea de 12 pasos significa empezar de cero — por eso la elección del modelo importa más en OpenClaw que en casi cualquier otra herramienta de IA.
Si eres nuevo en OpenClaw, consulta nuestro análisis de tendencias de OpenClaw para entender por qué este proyecto se hizo viral.
Qué Hace que un Modelo Funcione Bien en OpenClaw
La mayoría de benchmarks de IA evalúan respuestas de un solo turno. Las tareas de OpenClaw son fundamentalmente diferentes — un agente de investigación puede ejecutar 8-12 llamadas de herramientas secuenciales, y el modelo necesita mantener la coherencia en todas ellas.
Tres capacidades son las más importantes:
Precisión en Llamadas de Herramientas
Los skills de OpenClaw usan llamadas de función estructuradas. El modelo debe invocar comandos shell y APIs con formatos de parámetros exactos. Si falla el esquema JSON o alucina un nombre de herramienta, el agente se bloquea.
Retención de Contexto
SOUL.md, AGENTS.md, USER.md y MEMORY.md se cargan en el contexto al inicio. Suma el historial de conversación y las salidas de herramientas, y fácilmente tienes 10.000+ tokens antes de que el agente haga cualquier cosa. El modelo necesita rastrear todo esto sin perder el hilo 50 mensajes después.
Adherencia a Instrucciones
SOUL.md establece reglas de comportamiento — qué puede y no puede hacer el agente, cómo debe responder, qué herramientas preferir. Los modelos más débiles se desvían de estas reglas a mitad de sesión, produciendo comportamiento impredecible.
Precio vs Capacidad vs Privacidad — las compensaciones
- Las APIs cloud (Anthropic, OpenAI, Google) ofrecen mejor capacidad, pero tus prompts van a servidores externos
- Los modelos open-source vía proveedores de API (haimaker.ai) ofrecen un punto medio — menor costo, mejor cumplimiento de privacidad
- Los modelos locales auto-alojados (Ollama) son gratuitos y totalmente privados, pero requieren hardware y toleran mayor latencia
Puedes optimizar dos de tres: precio, capacidad, privacidad. Rara vez los tres. La mayoría de usuarios debería elegir los dos más importantes y aceptar la compensación en el tercero.
Mejores Modelos para OpenClaw por Caso de Uso
Mejor General: Claude Sonnet 4
Precio: $3/$15 por millón de tokens (entrada/salida)
Claude Sonnet 4 es el predeterminado más seguro para nuevas configuraciones de OpenClaw. Maneja las instrucciones de SOUL.md mejor que cualquier otro modelo en su rango de precio.
En una prueba de agente de investigación de 12 pasos comparando Sonnet y GPT-4o en la misma tarea, Sonnet se mantuvo dentro del alcance de SOUL.md en 9 de 12 ejecuciones. GPT-4o se desvió en 3, incorporando fuentes explícitamente excluidas.
Sonnet destaca en:
- Archivos SOUL.md largos (5.000+ tokens) con muchas reglas de comportamiento
- Agentes de investigación que sintetizan informes estructurados de múltiples fuentes
- Agentes de escritura que mantienen tono consistente en borradores multi-paso
- Skills genéricos del marketplace ClawHub
- Mejor seguimiento de instrucciones en precio medio
- Suficientemente rápido para chat en tiempo real en Telegram/WhatsApp
- Resuelve el 80% de las tareas típicas de asistente sin arruinar el presupuesto
- Fiabilidad sólida en llamadas de herramientas
- No es el más barato para tareas simples y repetitivas
- Opus lo supera en programación multi-archivo muy compleja
- Ventana de contexto más pequeña que Gemini 3 Pro
Configuración:
{
"agents": {
"defaults": {
"model": {
"primary": "anthropic/claude-sonnet-4-20250514"
}
}
}
}
Mejor para Código: Claude Opus 4.5
Precio: $15/$75 por millón de tokens (entrada/salida)
Cuando el código necesita funcionar de verdad — ediciones multi-archivo, debug complejo, decisiones de arquitectura — Opus 4.5 justifica el precio extra.
La alternativa más rentable: habilitar extended thinking en Sonnet 4. Pagas más por token de razonamiento solo cuando la tarea lo requiere.
Usa Opus para sesiones de debug complejo, refactorizaciones multi-archivo y planificación arquitectural. Para todo lo demás, Sonnet con extended thinking te da el 80% de la capacidad de Opus por una fracción del costo.
Mejor para Investigación y Documentos Largos: Gemini 3 Pro
Precio: ~$1.25/$10 por millón de tokens (entrada/salida)
La ventaja competitiva de Gemini 3 Pro es su ventana de contexto de 1M+ tokens. Puedes pasarle un codebase entero y pedirle que encuentre el bug. Para análisis de documentos largos, revisión de contratos o Q&A de codebase, no hay rival.
Gemini 3 Flash (~$0.075/$0.30) es la opción velocidad/costo — barato, rápido y sorprendentemente capaz para tareas simples. Google también ofrece un plan gratuito para Flash.
Configuración para Gemini:
{
"models": {
"providers": {
"haimaker": {
"models": [
{ "id": "google/gemini-3-pro", "name": "Gemini 3 Pro" },
{ "id": "google/gemini-3-flash", "name": "Gemini 3 Flash" }
]
}
}
}
}
Mejores Opciones Económicas
No toda tarea necesita un modelo a $15/M tokens. Para tareas simples de alto volumen, los modelos ligeros reducen costos 10-20x.
| Modelo | Precio (Entrada/Salida por M tokens) | Mejor Para |
|---|---|---|
| GPT-4o-mini | ~$0.15/$0.60 | Consultas simples, rellenar plantillas |
| Claude Haiku 3.5 | ~$0.25/$1.25 | Formateo, clasificación, etiquetado |
| MiniMax M2.5 | ~$0.10/$0.50 | Automatización simple de alto volumen |
| Gemini 3 Flash | ~$0.075/$0.30 | Tareas donde prima la velocidad, plan gratuito disponible |
Si tu agente hace algo como: leer una fila de CSV → aplicar plantilla → escribir archivo de salida, un modelo ligero lo resuelve más rápido y más barato. Reserva los modelos premium para tareas que requieren criterio.
Mejores Modelos Gratuitos y Locales para OpenClaw (Ollama)
Ejecutar modelos localmente vía Ollama no cuesta nada y mantiene tus datos completamente en tu máquina. La contrapartida son los requisitos de hardware y una capacidad ligeramente menor en tareas difíciles.
Ranking de Modelos Locales
| Posición | Modelo | SWE-bench | Velocidad (RTX 4090) | VRAM Necesaria |
|---|---|---|---|---|
| 1 | Qwen3.5 27B | 72.4% | ~40 t/s | 20-24GB |
| 2 | Qwen3.5 35B-A3B (MoE) | Menor | ~112 t/s | 8-16GB |
| 3 | Qwen3 Coder Plus | 70.6% | ~20 t/s | 48GB+ |
| 4 | Qwen3.5 9B | Básico | ~80 t/s | 8GB |
Qwen3.5 27B es la estrella — su puntuación de 72,4% en SWE-bench lo pone en el mismo rango que GPT-5 Mini, un modelo cloud por el que normalmente pagarías por token. En una sola GPU de consumo o un Mac M-series de 32GB, obtienes resultados de calidad cloud gratis.
Requisitos de Hardware
| Nivel | VRAM | Ejemplos de Hardware | Modelos Recomendados |
|---|---|---|---|
| Básico | 8-16GB | RTX 3070/4060, MacBook M1/M2 16GB | Qwen3.5 9B, Qwen3.5 35B-A3B |
| Recomendado | 20-24GB | RTX 4090, Mac M2/M3 Pro/Max 32GB | Qwen3.5 27B |
| Premium | 48GB+ | 2x A6000, Mac M2/M3 Ultra 64GB+ | Qwen3 Coder Plus, Llama 3.3 70B |
En Macs con Apple Silicon, la memoria unificada funciona muy bien para inferencia de LLM. Apple ha estado optimizando Metal para cargas de trabajo con LLM. Un M3 Pro de 32GB ejecuta Qwen3.5 27B sin problemas.
Cómo Configurar Ollama con OpenClaw
Paso 1: Instala Ollama y descarga un modelo:
curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen3.5:27b # Mejor calidad, necesita 20GB+ VRAM
# O
ollama pull qwen3.5:35b-a3b # Modelo MoE rápido, funciona con 16GB
# O
ollama pull qwen3.5:9b # Ligero, funciona con 8GB
Paso 2: Configura OpenClaw:
Ejecuta el asistente de configuración:
openclaw onboard --auth-choice ollama
O añade Ollama manualmente en ~/.openclaw/openclaw.json:
{
"models": {
"providers": {
"ollama": {
"baseUrl": "http://localhost:11434/v1",
"api": "openai-completions",
"models": [
{
"id": "qwen3.5:27b",
"name": "Qwen3.5 27B",
"reasoning": false,
"contextWindow": 131072,
"maxTokens": 8192
}
]
}
}
},
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen3.5:27b"
}
}
}
}
Paso 3: Cambia a tu modelo local:
/model qwen-local
Puntos Fuertes y Débiles de los Modelos Locales
Puntos fuertes:
- Lectura y resumen de código
- Generación de código boilerplate y CRUD
- Operaciones de archivos y refactorización simple
- Llamadas de herramientas agenticas (Qwen3.5 27B BFCL-V4: 72.2)
Puntos débiles:
- Refactorizaciones multi-archivo (5+ archivos en diferentes contextos)
- Debug complejo a través de capas de abstracción
- Velocidad en modelos densos (~40 t/s vs API cloud 80-150 t/s)
- Contexto muy largo (la calidad baja después de ~32K tokens en hardware de consumo)
Mejores Modelos OpenAI para OpenClaw
Los modelos de OpenAI ofrecen rendimiento general sólido con tiempos de respuesta rápidos.
GPT-4o — Especialista en Código y Llamadas de Herramientas
Precio: Medio (~$2.50/$10 por millón de tokens)
La precisión de GPT-4o en llamadas de función con esquemas estructurados es ligeramente superior a la de Claude. Produce salidas JSON más limpias, siendo ideal para agentes de programación y pipelines de extracción de datos.
GPT-4o-mini — El Económico Versátil
Precio: ~$0.15/$0.60 por millón de tokens
A 20x más barato que Sonnet, es la elección correcta para tareas simples de alto volumen. La calidad baja en razonamiento complejo, pero para plantillas, clasificación y formateo, la relación calidad-precio es inmejorable.
o3-mini — El Razonador Profundo
Precio: Mayor, facturación por token de razonamiento
Para agentes analíticos que necesitan razonamiento lógico multi-paso — análisis financiero, interpretación de datos científicos, síntesis de investigación compleja — o3-mini en modo de razonamiento medio o alto resuelve problemas que otros modelos no pueden. Es más lento (20-40 segundos por respuesta) y caro, así que úsalo solo para tareas especializadas.
Enfoque Híbrido: Mezcla Cloud y Local
La mayoría de usuarios expertos de OpenClaw usan una configuración híbrida: modelos locales para lo simple, cloud para lo difícil.
{
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen3.5:27b",
"thinking": "anthropic/claude-sonnet-4-20250514"
}
}
}
}
El modelo local se encarga de lecturas de archivo, ediciones simples y boilerplate — aproximadamente el 60-70% de una sesión típica. Sonnet se encarga del debug, decisiones de arquitectura y trabajo multi-archivo. Tu factura diaria de API baja de $20-50 a ~$5.
Usa modelo barato para tareas simples, medio para el día a día y premium para las difíciles. Empieza con Claude Sonnet 4 como predeterminado y cambia a Opus o modelo local según sea necesario.
Comparación de Proveedores
| Proveedor | Rango de Precio (por M tokens de salida) | Mejor Para | Privacidad |
|---|---|---|---|
| Anthropic (Claude) | $3–$75 | Llamadas de herramientas, seguimiento de instrucciones | Datos de API no usados para entrenamiento por defecto |
| OpenAI (GPT) | $0.60–$15 | Código, datos estructurados, velocidad | Procesamiento estándar de datos |
| Google (Gemini) | $1.25–$10 | Documentos largos, contexto masivo | Políticas de datos de Google Cloud |
| Open-source vía haimaker.ai | $0.10–$5 | Optimización de costos, cumplimiento de privacidad | Enrutamiento entre proveedores de GPU |
| Ollama (local) | Gratuito | Privacidad total, sin costos de API | Los datos nunca salen de tu máquina |
Rankings de la Comunidad (Marzo 2026)
El leaderboard de la comunidad PricePerToken rastrea las preferencias reales de modelos entre desarrolladores de OpenClaw. A 27 de marzo de 2026:
- Kimi K2.5 — Más votado por la comunidad
- Claude Opus 4.5 — Elección premium
- GLM 4.7 — Fuerte competidor de Zhipu
- Gemini 3 Flash Preview — Velocidad + valor
- Claude Sonnet 4.5 — Elección equilibrada
Reddit r/LocalLLaMA recomienda consistentemente Qwen3.5 27B como mejor modelo local, con múltiples hilos reportando configuraciones exitosas en hardware de consumo.
¿Buscas alternativas al propio OpenClaw? Consulta nuestra guía de mejores alternativas a OpenClaw.
Árbol de Decisión Rápido
- "Quiero algo que funcione" → Claude Sonnet 4. Resuelve el 80% de las tareas, precio razonable
- "Voy a escribir código de producción" → Claude Opus 4.5. Vale la pena para debug complejo
- "Necesito procesar documentos largos" → Gemini 3 Pro. 1M+ tokens de contexto
- "Necesito que sea gratis" → Qwen3.5 27B vía Ollama, o plan gratuito de Gemini Flash
- "Necesito que sea barato" → MiniMax M2.5 o GPT-4o-mini
- "La privacidad es crítica" → Qwen3 Coder / Llama 3.3 70B vía haimaker.ai, o auto-aloja con Ollama
- "Uso OpenClaw en Telegram" → Claude Sonnet 4 como predeterminado (cualquier modelo soportado funciona)
FAQ
¿Cuál es el mejor modelo para principiantes en OpenClaw?
Claude Sonnet 4. Tolera mejor archivos SOUL.md imperfectos, y su seguimiento de instrucciones hace que los agentes sean menos propensos a fallar en errores iniciales de configuración.
¿Puedo usar modelos diferentes para diferentes agentes?
Nativamente no, dentro de una sola instancia de OpenClaw. El modelo configurado en openclaw.json se aplica a todos los agentes. La alternativa es ejecutar instancias separadas con diferentes configuraciones o usar el comando /model para cambiar durante la sesión.
¿Por qué mi agente sigue fallando con modelos locales?
La precisión en llamadas de herramientas es la causa más común. Modelos más pequeños como Llama 3.1 8B y Mistral 7B a veces malforman las llamadas de skills de ClawHub. Cambiar a Qwen3.5 27B o un modelo cloud como Claude Haiku lo resuelve en la mayoría de casos.
¿Vale la pena Claude Opus para OpenClaw?
Para la mayoría de usuarios, no. Opus cuesta 5-10x más que Sonnet por sesión, y la diferencia práctica en tareas típicas es pequeña. La ventaja solo aparece en cadenas de razonamiento muy largas y complejas.
¿Cuál es la forma más barata de ejecutar OpenClaw?
Los modelos locales vía Ollama no cuestan nada — Qwen3.5 27B funciona en hardware de consumo e iguala a modelos cloud en muchas tareas. Para APIs cloud, Gemini 3 Flash ($0.075/$0.30 por M tokens) y GPT-4o-mini ($0.15/$0.60) son las opciones capaces más baratas.
¿Cómo cambio de modelo en OpenClaw?
Usa el comando /model durante la sesión: /model opus, /model haimaker/llama-3.3-70b o /model qwen-local. Para cambiar el predeterminado, edita el campo model.primary en ~/.openclaw/openclaw.json.
¿Cambiar de modelo afecta mis archivos MEMORY.md?
No. MEMORY.md es texto plano que OpenClaw lee e inyecta en el contexto independientemente del modelo configurado. Las memorias de sesión se conservan al cambiar de modelo.
¿Qué modelo funciona mejor en OpenClaw por Telegram?
Cualquier modelo soportado funciona con Telegram — el canal y el modelo son independientes. Claude Sonnet 4 es el predeterminado recomendado para Telegram por equilibrar velocidad, costo y seguimiento de instrucciones.
¿Puedo usar OpenClaw sin clave de API?
Sí, ejecutando modelos locales vía Ollama. No necesitas ninguna clave de API externa — todo se ejecuta en tu hardware. Para modelos cloud, necesitas una clave del proveedor respectivo (Anthropic, OpenAI, Google o haimaker.ai).
¿Qué hardware necesito para modelos locales?
Mínimo: 8GB VRAM (RTX 3070 o Mac M1 16GB) para Qwen3.5 9B. Recomendado: 20-24GB VRAM (RTX 4090 o Mac M-series 32GB) para Qwen3.5 27B. Premium: 48GB+ VRAM para Qwen3 Coder Plus o Llama 3.3 70B.


