La semaine dernière, un développeur sur Reddit a partagé sa facture API OpenClaw : 47 dollars en une seule journée. Son agent tournait avec Claude Opus pour tout — y compris des tâches qu'un modèle à 0,15 $/M tokens gère sans problème. La semaine précédente, un autre utilisateur se plaignait que son modèle local Llama 8B se bloquait toutes les trois commandes, l'obligeant à redémarrer constamment.
Ces deux problèmes ont la même cause : choisir le mauvais modèle LLM pour OpenClaw.
Contrairement à un chatbot simple où le choix du modèle importe peu, OpenClaw exécute des boucles autonomes multi-étapes. Votre agent peut enchaîner 8 à 12 appels d'outils en une seule session — lecture de fichiers, appels d'API, écriture de code, envoi de messages. Si le modèle perd le contexte à l'étape 6 ou rate un appel de fonction, toute la chaîne se brise. Un modèle trop puissant épuise votre budget API en quelques minutes ; un trop faible échoue en pleine tâche.
Ce guide détaille exactement quels modèles utiliser pour quelles tâches, basé sur des tests réels, le consensus de la communauté et les données de prix actuelles (mars 2026). Que vous optimisiez le coût, la capacité ou la confidentialité — vous trouverez votre réponse ici.
- Meilleur Général : Claude Sonnet 4 — 3 $/15 $ par M tokens, gère 80 % des tâches
- Meilleur pour le Code : Claude Opus 4.5 — 15 $/75 $, meilleur debug multi-fichiers
- Meilleur pour la Recherche : Gemini 3 Pro — 1,25 $/10 $, fenêtre de contexte de 1M+ tokens
- Meilleur Budget : GPT-4o-mini — 0,15 $/0,60 $, 20x moins cher que Sonnet
- Meilleur Gratuit/Local : Qwen3.5 27B via Ollama — 0 $, égale GPT-5 Mini sur SWE-bench
- Meilleur pour la Confidentialité : Qwen3 Coder ou Llama 3.3 70B — open-source, auto-hébergeable
Qu'est-ce qu'OpenClaw (et pourquoi le choix du modèle compte)
OpenClaw (anciennement Clawdbot) est un agent IA gratuit et open-source développé par le développeur autrichien Peter Steinberger. En février 2026, il a atteint 100 000 étoiles sur GitHub — l'un des projets open-source à la croissance la plus rapide de l'histoire de l'IA. Le même mois, Steinberger a rejoint OpenAI pour poursuivre son travail sur les agents autonomes à plus grande échelle.
Ce qui distingue OpenClaw d'un chatbot ordinaire :
- Tourne sur votre machine — Mac, Windows ou Linux. Vos données restent locales par défaut
- N'importe quelle app de messagerie — Telegram, WhatsApp, Discord, Slack, Signal ou iMessage
- Mémoire persistante — Se souvient de vos préférences et du contexte entre les sessions (via MEMORY.md)
- Accès complet au système — Lecture/écriture de fichiers, commandes shell, exécution de scripts
- Contrôle du navigateur — Navigation web, remplissage de formulaires, extraction de données
- Skills et plugins — Extensible avec les skills de la communauté ou les vôtres
Le modèle alimente tout. Chaque email envoyé, chaque fichier lu, chaque appel d'API passe par le LLM. Un échec à l'étape 8 d'une tâche en 12 étapes signifie tout recommencer — c'est pourquoi le choix du modèle compte plus dans OpenClaw que dans presque n'importe quel autre outil d'IA.
Si vous découvrez OpenClaw, consultez notre analyse des tendances OpenClaw pour comprendre pourquoi ce projet est devenu viral.
Ce qui rend un modèle efficace dans OpenClaw
La plupart des benchmarks d'IA testent des réponses en un seul tour. Les tâches d'OpenClaw sont fondamentalement différentes — un agent de recherche peut exécuter 8 à 12 appels d'outils séquentiels, et le modèle doit rester cohérent tout au long.
Trois capacités comptent le plus :
Précision des appels d'outils
Les skills d'OpenClaw utilisent des appels de fonction structurés. Le modèle doit invoquer des commandes shell et des API avec des formats de paramètres exacts. S'il rate le schéma JSON ou hallucine un nom d'outil, l'agent se bloque.
Rétention du contexte
SOUL.md, AGENTS.md, USER.md et MEMORY.md sont tous chargés dans le contexte au démarrage. Ajoutez l'historique de conversation et les sorties des outils, et vous êtes facilement à 10 000+ tokens avant que l'agent ne fasse quoi que ce soit. Le modèle doit suivre tout cela sans perdre le fil 50 messages plus tard.
Respect des instructions
SOUL.md définit des règles de comportement — ce que l'agent peut et ne peut pas faire, comment il doit répondre, quels outils privilégier. Les modèles plus faibles dévient de ces règles en cours de session, produisant un comportement imprévisible.
Prix vs Capacité vs Confidentialité — les compromis
- Les API cloud (Anthropic, OpenAI, Google) offrent la meilleure capacité, mais vos prompts vont sur des serveurs externes
- Les modèles open-source via des fournisseurs d'API (haimaker.ai) offrent un juste milieu — coût moindre, meilleure conformité en matière de confidentialité
- Les modèles locaux auto-hébergés (Ollama) sont gratuits et entièrement privés, mais nécessitent du matériel et tolèrent une latence plus élevée
Vous pouvez optimiser deux des trois : prix, capacité, confidentialité. Rarement les trois. La plupart des utilisateurs devraient choisir les deux plus importants et accepter le compromis sur le troisième.
Meilleurs Modèles pour OpenClaw par Cas d'Usage
Meilleur Général : Claude Sonnet 4
Prix : 3 $/15 $ par million de tokens (entrée/sortie)
Claude Sonnet 4 est le choix par défaut le plus sûr pour les nouvelles configurations OpenClaw. Il gère les instructions SOUL.md mieux que tout autre modèle dans sa gamme de prix.
Dans un test d'agent de recherche en 12 étapes comparant Sonnet et GPT-4o sur la même tâche, Sonnet est resté dans le périmètre de SOUL.md dans 9 cas sur 12. GPT-4o a dévié dans 3 cas, intégrant des sources explicitement exclues.
Sonnet excelle dans :
- Les fichiers SOUL.md longs (5 000+ tokens) avec de nombreuses règles comportementales
- Les agents de recherche qui synthétisent des rapports structurés à partir de multiples sources
- Les agents d'écriture qui maintiennent un ton cohérent sur des brouillons multi-étapes
- Les skills généraux du marketplace ClawHub
- Meilleur suivi d'instructions dans la gamme de prix moyenne
- Assez rapide pour le chat en temps réel sur Telegram/WhatsApp
- Gère 80 % des tâches d'assistant typiques sans exploser le budget
- Fiabilité solide dans les appels d'outils
- Pas le moins cher pour les tâches simples et répétitives
- Opus le surpasse en programmation multi-fichiers très complexe
- Fenêtre de contexte plus petite que Gemini 3 Pro
Configuration :
{
"agents": {
"defaults": {
"model": {
"primary": "anthropic/claude-sonnet-4-20250514"
}
}
}
}
Meilleur pour le Code : Claude Opus 4.5
Prix : 15 $/75 $ par million de tokens (entrée/sortie)
Quand le code doit vraiment fonctionner — éditions multi-fichiers, débogage complexe, décisions d'architecture — Opus 4.5 justifie le supplément.
L'alternative rentable : activer l'extended thinking sur Sonnet 4. Vous ne payez plus par token de raisonnement que lorsque la tâche l'exige.
Utilisez Opus pour les sessions de débogage complexe, les refactorisations multi-fichiers et la planification architecturale. Pour tout le reste, Sonnet avec extended thinking vous donne 80 % de la capacité d'Opus pour une fraction du coût.
Meilleur pour la Recherche et les Documents Longs : Gemini 3 Pro
Prix : ~1,25 $/10 $ par million de tokens (entrée/sortie)
L'atout majeur de Gemini 3 Pro est sa fenêtre de contexte de 1M+ tokens. Vous pouvez lui soumettre une base de code entière et lui demander de trouver le bug. Pour l'analyse de longs documents, la révision de contrats ou le Q&A de codebase, rien ne rivalise.
Gemini 3 Flash (~0,075 $/0,30 $) est l'option vitesse/coût — pas cher, rapide et étonnamment capable pour les tâches simples. Google propose également un forfait gratuit pour Flash.
Configuration pour Gemini :
{
"models": {
"providers": {
"haimaker": {
"models": [
{ "id": "google/gemini-3-pro", "name": "Gemini 3 Pro" },
{ "id": "google/gemini-3-flash", "name": "Gemini 3 Flash" }
]
}
}
}
}
Meilleures Options Économiques
Toutes les tâches n'ont pas besoin d'un modèle à 15 $/M tokens. Pour les tâches simples à haut volume, les modèles légers réduisent les coûts de 10 à 20 fois.
| Modèle | Prix (Entrée/Sortie par M tokens) | Idéal pour |
|---|---|---|
| GPT-4o-mini | ~0,15 $/0,60 $ | Requêtes simples, remplissage de templates |
| Claude Haiku 3.5 | ~0,25 $/1,25 $ | Formatage, classification, étiquetage |
| MiniMax M2.5 | ~0,10 $/0,50 $ | Automatisation simple à haut volume |
| Gemini 3 Flash | ~0,075 $/0,30 $ | Tâches critiques en vitesse, forfait gratuit disponible |
Si votre agent fait quelque chose comme : lire une ligne CSV → appliquer un template → écrire un fichier de sortie, un modèle léger le fait plus vite et moins cher. Gardez les modèles premium pour les tâches nécessitant du jugement.
Meilleurs Modèles Gratuits et Locaux pour OpenClaw (Ollama)
Exécuter des modèles localement via Ollama ne coûte rien et garde vos données entièrement sur votre machine. Le compromis réside dans les exigences matérielles et une capacité légèrement inférieure pour les tâches difficiles.
Classement des Modèles Locaux
| Rang | Modèle | SWE-bench | Vitesse (RTX 4090) | VRAM requise |
|---|---|---|---|---|
| 1 | Qwen3.5 27B | 72,4 % | ~40 t/s | 20-24 Go |
| 2 | Qwen3.5 35B-A3B (MoE) | Inférieur | ~112 t/s | 8-16 Go |
| 3 | Qwen3 Coder Plus | 70,6 % | ~20 t/s | 48 Go+ |
| 4 | Qwen3.5 9B | Basique | ~80 t/s | 8 Go |
Qwen3.5 27B est la star — son score de 72,4 % sur SWE-bench le place dans la même catégorie que GPT-5 Mini, un modèle cloud pour lequel vous paieriez normalement au token. Sur un seul GPU grand public ou un Mac M-series 32 Go, vous obtenez des résultats de qualité cloud gratuitement.
Configuration Matérielle Requise
| Niveau | VRAM | Exemples de matériel | Modèles recommandés |
|---|---|---|---|
| Entrée | 8-16 Go | RTX 3070/4060, MacBook M1/M2 16 Go | Qwen3.5 9B, Qwen3.5 35B-A3B |
| Recommandé | 20-24 Go | RTX 4090, Mac M2/M3 Pro/Max 32 Go | Qwen3.5 27B |
| Premium | 48 Go+ | 2x A6000, Mac M2/M3 Ultra 64 Go+ | Qwen3 Coder Plus, Llama 3.3 70B |
Sur les Mac Apple Silicon, la mémoire unifiée fonctionne très bien pour l'inférence LLM. Apple optimise continuellement Metal pour les charges de travail LLM. Un M3 Pro 32 Go fait tourner Qwen3.5 27B sans problème.
Comment Configurer Ollama avec OpenClaw
Étape 1 : Installer Ollama et télécharger un modèle :
curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen3.5:27b # Meilleure qualité, nécessite 20 Go+ VRAM
# OU
ollama pull qwen3.5:35b-a3b # Modèle MoE rapide, tourne avec 16 Go
# OU
ollama pull qwen3.5:9b # Léger, tourne avec 8 Go
Étape 2 : Configurer OpenClaw :
Lancez l'assistant de configuration :
openclaw onboard --auth-choice ollama
Ou ajoutez Ollama manuellement dans ~/.openclaw/openclaw.json :
{
"models": {
"providers": {
"ollama": {
"baseUrl": "http://localhost:11434/v1",
"api": "openai-completions",
"models": [
{
"id": "qwen3.5:27b",
"name": "Qwen3.5 27B",
"reasoning": false,
"contextWindow": 131072,
"maxTokens": 8192
}
]
}
}
},
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen3.5:27b"
}
}
}
}
Étape 3 : Basculer vers votre modèle local :
/model qwen-local
Forces et Faiblesses des Modèles Locaux
Points forts :
- Lecture et résumé de code
- Génération de code boilerplate et CRUD
- Opérations sur fichiers et refactoring simple
- Appels d'outils agentiques (Qwen3.5 27B BFCL-V4 : 72.2)
Points faibles :
- Refactorisations multi-fichiers (5+ fichiers dans différents contextes)
- Débogage complexe à travers les couches d'abstraction
- Vitesse sur les modèles denses (~40 t/s vs API cloud 80-150 t/s)
- Très long contexte (qualité dégradée au-delà de ~32K tokens sur matériel grand public)
Meilleurs Modèles OpenAI pour OpenClaw
Les modèles d'OpenAI offrent des performances générales solides avec des temps de réponse rapides.
GPT-4o — Le Spécialiste du Code et des Appels d'Outils
Prix : Moyen (~2,50 $/10 $ par million de tokens)
La précision de GPT-4o dans les appels de fonction avec des schémas structurés est légèrement supérieure à celle de Claude. Il produit des sorties JSON plus propres, ce qui en fait le choix idéal pour les agents de programmation et les pipelines d'extraction de données.
GPT-4o-mini — Le Polyvalent Économique
Prix : ~0,15 $/0,60 $ par million de tokens
À 20 fois moins cher que Sonnet, c'est le bon choix pour les tâches simples à haut volume. La qualité baisse sur le raisonnement complexe, mais pour les templates, la classification et le formatage, le rapport qualité-prix est imbattable.
o3-mini — Le Raisonneur en Profondeur
Prix : Plus élevé, facturation par token de raisonnement
Pour les agents analytiques nécessitant un raisonnement logique multi-étapes — analyse financière, interprétation de données scientifiques, synthèse de recherche complexe — o3-mini en mode raisonnement moyen ou élevé résout des problèmes hors de portée des autres modèles. Il est plus lent (20-40 secondes par réponse) et plus cher, réservez-le aux tâches spécialisées.
L'Approche Hybride : Mélangez Cloud et Local
La plupart des utilisateurs expérimentés d'OpenClaw utilisent une configuration hybride : modèles locaux pour le simple, cloud pour le complexe.
{
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen3.5:27b",
"thinking": "anthropic/claude-sonnet-4-20250514"
}
}
}
}
Le modèle local gère la lecture de fichiers, les éditions simples et le boilerplate — environ 60-70 % d'une session typique. Sonnet gère le débogage, les décisions d'architecture et le travail multi-fichiers. Votre facture API quotidienne passe de 20-50 $ à ~5 $.
Utilisez un modèle économique pour les tâches simples, un moyen pour le quotidien et un premium pour les tâches difficiles. Commencez avec Claude Sonnet 4 par défaut et passez à Opus ou à un modèle local selon les besoins.
Comparaison des Fournisseurs
| Fournisseur | Fourchette de Prix (par M tokens de sortie) | Idéal pour | Confidentialité |
|---|---|---|---|
| Anthropic (Claude) | 3 $–75 $ | Appels d'outils, suivi d'instructions | Données API non utilisées pour l'entraînement par défaut |
| OpenAI (GPT) | 0,60 $–15 $ | Code, données structurées, vitesse | Traitement standard des données |
| Google (Gemini) | 1,25 $–10 $ | Longs documents, contexte massif | Politiques de données Google Cloud |
| Open-source via haimaker.ai | 0,10 $–5 $ | Optimisation des coûts, conformité confidentialité | Routage entre fournisseurs GPU |
| Ollama (local) | Gratuit | Confidentialité totale, aucun coût API | Les données ne quittent jamais votre machine |
Classements de la Communauté (Mars 2026)
Le classement communautaire PricePerToken suit les préférences réelles des développeurs OpenClaw. Au 27 mars 2026 :
- Kimi K2.5 — Plus voté par la communauté
- Claude Opus 4.5 — Choix premium
- GLM 4.7 — Fort concurrent de Zhipu
- Gemini 3 Flash Preview — Vitesse + rapport qualité-prix
- Claude Sonnet 4.5 — Choix équilibré
Reddit r/LocalLLaMA recommande systématiquement Qwen3.5 27B comme meilleur modèle local, avec de nombreux témoignages de configurations réussies sur du matériel grand public.
Vous cherchez des alternatives à OpenClaw ? Consultez notre guide des meilleures alternatives à OpenClaw.
Arbre de Décision Rapide
- « Je veux quelque chose qui marche » → Claude Sonnet 4. Gère 80 % des tâches, prix raisonnable
- « J'écris du code de production » → Claude Opus 4.5. Le surcoût en vaut la peine pour le débogage complexe
- « Je dois traiter de longs documents » → Gemini 3 Pro. 1M+ tokens de contexte
- « Il me le faut gratuit » → Qwen3.5 27B via Ollama, ou forfait gratuit Gemini Flash
- « Il me le faut pas cher » → MiniMax M2.5 ou GPT-4o-mini
- « La confidentialité est critique » → Qwen3 Coder / Llama 3.3 70B via haimaker.ai, ou auto-hébergez avec Ollama
- « J'utilise OpenClaw sur Telegram » → Claude Sonnet 4 par défaut (tout modèle supporté fonctionne)
FAQ
Quel est le meilleur modèle pour les débutants sur OpenClaw ?
Claude Sonnet 4. Il tolère mieux les fichiers SOUL.md imparfaits, et son suivi d'instructions signifie que les agents ont moins de chances de planter sur des erreurs de configuration initiales.
Peut-on utiliser des modèles différents pour différents agents ?
Pas nativement au sein d'une seule instance OpenClaw. Le modèle configuré dans openclaw.json s'applique à tous les agents. L'alternative est d'exécuter des instances séparées avec des configurations différentes ou d'utiliser la commande /model pour changer en cours de session.
Pourquoi mon agent échoue-t-il constamment avec les modèles locaux ?
La précision des appels d'outils est la cause la plus fréquente. Les modèles plus petits comme Llama 3.1 8B et Mistral 7B déforment parfois les appels de skills ClawHub. Passer à Qwen3.5 27B ou à un modèle cloud comme Claude Haiku résout le problème dans la plupart des cas.
Claude Opus vaut-il le coût pour OpenClaw ?
Pour la plupart des utilisateurs, non. Opus coûte 5 à 10 fois plus que Sonnet par session, et la différence pratique dans les tâches typiques est faible. L'avantage n'apparaît que dans les chaînes de raisonnement très longues et complexes.
Quelle est la façon la moins chère d'utiliser OpenClaw ?
Les modèles locaux via Ollama ne coûtent rien — Qwen3.5 27B tourne sur du matériel grand public et égale les modèles cloud dans de nombreuses tâches. Pour les API cloud, Gemini 3 Flash (~0,075 $/0,30 $ par M tokens) et GPT-4o-mini (~0,15 $/0,60 $) sont les options les moins chères avec de bonnes capacités.
Comment changer de modèle dans OpenClaw ?
Utilisez la commande /model en cours de session : /model opus, /model haimaker/llama-3.3-70b ou /model qwen-local. Pour changer le défaut, modifiez le champ model.primary dans ~/.openclaw/openclaw.json.
Changer de modèle affecte-t-il mes fichiers MEMORY.md ?
Non. MEMORY.md est du texte brut qu'OpenClaw lit et injecte dans le contexte quel que soit le modèle configuré. Les mémoires de session sont entièrement préservées lors d'un changement de modèle.
Quel modèle fonctionne le mieux avec OpenClaw sur Telegram ?
N'importe quel modèle supporté fonctionne avec Telegram — le canal et le modèle sont indépendants. Claude Sonnet 4 est le défaut recommandé pour Telegram car il équilibre bien vitesse, coût et suivi d'instructions dans les interactions de chat.
Peut-on utiliser OpenClaw sans clé API ?
Oui, en exécutant des modèles locaux via Ollama. Aucune clé API externe n'est nécessaire — tout tourne sur votre matériel. Pour les modèles cloud, vous aurez besoin d'une clé du fournisseur concerné (Anthropic, OpenAI, Google ou haimaker.ai).
Quel matériel faut-il pour les modèles locaux ?
Minimum : 8 Go VRAM (RTX 3070 ou Mac M1 16 Go) pour Qwen3.5 9B. Recommandé : 20-24 Go VRAM (RTX 4090 ou Mac M-series 32 Go) pour Qwen3.5 27B. Premium : 48 Go+ VRAM pour Qwen3 Coder Plus ou Llama 3.3 70B.


