Letzte Woche teilte ein Entwickler auf Reddit seine OpenClaw-API-Rechnung: 47 Dollar an einem einzigen Tag. Sein Agent lief mit Claude Opus für alles — einschließlich Aufgaben, die ein $0,15/M-Token-Modell problemlos bewältigt. Die Woche davor beschwerte sich ein anderer Nutzer, dass sein lokales Llama-8B-Modell bei jedem dritten Befehl hängen blieb und ständige Neustarts erzwang.
Beide Probleme haben dieselbe Ursache: die Wahl des falschen LLM-Modells für OpenClaw.
Anders als bei einem einfachen Chatbot, wo die Modellwahl kaum eine Rolle spielt, führt OpenClaw mehrstufige autonome Schleifen aus. Ihr Agent kann 8-12 Tool-Aufrufe in einer einzigen Sitzung verketten — Dateien lesen, APIs aufrufen, Code schreiben, Nachrichten senden. Wenn das Modell in Schritt 6 den Kontext verliert oder einen Funktionsaufruf vermasselt, bricht die gesamte Kette zusammen. Ein zu leistungsstarkes Modell erschöpft Ihr API-Budget in Minuten; ein zu schwaches scheitert mitten in der Aufgabe.
Dieser Leitfaden zeigt genau, welche Modelle Sie für welche Aufgaben verwenden sollten, basierend auf realen Tests, Community-Konsens und aktuellen Preisdaten (März 2026). Ob Sie Kosten, Leistung oder Datenschutz optimieren möchten — hier finden Sie Ihre Antwort.
- Bestes Allround: Claude Sonnet 4 — $3/$15 pro M Token, bewältigt 80% der Aufgaben
- Bestes für Code: Claude Opus 4.5 — $15/$75, bestes Multi-Datei-Debugging
- Bestes für Recherche: Gemini 3 Pro — $1.25/$10, 1M+ Token Kontextfenster
- Bestes Budget: GPT-4o-mini — $0.15/$0.60, 20x günstiger als Sonnet
- Bestes Kostenlos/Lokal: Qwen3.5 27B via Ollama — $0, erreicht GPT-5 Mini auf SWE-bench
- Bestes für Datenschutz: Qwen3 Coder oder Llama 3.3 70B — Open-Source, selbst hostbar
Was ist OpenClaw (und warum die Modellwahl wichtig ist)
OpenClaw (ehemals Clawdbot) ist ein kostenloser und quelloffener KI-Agent, entwickelt vom österreichischen Entwickler Peter Steinberger. Im Februar 2026 erreichte es 100.000 GitHub-Stars — eines der am schnellsten wachsenden Open-Source-Projekte in der Geschichte der KI. Im selben Monat wechselte Steinberger zu OpenAI, um seine Arbeit an autonomen Agents in größerem Maßstab fortzusetzen.
Was OpenClaw von einem gewöhnlichen Chatbot unterscheidet:
- Läuft auf Ihrem Rechner — Mac, Windows oder Linux. Ihre Daten bleiben standardmäßig lokal
- Jede Chat-App — Telegram, WhatsApp, Discord, Slack, Signal oder iMessage
- Persistenter Speicher — Merkt sich Ihre Präferenzen und den Kontext über Sitzungen hinweg (via MEMORY.md)
- Voller Systemzugriff — Dateien lesen/schreiben, Shell-Befehle, Skripte ausführen
- Browser-Steuerung — Web durchsuchen, Formulare ausfüllen, Daten extrahieren
- Skills & Plugins — Erweiterbar mit Community-Skills oder eigenen
Das Modell treibt alles an. Jede gesendete E-Mail, jede gelesene Datei, jeder API-Aufruf geht durch das LLM. Ein Fehler in Schritt 8 einer 12-Schritte-Aufgabe bedeutet, von vorne anzufangen — deshalb ist die Modellwahl bei OpenClaw wichtiger als bei fast jedem anderen KI-Tool.
Wenn Sie neu bei OpenClaw sind, lesen Sie unsere OpenClaw-Trendanalyse für einen tieferen Einblick, warum dieses Projekt viral ging.
Was ein Modell für OpenClaw geeignet macht
Die meisten KI-Benchmarks testen Einzelantworten. OpenClaw-Aufgaben sind grundlegend anders — ein Recherche-Agent kann 8-12 sequenzielle Tool-Aufrufe ausführen, und das Modell muss über alle hinweg kohärent bleiben.
Drei Fähigkeiten sind am wichtigsten:
Genauigkeit bei Tool-Aufrufen
OpenClaws Skills verwenden strukturierte Funktionsaufrufe. Das Modell muss Shell-Befehle und APIs mit exakten Parameterformaten aufrufen. Wenn es das JSON-Schema vermasselt oder einen Tool-Namen halluziniert, bleibt der Agent stecken.
Kontextbeibehaltung
SOUL.md, AGENTS.md, USER.md und MEMORY.md werden alle beim Start in den Kontext geladen. Zusammen mit der Gesprächshistorie und den Tool-Ausgaben haben Sie leicht 10.000+ Token, bevor der Agent irgendetwas tut. Das Modell muss all dies verfolgen, ohne nach 50 Nachrichten den Faden zu verlieren.
Anweisungsbefolgung
SOUL.md legt Verhaltensregeln fest — was der Agent darf und was nicht, wie er antworten soll, welche Tools er bevorzugen soll. Schwächere Modelle weichen mitten in der Sitzung von diesen Regeln ab und erzeugen unvorhersehbares Verhalten.
Preis vs. Leistung vs. Datenschutz — die Kompromisse
- Cloud-APIs (Anthropic, OpenAI, Google) bieten die beste Leistung, aber Ihre Prompts gehen an externe Server
- Open-Source-Modelle über API-Anbieter (haimaker.ai) bieten einen Mittelweg — niedrigere Kosten, bessere Datenschutz-Compliance
- Selbst gehostete lokale Modelle (Ollama) sind kostenlos und vollständig privat, erfordern aber Hardware und tolerieren höhere Latenz
Sie können zwei von drei optimieren: Preis, Leistung, Datenschutz. Selten alle drei. Die meisten Nutzer sollten die zwei wichtigsten wählen und den Kompromiss beim dritten akzeptieren.
Beste Modelle für OpenClaw nach Anwendungsfall
Bestes Allround: Claude Sonnet 4
Preis: $3/$15 pro Million Token (Eingabe/Ausgabe)
Claude Sonnet 4 ist die sicherste Standardwahl für neue OpenClaw-Konfigurationen. Es verarbeitet SOUL.md-Anweisungen besser als jedes andere Modell in seiner Preisklasse.
In einem 12-Schritte-Recherche-Agent-Test mit Sonnet und GPT-4o bei derselben Aufgabe blieb Sonnet in 9 von 12 Durchläufen innerhalb des SOUL.md-Rahmens. GPT-4o wich in 3 Fällen ab und bezog explizit ausgeschlossene Quellen ein.
Sonnet glänzt bei:
- Langen SOUL.md-Dateien (5.000+ Token) mit vielen Verhaltensregeln
- Recherche-Agents, die strukturierte Berichte aus mehreren Quellen synthetisieren
- Schreib-Agents, die über mehrstufige Entwürfe einen konsistenten Ton beibehalten
- Allzweck-ClawHub-Skills aus dem Marketplace
- Beste Anweisungsbefolgung in der mittleren Preisklasse
- Schnell genug für Echtzeit-Chat auf Telegram/WhatsApp
- Bewältigt 80% der typischen Assistenzaufgaben ohne das Budget zu sprengen
- Solide Zuverlässigkeit bei Tool-Aufrufen
- Nicht die günstigste Option für einfache, repetitive Aufgaben
- Opus übertrifft es bei sehr komplexer Multi-Datei-Programmierung
- Kleineres Kontextfenster als Gemini 3 Pro
Konfiguration:
{
"agents": {
"defaults": {
"model": {
"primary": "anthropic/claude-sonnet-4-20250514"
}
}
}
}
Bestes für Code: Claude Opus 4.5
Preis: $15/$75 pro Million Token (Eingabe/Ausgabe)
Wenn der Code tatsächlich funktionieren muss — Multi-Datei-Bearbeitungen, komplexes Debugging, Architekturentscheidungen — ist Opus 4.5 den Aufpreis wert.
Die kosteneffiziente Alternative: Extended Thinking bei Sonnet 4 aktivieren. Sie zahlen nur dann mehr pro Reasoning-Token, wenn die Aufgabe es erfordert.
Verwenden Sie Opus für komplexe Debugging-Sessions, Multi-Datei-Refactoring und Architekturplanung. Für alles andere liefert Sonnet mit Extended Thinking 80% der Opus-Leistung zu einem Bruchteil der Kosten.
Bestes für Recherche & lange Dokumente: Gemini 3 Pro
Preis: ~$1.25/$10 pro Million Token (Eingabe/Ausgabe)
Gemini 3 Pros Killerfeature ist sein 1M+ Token Kontextfenster. Sie können eine komplette Codebase hineinwerfen und nach dem Bug fragen lassen. Für lange Dokumentanalysen, Vertragsprüfungen oder Codebase-Q&A gibt es nichts Vergleichbares.
Gemini 3 Flash (~$0.075/$0.30) ist die Geschwindigkeits-/Kostenoption — günstig, schnell und überraschend leistungsfähig für einfachere Aufgaben. Google bietet auch einen kostenlosen Tarif für Flash an.
Konfiguration für Gemini:
{
"models": {
"providers": {
"haimaker": {
"models": [
{ "id": "google/gemini-3-pro", "name": "Gemini 3 Pro" },
{ "id": "google/gemini-3-flash", "name": "Gemini 3 Flash" }
]
}
}
}
}
Beste Budget-Optionen
Nicht jede Aufgabe braucht ein $15/M-Token-Modell. Für einfache Aufgaben mit hohem Volumen senken leichte Modelle die Kosten um das 10-20-Fache.
| Modell | Preis (Eingabe/Ausgabe pro M Token) | Am besten für |
|---|---|---|
| GPT-4o-mini | ~$0.15/$0.60 | Einfache Abfragen, Template-Befüllung |
| Claude Haiku 3.5 | ~$0.25/$1.25 | Formatierung, Klassifizierung, Tagging |
| MiniMax M2.5 | ~$0.10/$0.50 | Einfache Automatisierung mit hohem Volumen |
| Gemini 3 Flash | ~$0.075/$0.30 | Geschwindigkeitskritische Aufgaben, kostenloser Tarif verfügbar |
Wenn Ihr Agent etwas wie: CSV-Zeile lesen → Template anwenden → Ausgabedatei schreiben macht, erledigt ein leichtes Modell das schneller und günstiger. Reservieren Sie Premium-Modelle für Aufgaben, die Urteilsvermögen erfordern.
Beste kostenlose und lokale Modelle für OpenClaw (Ollama)
Lokale Modelle über Ollama auszuführen kostet nichts und hält Ihre Daten vollständig auf Ihrem Rechner. Der Kompromiss sind Hardware-Anforderungen und etwas geringere Leistung bei schwierigen Aufgaben.
Lokale Modelle im Ranking
| Rang | Modell | SWE-bench | Geschwindigkeit (RTX 4090) | VRAM benötigt |
|---|---|---|---|---|
| 1 | Qwen3.5 27B | 72.4% | ~40 t/s | 20-24GB |
| 2 | Qwen3.5 35B-A3B (MoE) | Niedriger | ~112 t/s | 8-16GB |
| 3 | Qwen3 Coder Plus | 70.6% | ~20 t/s | 48GB+ |
| 4 | Qwen3.5 9B | Basis | ~80 t/s | 8GB |
Qwen3.5 27B ist der Höhepunkt — seine SWE-bench-Bewertung von 72,4% bringt es in dieselbe Liga wie GPT-5 Mini, ein Cloud-Modell, für das Sie normalerweise pro Token bezahlen würden. Auf einer einzelnen Consumer-GPU oder einem 32GB M-Series Mac erhalten Sie Cloud-Qualität kostenlos.
Hardware-Anforderungen
| Stufe | VRAM | Hardware-Beispiele | Empfohlene Modelle |
|---|---|---|---|
| Einstieg | 8-16GB | RTX 3070/4060, MacBook M1/M2 16GB | Qwen3.5 9B, Qwen3.5 35B-A3B |
| Empfohlen | 20-24GB | RTX 4090, Mac M2/M3 Pro/Max 32GB | Qwen3.5 27B |
| Premium | 48GB+ | 2x A6000, Mac M2/M3 Ultra 64GB+ | Qwen3 Coder Plus, Llama 3.3 70B |
Bei Apple Silicon Macs funktioniert der Unified Memory hervorragend für LLM-Inferenz. Apple optimiert Metal kontinuierlich für LLM-Workloads. Ein 32GB M3 Pro führt Qwen3.5 27B problemlos aus.
Ollama mit OpenClaw einrichten
Schritt 1: Ollama installieren und ein Modell herunterladen:
curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen3.5:27b # Beste Qualität, benötigt 20GB+ VRAM
# ODER
ollama pull qwen3.5:35b-a3b # Schnelles MoE-Modell, läuft mit 16GB
# ODER
ollama pull qwen3.5:9b # Leichtgewicht, läuft mit 8GB
Schritt 2: OpenClaw konfigurieren:
Führen Sie den Einrichtungsassistenten aus:
openclaw onboard --auth-choice ollama
Oder fügen Sie Ollama manuell in ~/.openclaw/openclaw.json hinzu:
{
"models": {
"providers": {
"ollama": {
"baseUrl": "http://localhost:11434/v1",
"api": "openai-completions",
"models": [
{
"id": "qwen3.5:27b",
"name": "Qwen3.5 27B",
"reasoning": false,
"contextWindow": 131072,
"maxTokens": 8192
}
]
}
}
},
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen3.5:27b"
}
}
}
}
Schritt 3: Zu Ihrem lokalen Modell wechseln:
/model qwen-local
Stärken und Schwächen lokaler Modelle
Stärken:
- Code lesen und zusammenfassen
- Boilerplate- und CRUD-Code generieren
- Dateioperationen und einfaches Refactoring
- Agentische Tool-Aufrufe (Qwen3.5 27B BFCL-V4: 72.2)
Schwächen:
- Multi-Datei-Refactoring (5+ Dateien über verschiedene Kontexte)
- Komplexes Debugging über Abstraktionsschichten
- Geschwindigkeit bei dichten Modellen (~40 t/s vs. Cloud-API 80-150 t/s)
- Sehr langer Kontext (Qualität sinkt nach ~32K Token auf Consumer-Hardware)
Beste OpenAI-Modelle für OpenClaw
OpenAIs Modelle bieten solide Allround-Leistung mit schnellen Antwortzeiten.
GPT-4o — Der Code- & Tool-Calling-Spezialist
Preis: Mittel (~$2.50/$10 pro Million Token)
GPT-4os Genauigkeit bei Funktionsaufrufen mit strukturierten Schemas ist etwas höher als die von Claude. Es produziert sauberere JSON-Ausgaben und ist damit ideal für Programmier-Agents und Datenextraktions-Pipelines.
GPT-4o-mini — Das Budget-Arbeitstier
Preis: ~$0.15/$0.60 pro Million Token
Bei 20x günstiger als Sonnet ist es die richtige Wahl für einfache Aufgaben mit hohem Volumen. Die Qualität sinkt bei komplexem Reasoning, aber für Templates, Klassifizierung und Formatierung ist das Preis-Leistungs-Verhältnis unschlagbar.
o3-mini — Der Tiefdenker
Preis: Höher, Abrechnung pro Reasoning-Token
Für analytische Agents, die mehrstufiges logisches Denken erfordern — Finanzanalyse, wissenschaftliche Dateninterpretation, komplexe Forschungssynthese — bewältigt o3-mini im mittleren oder hohen Reasoning-Modus Probleme, die andere Modelle nicht lösen können. Es ist langsamer (20-40 Sekunden pro Antwort) und teurer, verwenden Sie es daher nur für spezialisierte Aufgaben.
Der hybride Ansatz: Cloud und Lokal kombinieren
Die meisten erfahrenen OpenClaw-Nutzer verwenden eine hybride Konfiguration: lokale Modelle für Einfaches, Cloud für Schwieriges.
{
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen3.5:27b",
"thinking": "anthropic/claude-sonnet-4-20250514"
}
}
}
}
Das lokale Modell übernimmt Dateilesen, einfache Bearbeitungen und Boilerplate — etwa 60-70% einer typischen Sitzung. Sonnet übernimmt Debugging, Architekturentscheidungen und Multi-Datei-Arbeit. Ihre tägliche API-Rechnung sinkt von $20-50 auf ~$5.
Verwenden Sie ein günstiges Modell für einfache Aufgaben, ein mittleres für den Alltag und ein Premium-Modell für die schwierigen. Beginnen Sie mit Claude Sonnet 4 als Standard und wechseln Sie bei Bedarf zu Opus oder einem lokalen Modell.
Anbietervergleich
| Anbieter | Preisbereich (pro M Ausgabe-Token) | Am besten für | Datenschutz |
|---|---|---|---|
| Anthropic (Claude) | $3–$75 | Tool-Aufrufe, Anweisungsbefolgung | API-Daten werden standardmäßig nicht für Training verwendet |
| OpenAI (GPT) | $0.60–$15 | Code, strukturierte Daten, Geschwindigkeit | Standard-Datenverarbeitung |
| Google (Gemini) | $1.25–$10 | Lange Dokumente, massiver Kontext | Google Cloud Datenrichtlinien |
| Open-Source via haimaker.ai | $0.10–$5 | Kostenoptimierung, Datenschutz-Compliance | Routing über GPU-Anbieter |
| Ollama (lokal) | Kostenlos | Voller Datenschutz, keine API-Kosten | Daten verlassen nie Ihren Rechner |
Community-Rankings (März 2026)
Das PricePerToken Community-Leaderboard verfolgt reale Modellpräferenzen von OpenClaw-Entwicklern. Stand 27. März 2026:
- Kimi K2.5 — Meiste Community-Stimmen
- Claude Opus 4.5 — Premium-Wahl
- GLM 4.7 — Starker Konkurrent von Zhipu
- Gemini 3 Flash Preview — Geschwindigkeit + Wert
- Claude Sonnet 4.5 — Ausgewogene Wahl
Reddit r/LocalLLaMA empfiehlt durchgehend Qwen3.5 27B als bestes lokales Modell, mit zahlreichen Berichten über erfolgreiche Konfigurationen auf Consumer-Hardware.
Suchen Sie nach Alternativen zu OpenClaw selbst? Sehen Sie unseren Leitfaden zu den besten OpenClaw-Alternativen.
Schneller Entscheidungsbaum
- „Ich will einfach etwas, das funktioniert" → Claude Sonnet 4. Bewältigt 80% der Aufgaben, vernünftiger Preis
- „Ich schreibe Produktionscode" → Claude Opus 4.5. Den Aufpreis wert für komplexes Debugging
- „Ich muss lange Dokumente verarbeiten" → Gemini 3 Pro. 1M+ Token Kontext
- „Es muss kostenlos sein" → Qwen3.5 27B via Ollama, oder Gemini Flash kostenloser Tarif
- „Es muss günstig sein" → MiniMax M2.5 oder GPT-4o-mini
- „Datenschutz ist entscheidend" → Qwen3 Coder / Llama 3.3 70B via haimaker.ai, oder selbst hosten mit Ollama
- „Ich nutze OpenClaw auf Telegram" → Claude Sonnet 4 als Standard (jedes unterstützte Modell funktioniert)
FAQ
Welches ist das beste Modell für OpenClaw-Anfänger?
Claude Sonnet 4. Es toleriert unvollkommene SOUL.md-Dateien besser, und seine Anweisungsbefolgung bedeutet, dass Agents weniger wahrscheinlich bei anfänglichen Konfigurationsfehlern versagen.
Kann ich verschiedene Modelle für verschiedene Agents verwenden?
Nativ nicht innerhalb einer einzelnen OpenClaw-Instanz. Das in openclaw.json eingestellte Modell gilt für alle Agents. Die Alternative ist, separate Instanzen mit unterschiedlichen Konfigurationen auszuführen oder den /model-Befehl zum Wechseln während der Sitzung zu verwenden.
Warum scheitert mein Agent ständig mit lokalen Modellen?
Die Genauigkeit bei Tool-Aufrufen ist die häufigste Ursache. Kleinere Modelle wie Llama 3.1 8B und Mistral 7B verformen manchmal ClawHub-Skill-Aufrufe. Der Wechsel zu Qwen3.5 27B oder einem Cloud-Modell wie Claude Haiku löst dies in den meisten Fällen.
Lohnt sich Claude Opus für OpenClaw?
Für die meisten Nutzer nicht. Opus kostet 5-10x mehr als Sonnet pro Sitzung, und der praktische Unterschied bei typischen Aufgaben ist gering. Der Vorteil zeigt sich nur bei sehr langen, komplexen Reasoning-Ketten.
Was ist der günstigste Weg, OpenClaw zu betreiben?
Lokale Modelle über Ollama kosten nichts — Qwen3.5 27B läuft auf Consumer-Hardware und erreicht bei vielen Aufgaben Cloud-Modell-Qualität. Bei Cloud-APIs sind Gemini 3 Flash ($0.075/$0.30 pro M Token) und GPT-4o-mini ($0.15/$0.60) die günstigsten leistungsfähigen Optionen.
Wie wechsle ich das Modell in OpenClaw?
Verwenden Sie den /model-Befehl während der Sitzung: /model opus, /model haimaker/llama-3.3-70b oder /model qwen-local. Um den Standard zu ändern, bearbeiten Sie das Feld model.primary in ~/.openclaw/openclaw.json.
Beeinflusst ein Modellwechsel meine MEMORY.md-Dateien?
Nein. MEMORY.md ist reiner Text, den OpenClaw unabhängig vom konfigurierten Modell liest und in den Kontext injiziert. Sitzungserinnerungen werden beim Modellwechsel vollständig beibehalten.
Welches Modell funktioniert am besten mit OpenClaw auf Telegram?
Jedes unterstützte Modell funktioniert mit Telegram — Kanal und Modell sind unabhängig. Claude Sonnet 4 ist der empfohlene Standard für Telegram, da es Geschwindigkeit, Kosten und Anweisungsbefolgung bei Chat-Interaktionen gut ausbalanciert.
Kann ich OpenClaw ohne API-Schlüssel verwenden?
Ja, wenn Sie lokale Modelle über Ollama ausführen. Sie brauchen keinen externen API-Schlüssel — alles läuft auf Ihrer Hardware. Für Cloud-Modelle benötigen Sie einen Schlüssel vom jeweiligen Anbieter (Anthropic, OpenAI, Google oder haimaker.ai).
Welche Hardware benötige ich für lokale Modelle?
Minimum: 8GB VRAM (RTX 3070 oder Mac M1 16GB) für Qwen3.5 9B. Empfohlen: 20-24GB VRAM (RTX 4090 oder Mac M-Series 32GB) für Qwen3.5 27B. Premium: 48GB+ VRAM für Qwen3 Coder Plus oder Llama 3.3 70B.


