2026 年 OpenClaw 最佳模型完全指南

OpenClaw 该用哪个 LLM？我们实测了 Claude、GPT、Gemini 和本地 Ollama 模型，按用途和预算帮你找到最合适的选择。

上周，一个开发者在 Reddit 晒出了他的 OpenClaw API 账单：一天 47 美元。他的 Agent 所有任务都在跑 Claude Opus——包括那些 $0.15/百万 token 的轻量模型就能搞定的活。再往前一周，另一个用户抱怨他的本地 Llama 8B 模型每三个指令就卡一次，不得不反复重启。

这两个问题的根源一模一样：给 OpenClaw 选错了 LLM 模型。

和普通聊天机器人不同，OpenClaw 跑的是多步骤自主循环。一个 Agent 在单次会话中可能会串联 8-12 次工具调用——读文件、调 API、写代码、发消息。如果模型在第 6 步丢了上下文或者搞砸了函数调用，整条链路就断了。模型太强浪费钱，太弱又干不了活。

这篇指南会详细拆解不同任务该用什么模型，基于实际测试、社区共识和 2026 年 3 月的最新价格数据。不管你是想省钱、要性能还是重隐私——这里都有答案。

TL;DR — 快速推荐

通用最佳: Claude Sonnet 4 — $3/$15 每百万 token，搞定 80% 的任务
编程最佳: Claude Opus 4.5 — $15/$75，多文件调试最强
研究最佳: Gemini 3 Pro — $1.25/$10，1M+ token 上下文窗口
预算最佳: GPT-4o-mini — $0.15/$0.60，比 Sonnet 便宜 20 倍
免费/本地最佳: Qwen3.5 27B via Ollama — $0，SWE-bench 媲美 GPT-5 Mini
隐私最佳: Qwen3 Coder 或 Llama 3.3 70B — 开源可自托管

什么是 OpenClaw（以及为什么模型选择很重要）

OpenClaw（原名 Clawdbot）是奥地利开发者 Peter Steinberger 开发的免费开源 AI Agent。2026 年 2 月 GitHub star 数突破 10 万，成为 AI 历史上增长最快的开源项目之一。同月，Steinberger 加入了 OpenAI，在更大的平台上继续推进自主 Agent 的研发。

OpenClaw 和普通聊天机器人的区别：

本地运行 — Mac、Windows 或 Linux，数据默认留在本地
任意聊天应用 — Telegram、WhatsApp、Discord、Slack、Signal、iMessage
持久记忆 — 通过 MEMORY.md 记住你的偏好和上下文
完整系统权限 — 读写文件、执行 Shell 命令、运行脚本
浏览器控制 — 浏览网页、填写表单、抓取数据
Skills 与插件 — 使用社区 Skills 或自建

模型驱动着一切。Agent 发的每封邮件、读的每个文件、调的每个 API 都经过 LLM。在 12 步任务的第 8 步失败意味着从头来过——这就是为什么 OpenClaw 的模型选择比几乎所有其他 AI 工具都更重要。

如果你刚接触 OpenClaw，可以看看我们的 OpenClaw 趋势分析，深入了解这个项目为什么爆火。

什么样的模型适合 OpenClaw

多数 AI 基准测试的是单轮回答。OpenClaw 的任务完全不同——一个研究 Agent 可能要跑 8-12 次顺序工具调用，模型需要全程保持连贯。

三项能力最关键：

工具调用准确性

OpenClaw 的 Skills 使用结构化函数调用。模型必须用精确的参数格式调用 Shell 命令和 API。一旦搞砸 JSON schema 或者"幻觉"出一个不存在的工具名，Agent 就卡住了。

上下文保持

SOUL.md、AGENTS.md、USER.md 和 MEMORY.md 在启动时全部加载到上下文中。加上对话历史和工具输出，Agent 还没开始干活就已经有 10,000+ token 了。模型需要在 50 条消息之后仍然不丢线索。

指令遵循

SOUL.md 设定了行为规则——Agent 能做什么不能做什么、怎么回应、优先用哪些工具。弱一点的模型在会话中期就会偏离这些规则，导致不可预测的行为。

Price vs Capability vs Privacy — 三大权衡

云端 API（Anthropic、OpenAI、Google）能力最强，但你的 prompt 会发送到外部服务器
开源模型通过 API 提供商（haimaker.ai）路由，成本更低、隐私更合规
本地自托管（Ollama）完全免费和私密，但需要硬件，延迟更高

不可能三角

你最多能同时优化两项：价格、能力、隐私。很少能三者兼得。大多数用户应该选最重要的两项，接受第三项的妥协。

按用途推荐的最佳模型

通用最佳：Claude Sonnet 4

价格: $3/$15 每百万 token（输入/输出）

Claude Sonnet 4 是新 OpenClaw 配置的最安全默认选择。在同价位模型中，它对 SOUL.md 指令的遵循最好。

在一个 12 步研究 Agent 对比测试中，Sonnet 有 9/12 次保持在 SOUL.md 定义的范围内，而 GPT-4o 有 3 次偏离，拉取了被明确排除的来源。

Sonnet 擅长：

长 SOUL.md 文件（5,000+ token）的多行为规则
从多个来源综合输出结构化报告的研究 Agent
跨多步骤保持一致语气的写作 Agent
ClawHub 市场上的通用 Skills

中等价位中指令遵循最好
响应速度足够支撑 Telegram/WhatsApp 实时聊天
搞定 80% 的常规助手任务，花费合理
工具调用可靠性强

对于简单重复任务来说不是最便宜的
非常复杂的多文件编程场景不如 Opus
上下文窗口比 Gemini 3 Pro 小

配置：

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "anthropic/claude-sonnet-4-20250514"
      }
    }
  }
}

编程最佳：Claude Opus 4.5

价格: $15/$75 每百万 token（输入/输出）

当代码必须能跑——多文件编辑、复杂调试、架构决策——Opus 4.5 的额外花费是值得的。它处理多步推理链的能力比 Sonnet 更稳定。

性价比替代方案：给 Sonnet 4 开启 extended thinking。只有在任务需要时才按推理 token 收费，不用全程付 Opus 的价格。

什么时候 Opus 值得用

复杂调试会话、多文件重构、架构规划时用 Opus。其他场景，Sonnet + extended thinking 能给你 80% 的 Opus 能力，成本只要一小部分。

研究与长文档最佳：Gemini 3 Pro

价格: ~$1.25/$10 每百万 token（输入/输出）

Gemini 3 Pro 的杀手锏是 1M+ token 上下文窗口。你可以把整个代码库扔给它，让它找 bug。在长文档分析、合同审查、代码库问答方面无人能及。

Gemini 3 Flash（~$0.075/$0.30）是速度/成本选项——便宜、快速，简单任务表现不错。Google 还为 Flash 提供免费套餐。

Gemini 配置：

{
  "models": {
    "providers": {
      "haimaker": {
        "models": [
          { "id": "google/gemini-3-pro", "name": "Gemini 3 Pro" },
          { "id": "google/gemini-3-flash", "name": "Gemini 3 Flash" }
        ]
      }
    }
  }
}

最佳预算选择

不是每个任务都需要 $15/百万 token 的模型。对于高频简单任务，轻量模型能节省 10-20 倍的成本。

模型	价格（输入/输出每百万 token）	最适合
GPT-4o-mini	~$0.15/$0.60	简单查询、模板填充
Claude Haiku 3.5	~$0.25/$1.25	格式化、分类、标签
MiniMax M2.5	~$0.10/$0.50	高频简单自动化
Gemini 3 Flash	~$0.075/$0.30	速度优先、有免费套餐

什么时候用预算模型

如果你的 Agent 做的是：读一行 CSV → 套模板 → 写输出文件，轻量模型更快更便宜。把高端模型留给需要判断力的任务。

OpenClaw 最佳免费和本地模型（Ollama）

通过 Ollama 在本地跑模型完全免费，数据不离开你的机器。代价是需要硬件配置，高难度任务的能力稍弱。

本地模型排名

排名	模型	SWE-bench	速度（RTX 4090）	显存需求
1	Qwen3.5 27B	72.4%	~40 t/s	20-24GB
2	Qwen3.5 35B-A3B（MoE）	较低	~112 t/s	8-16GB
3	Qwen3 Coder Plus	70.6%	~20 t/s	48GB+
4	Qwen3.5 9B	基础	~80 t/s	8GB

Qwen3.5 27B 是最大亮点——SWE-bench 72.4% 的得分让它和 GPT-5 Mini 这种云端付费模型处于同一水平。在一块消费级显卡或 32GB M 系列 Mac 上，你就能免费获得云端品质的结果。

35B-A3B 是混合专家模型，每次前向传播只激活 3B 参数。在 RTX 3090 上能跑到 112 tokens/秒——快到像云端 API。高难度任务质量差一些，但用来生成模板代码和简单编辑非常出色。

硬件需求

层级	显存	硬件示例	推荐模型
入门	8-16GB	RTX 3070/4060，16GB M1/M2 MacBook	Qwen3.5 9B, Qwen3.5 35B-A3B
推荐	20-24GB	RTX 4090，32GB M2/M3 Pro/Max	Qwen3.5 27B
高端	48GB+	2x A6000，64GB+ M2/M3 Ultra	Qwen3 Coder Plus, Llama 3.3 70B

M 系列 Mac 用户

Apple Silicon Mac 的统一内存非常适合跑 LLM 推理。Apple 一直在优化 Metal 的 LLM 工作负载。32GB M3 Pro 跑 Qwen3.5 27B 毫无压力。

如何用 Ollama 配置 OpenClaw

第一步：安装 Ollama 并拉取模型：

curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen3.5:27b     # 最佳质量，需要 20GB+ 显存
# 或者
ollama pull qwen3.5:35b-a3b # 快速 MoE 模型，16GB 可跑
# 或者
ollama pull qwen3.5:9b      # 轻量级，8GB 可跑

第二步：配置 OpenClaw：

运行引导向导：

openclaw onboard --auth-choice ollama

或者手动编辑 ~/.openclaw/openclaw.json：

{
  "models": {
    "providers": {
      "ollama": {
        "baseUrl": "http://localhost:11434/v1",
        "api": "openai-completions",
        "models": [
          {
            "id": "qwen3.5:27b",
            "name": "Qwen3.5 27B",
            "reasoning": false,
            "contextWindow": 131072,
            "maxTokens": 8192
          }
        ]
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen3.5:27b"
      }
    }
  }
}

第三步：切换到本地模型：

/model qwen-local

本地模型的优势和短板

擅长：

代码阅读和摘要
模板代码和 CRUD 代码生成
文件操作和简单重构
Agent 工具调用（Qwen3.5 27B BFCL-V4 得分：72.2）

不擅长：

多文件重构（5+ 文件跨上下文）
跨抽象层的复杂调试
密集模型速度较慢（~40 t/s vs 云端 API 80-150 t/s）
超长上下文（消费级硬件上超过 ~32K token 质量下降）

OpenClaw 最佳 OpenAI 模型

OpenAI 的模型提供稳定的通用性能和较快的响应速度。

GPT-4o — 编程与工具调用专家

价格: 中等（~$2.50/$10 每百万 token）

GPT-4o 在结构化 schema 上的函数调用准确性略高于 Claude，JSON 输出更干净。是编程 Agent 和数据提取管线的首选。

最适合：

代码生成和调试 Agent
结构化数据提取（HTML 表格、JSON 转换）
严格输出 schema 的多工具编排
响应速度比指令遵循更重要的场景

GPT-4o-mini — 预算主力

价格: ~$0.15/$0.60 每百万 token

比 Sonnet 便宜 20 倍，适合简单的高频任务。需要细致推理的场景质量会下降，但模板填充、分类、格式化方面性价比极高。

o3-mini — 深度推理

价格: 较高，按推理 token 计费

对于需要多步逻辑推理的分析 Agent——金融分析、科学数据解读、复杂研究综合——o3-mini 在中高推理模式下能处理其他模型搞不定的问题。响应慢（20-40 秒），成本更高，只建议用于特殊任务。

混合方案：云端 + 本地

多数资深 OpenClaw 用户采用混合配置：本地模型处理简单任务，云端处理难题。

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen3.5:27b",
        "thinking": "anthropic/claude-sonnet-4-20250514"
      }
    }
  }
}

本地模型处理文件读取、简单编辑、模板代码——大约占一个典型会话的 60-70%。Sonnet 处理调试、架构决策和多文件操作。每日 API 账单从 $20-50 降到 ~$5。

需要更强能力时手动切换：

/model sonnet

最佳实践：按任务复杂度路由

简单任务用便宜模型，日常工作用中端模型，难题用高端模型。默认用 Claude Sonnet 4，按需切换到 Opus 或本地模型。

提供商对比

提供商	价格范围（每百万输出 token）	最适合	隐私
Anthropic（Claude）	$3–$75	工具调用、指令遵循	API 数据默认不用于训练
OpenAI（GPT）	$0.60–$15	编程、结构化数据、速度	标准数据处理
Google（Gemini）	$1.25–$10	长文档、超大上下文	Google Cloud 数据政策
开源 via haimaker.ai	$0.10–$5	成本优化、隐私合规	跨 GPU 提供商路由
Ollama（本地）	免费	完全隐私、零 API 成本	数据不离开你的机器

社区排名（2026 年 3 月）

PricePerToken 社区排行榜跟踪 OpenClaw 开发者的真实模型偏好。截至 2026 年 3 月 27 日：

Kimi K2.5 — 社区票数最高
Claude Opus 4.5 — 高端首选
GLM 4.7 — 智谱强劲竞争者
Gemini 3 Flash Preview — 速度 + 性价比
Claude Opus 4.6 — 最新高端
Claude Sonnet 4.5 — 均衡选择
GPT-5.2 — OpenAI 最新
DeepSeek V3 — 开源性价比之选
MiniMax M2.1 — 预算冠军
Mixtral 8x7B Instruct — 经典开源

Reddit 的 r/LocalLLaMA 一致推荐 Qwen3.5 27B 作为最佳本地模型，多个帖子报告了在消费级硬件上的成功配置经验。

在考虑 OpenClaw 的替代品？看看我们的 OpenClaw 最佳替代品指南。

快速决策树

30 秒选模型

"我只想开箱即用" → Claude Sonnet 4。搞定 80% 的任务，价格合理
"我要写生产代码" → Claude Opus 4.5。复杂调试值得这个价
"我要处理长文档" → Gemini 3 Pro。1M+ token 上下文
"我要免费" → Qwen3.5 27B via Ollama，或 Gemini Flash 免费套餐
"我要便宜" → MiniMax M2.5 或 GPT-4o-mini
"数据隐私是重点" → Qwen3 Coder / Llama 3.3 70B via haimaker.ai，或 Ollama 自托管
"我在 Telegram 上用 OpenClaw" → Claude Sonnet 4 作为默认（所有支持的模型都能用）

FAQ

OpenClaw 新手用什么模型最好？

Claude Sonnet 4。它对不完美的 SOUL.md 文件容错性更好，指令遵循能力强，Agent 不容易在早期配置错误上崩溃。等你调好配置后，可以考虑更轻量的模型是否符合你的需求。

能不能给不同的 Agent 用不同的模型？

在单个 OpenClaw 实例中原生不支持。openclaw.json 中设置的模型适用于该网关的所有 Agent。变通方法是运行多个不同配置的网关实例，或者用 /model 命令在会话中切换。

为什么我的 Agent 用本地模型老是失败？

工具调用准确性是最常见的原因。较小的模型如 Llama 3.1 8B 和 Mistral 7B 有时会搞错 ClawHub Skill 调用的格式，导致 Agent 卡住或无限重试。切换到 Qwen3.5 27B 或 Claude Haiku 等云端模型通常能解决问题。

Claude Opus 用在 OpenClaw 上值得吗？

对大多数用户来说不值得。Opus 每次会话的成本是 Sonnet 的 5-10 倍，但在日常 OpenClaw 任务中实际差距不大。优势只在非常长且复杂的推理链中才明显——不是标准的研究或写作 Agent 工作流。

运行 OpenClaw 最便宜的方式是什么？

通过 Ollama 跑本地模型完全免费——Qwen3.5 27B 在消费级硬件上就能跑，很多任务和云端模型一样好。云端 API 中，Gemini 3 Flash（~~$0.075/$0.30 每百万 token）和 GPT-4o-mini（~~$0.15/$0.60）是最便宜的可用选项。

怎么在 OpenClaw 中切换模型？

在会话中用 /model 命令：/model opus、/model haimaker/llama-3.3-70b 或 /model qwen-local。要改默认模型，编辑 ~/.openclaw/openclaw.json 中的 model.primary 字段。

切换模型会影响 MEMORY.md 吗？

不会。MEMORY.md 是纯文本，无论配置哪个模型，OpenClaw 都会读取并注入上下文。切换模型时会话记忆完整保留。

OpenClaw 在 Telegram 上用什么模型最好？

任何支持的模型都能和 Telegram 配合——频道和模型是独立的。Claude Sonnet 4 是推荐的 Telegram 默认模型，在聊天交互中速度、成本和指令遵循之间取得了很好的平衡。预算有限的话，GPT-4o-mini 也能处理简单任务。

不用 API Key 能跑 OpenClaw 吗？

可以，用 Ollama 跑本地模型就行。完全不需要外部 API Key——一切都在你的硬件上运行。使用云端模型的话，需要对应提供商（Anthropic、OpenAI、Google 或 haimaker.ai）的 API Key。

跑本地模型需要什么硬件？

最低配置：8GB 显存（RTX 3070 或 16GB M1 Mac）跑 Qwen3.5 9B。推荐配置：20-24GB 显存（RTX 4090 或 32GB M 系列 Mac）跑 Qwen3.5 27B。高端配置：48GB+ 显存跑 Qwen3 Coder Plus 或 Llama 3.3 70B。