上周,一个开发者在 Reddit 晒出了他的 OpenClaw API 账单:一天 47 美元。他的 Agent 所有任务都在跑 Claude Opus——包括那些 $0.15/百万 token 的轻量模型就能搞定的活。再往前一周,另一个用户抱怨他的本地 Llama 8B 模型每三个指令就卡一次,不得不反复重启。
这两个问题的根源一模一样:给 OpenClaw 选错了 LLM 模型。
和普通聊天机器人不同,OpenClaw 跑的是多步骤自主循环。一个 Agent 在单次会话中可能会串联 8-12 次工具调用——读文件、调 API、写代码、发消息。如果模型在第 6 步丢了上下文或者搞砸了函数调用,整条链路就断了。模型太强浪费钱,太弱又干不了活。
这篇指南会详细拆解不同任务该用什么模型,基于实际测试、社区共识和 2026 年 3 月的最新价格数据。不管你是想省钱、要性能还是重隐私——这里都有答案。
- 通用最佳: Claude Sonnet 4 — $3/$15 每百万 token,搞定 80% 的任务
- 编程最佳: Claude Opus 4.5 — $15/$75,多文件调试最强
- 研究最佳: Gemini 3 Pro — $1.25/$10,1M+ token 上下文窗口
- 预算最佳: GPT-4o-mini — $0.15/$0.60,比 Sonnet 便宜 20 倍
- 免费/本地最佳: Qwen3.5 27B via Ollama — $0,SWE-bench 媲美 GPT-5 Mini
- 隐私最佳: Qwen3 Coder 或 Llama 3.3 70B — 开源可自托管
什么是 OpenClaw(以及为什么模型选择很重要)
OpenClaw(原名 Clawdbot)是奥地利开发者 Peter Steinberger 开发的免费开源 AI Agent。2026 年 2 月 GitHub star 数突破 10 万,成为 AI 历史上增长最快的开源项目之一。同月,Steinberger 加入了 OpenAI,在更大的平台上继续推进自主 Agent 的研发。
OpenClaw 和普通聊天机器人的区别:
- 本地运行 — Mac、Windows 或 Linux,数据默认留在本地
- 任意聊天应用 — Telegram、WhatsApp、Discord、Slack、Signal、iMessage
- 持久记忆 — 通过 MEMORY.md 记住你的偏好和上下文
- 完整系统权限 — 读写文件、执行 Shell 命令、运行脚本
- 浏览器控制 — 浏览网页、填写表单、抓取数据
- Skills 与插件 — 使用社区 Skills 或自建
模型驱动着一切。Agent 发的每封邮件、读的每个文件、调的每个 API 都经过 LLM。在 12 步任务的第 8 步失败意味着从头来过——这就是为什么 OpenClaw 的模型选择比几乎所有其他 AI 工具都更重要。
如果你刚接触 OpenClaw,可以看看我们的 OpenClaw 趋势分析,深入了解这个项目为什么爆火。
什么样的模型适合 OpenClaw
多数 AI 基准测试的是单轮回答。OpenClaw 的任务完全不同——一个研究 Agent 可能要跑 8-12 次顺序工具调用,模型需要全程保持连贯。
三项能力最关键:
工具调用准确性
OpenClaw 的 Skills 使用结构化函数调用。模型必须用精确的参数格式调用 Shell 命令和 API。一旦搞砸 JSON schema 或者"幻觉"出一个不存在的工具名,Agent 就卡住了。
上下文保持
SOUL.md、AGENTS.md、USER.md 和 MEMORY.md 在启动时全部加载到上下文中。加上对话历史和工具输出,Agent 还没开始干活就已经有 10,000+ token 了。模型需要在 50 条消息之后仍然不丢线索。
指令遵循
SOUL.md 设定了行为规则——Agent 能做什么不能做什么、怎么回应、优先用哪些工具。弱一点的模型在会话中期就会偏离这些规则,导致不可预测的行为。
Price vs Capability vs Privacy — 三大权衡
- 云端 API(Anthropic、OpenAI、Google)能力最强,但你的 prompt 会发送到外部服务器
- 开源模型通过 API 提供商(haimaker.ai)路由,成本更低、隐私更合规
- 本地自托管(Ollama)完全免费和私密,但需要硬件,延迟更高
你最多能同时优化两项:价格、能力、隐私。很少能三者兼得。大多数用户应该选最重要的两项,接受第三项的妥协。
按用途推荐的最佳模型
通用最佳:Claude Sonnet 4
价格: $3/$15 每百万 token(输入/输出)
Claude Sonnet 4 是新 OpenClaw 配置的最安全默认选择。在同价位模型中,它对 SOUL.md 指令的遵循最好。
在一个 12 步研究 Agent 对比测试中,Sonnet 有 9/12 次保持在 SOUL.md 定义的范围内,而 GPT-4o 有 3 次偏离,拉取了被明确排除的来源。
Sonnet 擅长:
- 长 SOUL.md 文件(5,000+ token)的多行为规则
- 从多个来源综合输出结构化报告的研究 Agent
- 跨多步骤保持一致语气的写作 Agent
- ClawHub 市场上的通用 Skills
- 中等价位中指令遵循最好
- 响应速度足够支撑 Telegram/WhatsApp 实时聊天
- 搞定 80% 的常规助手任务,花费合理
- 工具调用可靠性强
- 对于简单重复任务来说不是最便宜的
- 非常复杂的多文件编程场景不如 Opus
- 上下文窗口比 Gemini 3 Pro 小
配置:
{
"agents": {
"defaults": {
"model": {
"primary": "anthropic/claude-sonnet-4-20250514"
}
}
}
}
编程最佳:Claude Opus 4.5
价格: $15/$75 每百万 token(输入/输出)
当代码必须能跑——多文件编辑、复杂调试、架构决策——Opus 4.5 的额外花费是值得的。它处理多步推理链的能力比 Sonnet 更稳定。
性价比替代方案:给 Sonnet 4 开启 extended thinking。只有在任务需要时才按推理 token 收费,不用全程付 Opus 的价格。
复杂调试会话、多文件重构、架构规划时用 Opus。其他场景,Sonnet + extended thinking 能给你 80% 的 Opus 能力,成本只要一小部分。
研究与长文档最佳:Gemini 3 Pro
价格: ~$1.25/$10 每百万 token(输入/输出)
Gemini 3 Pro 的杀手锏是 1M+ token 上下文窗口。你可以把整个代码库扔给它,让它找 bug。在长文档分析、合同审查、代码库问答方面无人能及。
Gemini 3 Flash(~$0.075/$0.30)是速度/成本选项——便宜、快速,简单任务表现不错。Google 还为 Flash 提供免费套餐。
Gemini 配置:
{
"models": {
"providers": {
"haimaker": {
"models": [
{ "id": "google/gemini-3-pro", "name": "Gemini 3 Pro" },
{ "id": "google/gemini-3-flash", "name": "Gemini 3 Flash" }
]
}
}
}
}
最佳预算选择
不是每个任务都需要 $15/百万 token 的模型。对于高频简单任务,轻量模型能节省 10-20 倍的成本。
| 模型 | 价格(输入/输出每百万 token) | 最适合 |
|---|---|---|
| GPT-4o-mini | ~$0.15/$0.60 | 简单查询、模板填充 |
| Claude Haiku 3.5 | ~$0.25/$1.25 | 格式化、分类、标签 |
| MiniMax M2.5 | ~$0.10/$0.50 | 高频简单自动化 |
| Gemini 3 Flash | ~$0.075/$0.30 | 速度优先、有免费套餐 |
如果你的 Agent 做的是:读一行 CSV → 套模板 → 写输出文件,轻量模型更快更便宜。把高端模型留给需要判断力的任务。
OpenClaw 最佳免费和本地模型(Ollama)
通过 Ollama 在本地跑模型完全免费,数据不离开你的机器。代价是需要硬件配置,高难度任务的能力稍弱。
本地模型排名
| 排名 | 模型 | SWE-bench | 速度(RTX 4090) | 显存需求 |
|---|---|---|---|---|
| 1 | Qwen3.5 27B | 72.4% | ~40 t/s | 20-24GB |
| 2 | Qwen3.5 35B-A3B(MoE) | 较低 | ~112 t/s | 8-16GB |
| 3 | Qwen3 Coder Plus | 70.6% | ~20 t/s | 48GB+ |
| 4 | Qwen3.5 9B | 基础 | ~80 t/s | 8GB |
Qwen3.5 27B 是最大亮点——SWE-bench 72.4% 的得分让它和 GPT-5 Mini 这种云端付费模型处于同一水平。在一块消费级显卡或 32GB M 系列 Mac 上,你就能免费获得云端品质的结果。
35B-A3B 是混合专家模型,每次前向传播只激活 3B 参数。在 RTX 3090 上能跑到 112 tokens/秒——快到像云端 API。高难度任务质量差一些,但用来生成模板代码和简单编辑非常出色。
硬件需求
| 层级 | 显存 | 硬件示例 | 推荐模型 |
|---|---|---|---|
| 入门 | 8-16GB | RTX 3070/4060,16GB M1/M2 MacBook | Qwen3.5 9B, Qwen3.5 35B-A3B |
| 推荐 | 20-24GB | RTX 4090,32GB M2/M3 Pro/Max | Qwen3.5 27B |
| 高端 | 48GB+ | 2x A6000,64GB+ M2/M3 Ultra | Qwen3 Coder Plus, Llama 3.3 70B |
Apple Silicon Mac 的统一内存非常适合跑 LLM 推理。Apple 一直在优化 Metal 的 LLM 工作负载。32GB M3 Pro 跑 Qwen3.5 27B 毫无压力。
如何用 Ollama 配置 OpenClaw
第一步:安装 Ollama 并拉取模型:
curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen3.5:27b # 最佳质量,需要 20GB+ 显存
# 或者
ollama pull qwen3.5:35b-a3b # 快速 MoE 模型,16GB 可跑
# 或者
ollama pull qwen3.5:9b # 轻量级,8GB 可跑
第二步:配置 OpenClaw:
运行引导向导:
openclaw onboard --auth-choice ollama
或者手动编辑 ~/.openclaw/openclaw.json:
{
"models": {
"providers": {
"ollama": {
"baseUrl": "http://localhost:11434/v1",
"api": "openai-completions",
"models": [
{
"id": "qwen3.5:27b",
"name": "Qwen3.5 27B",
"reasoning": false,
"contextWindow": 131072,
"maxTokens": 8192
}
]
}
}
},
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen3.5:27b"
}
}
}
}
第三步:切换到本地模型:
/model qwen-local
本地模型的优势和短板
擅长:
- 代码阅读和摘要
- 模板代码和 CRUD 代码生成
- 文件操作和简单重构
- Agent 工具调用(Qwen3.5 27B BFCL-V4 得分:72.2)
不擅长:
- 多文件重构(5+ 文件跨上下文)
- 跨抽象层的复杂调试
- 密集模型速度较慢(~40 t/s vs 云端 API 80-150 t/s)
- 超长上下文(消费级硬件上超过 ~32K token 质量下降)
OpenClaw 最佳 OpenAI 模型
OpenAI 的模型提供稳定的通用性能和较快的响应速度。
GPT-4o — 编程与工具调用专家
价格: 中等(~$2.50/$10 每百万 token)
GPT-4o 在结构化 schema 上的函数调用准确性略高于 Claude,JSON 输出更干净。是编程 Agent 和数据提取管线的首选。
最适合:
- 代码生成和调试 Agent
- 结构化数据提取(HTML 表格、JSON 转换)
- 严格输出 schema 的多工具编排
- 响应速度比指令遵循更重要的场景
GPT-4o-mini — 预算主力
价格: ~$0.15/$0.60 每百万 token
比 Sonnet 便宜 20 倍,适合简单的高频任务。需要细致推理的场景质量会下降,但模板填充、分类、格式化方面性价比极高。
o3-mini — 深度推理
价格: 较高,按推理 token 计费
对于需要多步逻辑推理的分析 Agent——金融分析、科学数据解读、复杂研究综合——o3-mini 在中高推理模式下能处理其他模型搞不定的问题。响应慢(20-40 秒),成本更高,只建议用于特殊任务。
混合方案:云端 + 本地
多数资深 OpenClaw 用户采用混合配置:本地模型处理简单任务,云端处理难题。
{
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen3.5:27b",
"thinking": "anthropic/claude-sonnet-4-20250514"
}
}
}
}
本地模型处理文件读取、简单编辑、模板代码——大约占一个典型会话的 60-70%。Sonnet 处理调试、架构决策和多文件操作。每日 API 账单从 $20-50 降到 ~$5。
需要更强能力时手动切换:
/model sonnet
简单任务用便宜模型,日常工作用中端模型,难题用高端模型。默认用 Claude Sonnet 4,按需切换到 Opus 或本地模型。
提供商对比
| 提供商 | 价格范围(每百万输出 token) | 最适合 | 隐私 |
|---|---|---|---|
| Anthropic(Claude) | $3–$75 | 工具调用、指令遵循 | API 数据默认不用于训练 |
| OpenAI(GPT) | $0.60–$15 | 编程、结构化数据、速度 | 标准数据处理 |
| Google(Gemini) | $1.25–$10 | 长文档、超大上下文 | Google Cloud 数据政策 |
| 开源 via haimaker.ai | $0.10–$5 | 成本优化、隐私合规 | 跨 GPU 提供商路由 |
| Ollama(本地) | 免费 | 完全隐私、零 API 成本 | 数据不离开你的机器 |
社区排名(2026 年 3 月)
PricePerToken 社区排行榜 跟踪 OpenClaw 开发者的真实模型偏好。截至 2026 年 3 月 27 日:
- Kimi K2.5 — 社区票数最高
- Claude Opus 4.5 — 高端首选
- GLM 4.7 — 智谱强劲竞争者
- Gemini 3 Flash Preview — 速度 + 性价比
- Claude Opus 4.6 — 最新高端
- Claude Sonnet 4.5 — 均衡选择
- GPT-5.2 — OpenAI 最新
- DeepSeek V3 — 开源性价比之选
- MiniMax M2.1 — 预算冠军
- Mixtral 8x7B Instruct — 经典开源
Reddit 的 r/LocalLLaMA 一致推荐 Qwen3.5 27B 作为最佳本地模型,多个帖子报告了在消费级硬件上的成功配置经验。
在考虑 OpenClaw 的替代品?看看我们的 OpenClaw 最佳替代品指南。
快速决策树
- "我只想开箱即用" → Claude Sonnet 4。搞定 80% 的任务,价格合理
- "我要写生产代码" → Claude Opus 4.5。复杂调试值得这个价
- "我要处理长文档" → Gemini 3 Pro。1M+ token 上下文
- "我要免费" → Qwen3.5 27B via Ollama,或 Gemini Flash 免费套餐
- "我要便宜" → MiniMax M2.5 或 GPT-4o-mini
- "数据隐私是重点" → Qwen3 Coder / Llama 3.3 70B via haimaker.ai,或 Ollama 自托管
- "我在 Telegram 上用 OpenClaw" → Claude Sonnet 4 作为默认(所有支持的模型都能用)
FAQ
OpenClaw 新手用什么模型最好?
Claude Sonnet 4。它对不完美的 SOUL.md 文件容错性更好,指令遵循能力强,Agent 不容易在早期配置错误上崩溃。等你调好配置后,可以考虑更轻量的模型是否符合你的需求。
能不能给不同的 Agent 用不同的模型?
在单个 OpenClaw 实例中原生不支持。openclaw.json 中设置的模型适用于该网关的所有 Agent。变通方法是运行多个不同配置的网关实例,或者用 /model 命令在会话中切换。
为什么我的 Agent 用本地模型老是失败?
工具调用准确性是最常见的原因。较小的模型如 Llama 3.1 8B 和 Mistral 7B 有时会搞错 ClawHub Skill 调用的格式,导致 Agent 卡住或无限重试。切换到 Qwen3.5 27B 或 Claude Haiku 等云端模型通常能解决问题。
Claude Opus 用在 OpenClaw 上值得吗?
对大多数用户来说不值得。Opus 每次会话的成本是 Sonnet 的 5-10 倍,但在日常 OpenClaw 任务中实际差距不大。优势只在非常长且复杂的推理链中才明显——不是标准的研究或写作 Agent 工作流。
运行 OpenClaw 最便宜的方式是什么?
通过 Ollama 跑本地模型完全免费——Qwen3.5 27B 在消费级硬件上就能跑,很多任务和云端模型一样好。云端 API 中,Gemini 3 Flash($0.075/$0.30 每百万 token)和 GPT-4o-mini($0.15/$0.60)是最便宜的可用选项。
怎么在 OpenClaw 中切换模型?
在会话中用 /model 命令:/model opus、/model haimaker/llama-3.3-70b 或 /model qwen-local。要改默认模型,编辑 ~/.openclaw/openclaw.json 中的 model.primary 字段。
切换模型会影响 MEMORY.md 吗?
不会。MEMORY.md 是纯文本,无论配置哪个模型,OpenClaw 都会读取并注入上下文。切换模型时会话记忆完整保留。
OpenClaw 在 Telegram 上用什么模型最好?
任何支持的模型都能和 Telegram 配合——频道和模型是独立的。Claude Sonnet 4 是推荐的 Telegram 默认模型,在聊天交互中速度、成本和指令遵循之间取得了很好的平衡。预算有限的话,GPT-4o-mini 也能处理简单任务。
不用 API Key 能跑 OpenClaw 吗?
可以,用 Ollama 跑本地模型就行。完全不需要外部 API Key——一切都在你的硬件上运行。使用云端模型的话,需要对应提供商(Anthropic、OpenAI、Google 或 haimaker.ai)的 API Key。
跑本地模型需要什么硬件?
最低配置:8GB 显存(RTX 3070 或 16GB M1 Mac)跑 Qwen3.5 9B。推荐配置:20-24GB 显存(RTX 4090 或 32GB M 系列 Mac)跑 Qwen3.5 27B。高端配置:48GB+ 显存跑 Qwen3 Coder Plus 或 Llama 3.3 70B。


