工具推荐
1776253628更新
0
用 OpenClaw 有一段时间了,之前用 Claude Sonnet 4.6 跑起来确实顺手。
直到我看到那个月的账单——1000 多块。
说实话,除了肉疼还是肉疼。
隔壁老王用的是 Kimi K2.5,每月才 100 出头?
差了快 10 倍了。
我开始琢磨:我是不是花冤枉钱了?我的配置是不是有问题?
但想了半天,没有答案。
因为也不知道我的 OpenClaw 到底处在一个什么水平。
直到这两天,我发现了一个 BenchClaw 项目。

BenchClaw 是一个面向 OpenClaw Agent 的自动化基准评测系统。
它会使用考题,指导 Openclaw 执行任务,然后收集结果、验证打分,最后生成一份报告。
一条命令,25 道题,把你的 OpenClaw 完整测一遍。

BenchClaw 会从 5 个维度 对你的 OpenClaw 进行评测:
| 维度 | 权重 | 测什么 |
|---|---|---|
| 🧠 能力 | 25% | 多步推理、复杂规划、错误恢复 |
| ⚡ 性能 | 25% | TTFT、Tokens/s、资源占用、稳定性 |
| 💰 成本 | 25% | Token 消耗、月成本预估、性价比 |
| ⚙️ 配置 | 25% | Skills 完整度、PAI 路由、环境配置 |
| 🔐 安全 | 25% | 代码注入防护、权限隔离、恶意扫描 |
跑完测试,你会得到一个 总分 + 五维子分。
🏆 BenchClaw 综合得分:79,915 分🧠 能力: 280/500 (93%) ████████░░⚡ 性能: 450/500 (90%) ████████░░💰 成本: 400/500 (80%) ████████░░⚙️ 配置: 380/500 (76%) ███████░░░🔐 安全: 490/500 (98%) █████████░榜单排名:#42 / 1,234 次提交除了分数,BenchClaw 还有一个三维诊断,帮你找瓶颈。
朋友老李跑完是这么个情况:
🔍 三维瓶颈诊断🤖 模型速度:1,850 TPS → 🟡 偏慢 建议:可尝试更轻量的推理模型🌐 网络延迟:285ms → 🟠 较高 建议:考虑切换到延迟更低的 API 节点💻 硬件资源:CPU 78% / 内存 1.2GB → 🟡 紧张 建议:关闭其他程序或升级配置他后来把节点换到新加坡,网络延迟直接掉到 85ms,综合得分还涨了 15%。
怎么跑?
官方给了两种方式。
方式一:用 Skill 安装(推荐)
openclaw skills install benchclaw/run benchclaw装完直接跑,评测前会问你几个问题,比如要不要上榜单。
确认了就开测,测完自动通知你。
方式二:手动装
cd ~/.openclaw/workspace/skillsgit clone https://github.com/BenchClaw/benchclaw.gitcd benchclawpython main.py官方还回答了一些常见问题:
Q:评测需要多久?
A:10-60 分钟,取决于你的模型速度和网络状况。
Q:会消耗多少 token?
A:约 2-3M tokens,会产生一定的 API 费用。
Q:我的数据安全吗?
A:BenchClaw 采用端到端加密传输,设备指纹机制防止刷分,每台设备每 24 小时限跑 3 次。
Q:分数低了怎么办?
A:BenchClaw 会诊断出你的龙虾短板在哪。
写在最后。
当你跑完测试,看到总分数和各项维度得分,你将会对自己的 OpenClaw 有一个客观的认知。
如果,你的能力得分很高,但成本得分很低,
那就值得研究一下为什么 token 消耗这么大。
如果你的配置得分不高,但性能得分很高,
那说明你的硬件不错,但软件配置还有优化空间。
每个人估计都会有自己的答案。
现在就发给你的小龙虾:帮我安装 BenchClaw Skill,跑一下测试,看看你的能力怎么样。
Clawhub:benchclaw
官网:https://benchclaw.antutu.com
GitHub:https://github.com/BenchClaw/benchclaw
你跑分了吗?跑了多少分?欢迎在评论区分享 ~~
豫公网安备41010702003375号