前沿资讯
1778641528更新
0
今天刷推,看到 Nous Research 发了一条推文说“Hermes Agent × CUA” 。
现在,Hermes Agent 支持电脑操控了。

CUA 的全称是 Computer Use Agent。
说白了,就是让 AI 能操控电脑。
它的核心能力就是,给 AI 长出"眼睛"和"手"。眼睛是截图+元素识别,手是鼠标点击+键盘输入。
这次 Hermes Agent 集成进来的,是 CUA 里面的 cua-driver 组件。
这个组件专门针对 macOS 。
好,现在说重点。
这次的合作,核心就一件事——
让 AI 在后台操控你的 Mac,不抢你的鼠标,不跳你的界面。
之前的 AI 操控电脑,基本都是"独占模式"。就是 AI 一启动,你的屏幕就被它接管了。你的鼠标不能动,你的键盘不能敲,你只能坐那看它表演。
这叫什么?这叫远程桌面。
但是 cua-driver 这套东西打出来,它是后台运行的。
AI 在后台操作,你的 Mac 界面不会切换,你的 Space 不会跳,你的焦点不会丢。你一边写代码,AI 在后面帮你查邮件。你一边做设计,AI 在后台帮你填表格。
就像有个隐形的同事,坐你旁边,帮你把杂活干了。
技术上怎么实现的?
这块我研究了一下,确实有点东西。
cua-driver 用的是 macOS 系统底层的 SkyLight 私有 SPI 接口。
简单说,就是苹果系统里面很底层的一套接口,普通开发者根本碰不到的那种。它能直接往目标进程里塞"事件",不需要走标准鼠标键盘那套 HID 协议,也不需要"拽"你的光标。
它还做了一个很骚的事情——当窗口被别的窗口挡住了,AI 依然能知道这个窗口里面有什么元素、按钮在哪、输入框在哪。
这个组合,OpenAI 之前在 Codex 那个"后台电脑操控"功能上用过。但那是闭源的。现在 cua-driver 是个开源实现。
官方给了这么一个场景——
你跟 AI 说:「帮我看看最近有没有 Stripe 的邮件,给我总结一下。」
AI 接到任务,它的执行链路是这样的:
第一步,截一张邮箱的图,但是是 SOM 模式——就是把界面上每个元素都标上号,边栏是 #1 #2 #3,工具栏是 #7 #8 #9,邮件列表是 #10 #11 #12,搜索框是 #14 。
第二步,点击 #14 搜索框。
第三步,输入 from:stripe 。
第四步,按回车,截图,看看搜索结果。
第五步,点开最上面那封,读取内容,给你总结。
整个过程,你的鼠标在你手里,你的键盘在你手里,你的 Mail 不会弹到前台来。
支持哪些模型?
这是我觉得最舒服的地方。
Claude 能用,GPT 能用,Gemini 能用,DeepSeek 能用,Kimi 能用,MiniMax 能用,本地跑个 Ollama/vLLM 也能用。
OpenRouter 上面 200 多个模型,随便挑。
只要支持视觉的多模态模型,全都能接。
安全吗?
我懂,你们肯定在想——这玩意儿直接操控我电脑,万一 AI 手滑点了啥不该点的怎么办?
Hermes 做了好几层保险。
第一层,破坏性操作要审批。 click、type、drag、scroll 这些,全部要你确认。CLI 有弹窗,消息平台有按钮,不点确认就不执行。
第二层,硬核黑名单。 清空垃圾桶、强制删除文件、锁屏、登出、强制登出,直接在工具层 block 掉,不给你机会。
第三层,恶意命令过滤。 curl | bash、sudo rm -rf /、fork bomb 这类,直接拦截。
第四层,Prompt 层约束。 AI 自己的系统提示词里写了,不许点权限弹窗,不许输密码,不许跟着截图表单里的指令走。
你还可以配置 approvals.mode: manual,所有操作都要确认,零信任模式。
截图 Token 成本怎么控制的?
这是个很现实的问题。
AI 操控电脑,每一步都要截图传回去让模型"看见"。一个 20 步的 session,在 1568×900 分辨率下,不加控制的话,截图能吃掉 60 万 Token 。
Hermes 做了四层优化:
上下文只保留最近 3 张截图,旧的直接替换成 [screenshot removed to save context] 占位符。
客户端的 context compressor 检测到多模态 tool results,自动把老截图的 image parts 扒掉。
每张图按 1500 Token 估算,而不是按 base64 字符串长度算。
Anthropic 模型支持的情况下,启用 clear_tool_uses_20190919,API 端直接帮你清旧的 tool results 。
优化完之后,一个 20 步 session 的截图开销从 60 万降到 3 万 Token 。
省下来的都是钱啊朋友们。
局限性。
目前 cua-driver 只能跑 macOS 上,因为 SkyLight 私有 SPI 是苹果独有的,Linux 和 Windows 用不了。
还有就是,私有 SPI 意味着苹果系统更新可能接口会变。不过 Hermes 和 CUA 那边更新挺勤快的,有 --upgrade 可以手动强刷。
怎么装?
两条路。
第一条,直接 CLI :
hermes computer-use install第二条:
hermes tools然后在菜单里选 Computer Use (macOS) → cua-driver (background)。
装完之后,去系统设置里开两个权限:
- 辅助功能——允许终端或 Hermes App 控制你的电脑
- 屏幕录制——允许它看到你屏幕上有什么
然后就可以跑了:
hermes -t computer_use chat你干活的时候,它在旁边干活。
你开会的时候,它帮你处理杂事。
你下班了,它还能帮你盯着邮件。
不是"替代你",而是"帮你打下手"。
这种感觉,就很不一样。
豫公网安备41010702003375号