小米推出HyperClick:可以让智能助手更精准地点击界面

前沿资讯 1762771397更新

0

导读: 小米团队的新框架 HyperClick ,通过引入“不确定性校准”机制,让AI在操作界面时能判断自己是否准确,从而显著提升点击精准度。在七项国际测试中表现拔尖,为智能办公、移动操控等领域带来了更可靠的交互体验。


小米人工智能实验室(MiLM Plus)的团队注意到,当前的图形界面(GUI)交互工具普遍存在“信心与实力不匹配”的问题。尤其在高分辨率屏幕或复杂界面中,这种过度自信可能导致操作错误,甚至让整个任务失败。

为此,小米团队研发了 HyperClick 框架,这是首个将“不确定性校准”机制引入界面交互的技术方案。它通过一套双奖励机制提升点击精准度:

  • 对每次操作进行“对错奖惩”,确保AI只在真正点击到目标时才获得正反馈;
  • 为每个点击动作标注真实的信心值,并用布里尔分数进行校准,让系统知道自己什么时候靠谱、什么时候没把握。

HyperClick 不仅会判断“点哪里”,还能判断“我能不能准点到”。面对不同界面元素,它还具备自适应能力:小按钮时收紧判断标准,大区域时适度放宽,从而灵活应对各种屏幕环境。

在测试中,HyperClick 经过通义千问 2.5-VL的优化,表现相当出色。它在 ScreenSpot、ScreenSpot-Pro 等七大国际权威基准测试中多项指标拔得头筹:

  • 70 亿参数版本在 ScreenSpot V2 测试中准确率达 93.7% ;
  • 在专业测试 ScreenSpot-Pro 中达到 48.2%,超过了多款专用工具,甚至优于部分参数更大的系统。

更重要的是,它的信心分数与准确度高度一致,高信心时几乎百分百命中,低信心时也能如实反映不确定性,避免“明明不懂还装懂”的情况。

目前,HyperClick 已验证能适配移动端、网页端、桌面端等多种界面环境。未来,小米计划开放源代码与 checkpoint 文件,推动智能交互技术的普及与升级,让更多设备具备“自知之明”。


参考资料:https://huggingface.co/papers/2510.27266