
工具推荐
1741331047更新
2
北京时间3月6日凌晨,一款名为Manus的AI产品在科技圈引发了巨大轰动,众多用户彻夜蹲守只为获取一个使用邀请码,随之闲鱼上的邀请码价格飙升至数万元,给人一种即将开启通用智能(AGI)新时代的强烈态势。
Manus最大的亮点在于,它是一个真正自主的AI代理。传统的AI助手,如DeepSeek和ChatGPT,更像是“军师”,能够提供各种建议和方案,而Menas则如同“军队”,用户只需下达任务指令,它就能自动拟定计划、调度资源,并直接交付“完整的任务成果”。在性能表现上,Manus在GAIA基准测试中脱颖而出,以86.5%的高准确率拔得头筹,成功超越了OpenAI的DeepResearch模型(74.3%),在解决真实世界问题的能力方面展现出了显著的优势。
然而,反向这么大,这款产品的真实表现究竟如何?带着诸多疑问,前微软工程师、B站视频博主数字游牧人进行了深度评测,试图揭开Manus的神秘面纱。在评测过程中,博主选取了多个具有代表性的案例,从简单的小说创作到复杂的数据分析、编程以及制作PPT等任务,全面检验Manus的能力。
在撰写传记小说的任务中,Manus首先通过命令行创建文件夹,随后,它借助大语言模型(推测使用Qwen和Claude)规划任务步骤,并根据指令判断所需工具。在研究相关历史时,Manus调用AI搜索工具,其搜索关键词与Google搜索结果相近。之后,它不断重复搜索、打开网页、爬取信息的过程,依据获取的信息创建小说大纲,再逐步撰写各个章节。这种创作方式并非依靠大语言模型的单次输出,而是多次生成内容并拼接,虽然将已有功能整合得较好,但整体创新性略显不足。
当Manus被要求比较小米眼镜在不同平台的价格时,Manus的表现却差强人意。它在搜索淘宝价格时因无法打开网页且不能通过人机验证而失败,转而搜索小米官网价格并成功获取。但后续搜索过程中频繁报错,最终只能直接采用搜索标题中的价格,整个比价任务执行得较为粗糙,反映出其浏览器操作能力与人类相比的较大差距。据了解,OpenAI的浏览器操作agent在相关数据集上能完成58.1%的任务,而人类平均完成率为78.2%,Manus的浏览器操作功能似乎仅停留在简单的搜索和打开网页层面。
在为英伟达进行Excel建模估值的任务中,Manus的表现更是暴露了一些问题。它通过编写Python脚本收集数据,调用雅虎财经API获取公司经营和股票数据,但在获取财务数据时,部分数据出现“硬编码”的情况,即直接将数据写在代码中,且这些数据真假参半。在创建Web版游戏的过程中,Manus虽然能够完成项目搭建、代码修改、测试等一系列操作,但遇到报错后修复无果,最终放弃。在用户要求部署网页时,由于其只能部署简单静态页面,无法处理复杂的前后端项目,导致前期工作大量浪费。不过,在用户选择简化方案后,它能够通过编写简单的HTML和JS文件完成部署。在制作PPT的任务中,由于Manus没有直接创建PPT的工具,它采用编写多个前端页面并打包成压缩包的方式来模拟PPT,这再次表明其在工具使用上的局限性。
综合多个案例,博主分析认为,Manus的强大之处在于巧妙地整合了大语言模型、搜索、浏览器、虚拟机和编程agent等多种元素。大语言模型如同“大脑”,负责调度工具;搜索和浏览器用于获取信息;虚拟机和编程agent则类似“手”,通过Python以命令行的方式实现各种操作。而Manus倾向于以网页形式交付结果,这使得所有操作都转化为大语言模型擅长的文本形式,从而实现了功能的集成。
与曾经热门的AI编程工具Devin相比,Manus在交互和交付方式上更具优势,这也是它能够出圈的原因之一。然而,与OpenAI的DeepResearch相比,Manus在深度调研方面仍显逊色,DeepResearch是专门针对深度调研场景使用强化学习训练的模型,而Manus是通过工程方式将多种技术组合成产品。
从当前的评测结果来看,Manus虽模式新颖,但在实际使用中存在诸多问题,如大语言模型的“幻觉”导致数据错误、多步骤操作中的错误累积以及工具使用的局限性等。因此,博主推测,当Manus正式发布后,用户实际使用体验可能无法达到看到演示时的兴奋程度。同时,从技术角度分析,Manus的技术壁垒似乎并不高。
Manus的出现,为国产AI代理的发展提供了新的思路和探索方向,但在技术完善和性能提升方面仍有很长的路要走。在人工智能快速发展的今天,Manus能否突破现有困境,实现从“网红”到真正实用AI产品的转变,值得持续关注。
参考资料:https://www.bilibili.com/video/BV1YA9kYJEih/?spm_id_from=333.1391.0.0&vd_source=4e06ab3edd7d2fa3bc978b592e14adb8