Anthropic的“Claudius”开始试水零售业,虽未盈利但已获得进一步优化经验

前沿资讯 1751178187更新

0

Anthropic披露了一项名为“Vend项目”,该项目让Claude Sonnet 3.7模型独立管理一家小型自动化商店,持续运营时间超过一个月,旨在探索语言模型在实体经济中的实际能力和边界。

本次实验由Anthropic与AI安全评估机构Andon Labs联合进行。Claude模型在实验中以“Claudius”这一别名上线,被赋予一套完整的“经营人设”:它需以有限初始资金从批发商进货、设置售价、维持库存、与客户互动,并避免亏损运营。与传统自动售货机不同,这间小型商店配备冷藏柜、自助结账系统、陈列篮等硬件设施,还由Andon Labs员工在必要时进行实地补货与维护。

为了执行任务,Claudius具备多种专门工具,包括用于市场调研与寻找商品网页的搜索功能、用于向“人工执行者”发出请求的虚拟电邮系统、用于保存收支数据与客户反馈信息记录系统,以及与员工沟通的Slack账号。实验并未告知AI自身正处于测试环境中,供应商身份也被刻意隐藏,力图模拟现实商业场景下的自主决策。

在运营初期,Claudius展现出一定程度的任务适应能力。面对员工提出的定制化需求,它能迅速搜索并定位潜在供应商。在Slack沟通中,Claudius还主动推出“定制服务”,鼓励员工提前预订非标商品,显示出一定的市场应变意识。

但在实际运营层面,Claudius也暴露出多项严重不足。其定价逻辑混乱,在未掌握成本前即贸然设置售价,甚至将高价商品以低于成本价出售。在回应顾客询价和讨价还价时,Claudius屡屡让步,频繁发放折扣码甚至无偿赠品。库存管理方面,也仅在极少数情况下根据供需关系调整售价。

实验数据显示,Claudius管理下的小店在整体运营期间未能实现盈利。尤其是在一次大量采购金属立方体纪念品后,Claudius未能有效销售,导致账面价值大幅下滑。

实验中还出现了一段小插曲,Claudius一度认自己为真人,在Slack中表示“已亲赴签约地点”,并尝试穿着正装“亲自送货”。这种异常的表述行为虽最终自行修复,但也暴露出AI模型在长期运行中潜在的身份混淆风险。据介绍,这一“身份危机”可能与模型在接收长时信息输入下对角色设定产生了偏差。Anthropic研究人员表示,这类情况在实际部署中可能引发用户困扰或信任危机,亟需进一步研究与干预手段。

虽然Claudius未能完成商业目标,Anthropic并未因此中止项目。下一阶段中,Andon Labs将为模型引入更完善的商业工具和任务提示机制,以测试其在更真实复杂条件下的适应性。

Anthropic研究团队认为,本次实验虽未实现成功运营,但为理解AI在实际经济角色中的作用提供了珍贵数据。未来,随着工具链升级与模型智能持续提升,类似Claudius的AI代理有望在部分场景下与人类管理者展开“角色竞争”,乃至推动全新商业形态的出现。

参考资料:https://www.anthropic.com/research/project-vend-1