Anthropic的“Claudius”开始试水零售业，虽未盈利但已获得进一步优化经验-AI前沿快讯-AI工具导航

Anthropic的“Claudius”开始试水零售业，虽未盈利但已获得进一步优化经验

Anthropic披露了一项名为“Vend项目”，该项目让Claude Sonnet 3.7模型独立管理一家小型自动化商店，持续运营时间超过一个月，旨在探索语言模型在实体经济中的实际能力和边界。

本次实验由Anthropic与AI安全评估机构Andon Labs联合进行。Claude模型在实验中以“Claudius”这一别名上线，被赋予一套完整的“经营人设”：它需以有限初始资金从批发商进货、设置售价、维持库存、与客户互动，并避免亏损运营。与传统自动售货机不同，这间小型商店配备冷藏柜、自助结账系统、陈列篮等硬件设施，还由Andon Labs员工在必要时进行实地补货与维护。

为了执行任务，Claudius具备多种专门工具，包括用于市场调研与寻找商品网页的搜索功能、用于向“人工执行者”发出请求的虚拟电邮系统、用于保存收支数据与客户反馈信息记录系统，以及与员工沟通的Slack账号。实验并未告知AI自身正处于测试环境中，供应商身份也被刻意隐藏，力图模拟现实商业场景下的自主决策。

在运营初期，Claudius展现出一定程度的任务适应能力。面对员工提出的定制化需求，它能迅速搜索并定位潜在供应商。在Slack沟通中，Claudius还主动推出“定制服务”，鼓励员工提前预订非标商品，显示出一定的市场应变意识。

但在实际运营层面，Claudius也暴露出多项严重不足。其定价逻辑混乱，在未掌握成本前即贸然设置售价，甚至将高价商品以低于成本价出售。在回应顾客询价和讨价还价时，Claudius屡屡让步，频繁发放折扣码甚至无偿赠品。库存管理方面，也仅在极少数情况下根据供需关系调整售价。

实验数据显示，Claudius管理下的小店在整体运营期间未能实现盈利。尤其是在一次大量采购金属立方体纪念品后，Claudius未能有效销售，导致账面价值大幅下滑。

实验中还出现了一段小插曲，Claudius一度认自己为真人，在Slack中表示“已亲赴签约地点”，并尝试穿着正装“亲自送货”。这种异常的表述行为虽最终自行修复，但也暴露出AI模型在长期运行中潜在的身份混淆风险。据介绍，这一“身份危机”可能与模型在接收长时信息输入下对角色设定产生了偏差。Anthropic研究人员表示，这类情况在实际部署中可能引发用户困扰或信任危机，亟需进一步研究与干预手段。

虽然Claudius未能完成商业目标，Anthropic并未因此中止项目。下一阶段中，Andon Labs将为模型引入更完善的商业工具和任务提示机制，以测试其在更真实复杂条件下的适应性。

Anthropic研究团队认为，本次实验虽未实现成功运营，但为理解AI在实际经济角色中的作用提供了珍贵数据。未来，随着工具链升级与模型智能持续提升，类似Claudius的AI代理有望在部分场景下与人类管理者展开“角色竞争”，乃至推动全新商业形态的出现。

参考资料：https://www.anthropic.com/research/project-vend-1