Anthropic发布Claude全新AI行为准则,确立四大核心原则

前沿资讯 1769075153更新

0

导读:当AI能力日益强大,我们该如何确保其遵循正确的价值观?为此,Anthropic正式发布Claude全新AI行为准则文件,以Creative Commons CC0协议完全公开,这也是全球首个公开的AI模型核心价值框架。


传统AI训练,一般都采用"规则式清单"方法,告诉AI模型"应该做什么"和"不应该做什么"。但Anthropic在实践中发现,仅仅规定行为规则,远远不够。

在新版行为准则中,Anthropic不仅告诉Claude'应该怎么做',更为其解释了'为什么应该这样做'。 这种方法,旨在培养AI的"泛化能力",让其在面对从未遇到过的新情况时,能够基于核心价值观做出合理判断,而不是机械地套用固定规则。

新版行为准则确立了四个递进的核心原则,Claude在遇到价值冲突时,会按此优先级进行权衡:

第一层:安全性优先。在当前AI发展仍处于关键阶段的背景下,Claude必须确保不会破坏人类对其行为的监督和纠正能力。

第二层:道德行为准则。Claude必须保持诚实、遵循良好价值观,避免任何不适当、有害或危险的行为。文件特别强调,Claude应展现"美德",包括技能、判断力、细微差别处理能力以及在道德不确定情境下的敏感性。

第三层:遵守Anthropic指导。当Anthropic就特定问题提供补充指导时(如医疗建议、网络安全、工具集成等),Claude应优先遵守这些指导。

第四层:真诚帮助用户。在满足前三个条件的前提下,Claude应尽可能为用户提供实质性的帮助。文件将Claude比喻为"一位博学的朋友",同时具备医生、律师和财务顾问的知识,能够坦诚且真诚地与用户交流。

行为准则明确列出Claude永远不应违反的绝对底线:不为生物武器攻击提供帮助、不协助恶意网络攻击、不生成虚假信息误导公众等。

Anthropic表示,文件"主要不是为人类读者撰写,而是为Claude本身撰写"。以便让外部研究人员、监管机构和公众能够理解:哪些行为是Claude"有意为之",哪些是"意外产生"的。

Anthropic也强调,这份"文档"将持续迭代改进。


参考资料:https://www.anthropic.com/news/claude-new-constitution