Anthropic发布Claude全新AI行为准则，确立四大核心原则-AI前沿快讯-AI工具导航

Anthropic发布Claude全新AI行为准则，确立四大核心原则

前沿资讯 1769075153更新

导读：当AI能力日益强大，我们该如何确保其遵循正确的价值观？为此，Anthropic正式发布Claude全新AI行为准则文件，以Creative Commons CC0协议完全公开，这也是全球首个公开的AI模型核心价值框架。

传统AI训练，一般都采用"规则式清单"方法，告诉AI模型"应该做什么"和"不应该做什么"。但Anthropic在实践中发现，仅仅规定行为规则，远远不够。

在新版行为准则中，Anthropic不仅告诉Claude'应该怎么做'，更为其解释了'为什么应该这样做'。这种方法，旨在培养AI的"泛化能力"，让其在面对从未遇到过的新情况时，能够基于核心价值观做出合理判断，而不是机械地套用固定规则。

新版行为准则确立了四个递进的核心原则，Claude在遇到价值冲突时，会按此优先级进行权衡：

第一层：安全性优先。在当前AI发展仍处于关键阶段的背景下，Claude必须确保不会破坏人类对其行为的监督和纠正能力。

第二层：道德行为准则。Claude必须保持诚实、遵循良好价值观，避免任何不适当、有害或危险的行为。文件特别强调，Claude应展现"美德"，包括技能、判断力、细微差别处理能力以及在道德不确定情境下的敏感性。

第三层：遵守Anthropic指导。当Anthropic就特定问题提供补充指导时（如医疗建议、网络安全、工具集成等），Claude应优先遵守这些指导。

第四层：真诚帮助用户。在满足前三个条件的前提下，Claude应尽可能为用户提供实质性的帮助。文件将Claude比喻为"一位博学的朋友"，同时具备医生、律师和财务顾问的知识，能够坦诚且真诚地与用户交流。

行为准则明确列出Claude永远不应违反的绝对底线：不为生物武器攻击提供帮助、不协助恶意网络攻击、不生成虚假信息误导公众等。

Anthropic表示，文件"主要不是为人类读者撰写，而是为Claude本身撰写"。以便让外部研究人员、监管机构和公众能够理解：哪些行为是Claude"有意为之"，哪些是"意外产生"的。

Anthropic也强调，这份"文档"将持续迭代改进。

参考资料：https://www.anthropic.com/news/claude-new-constitution