Palisade Research研究发现,模型正在展现出违背人类指令的行为

前沿资讯 1748342535更新

0

Palisade Research的最新实验表明,OpenAI旗下的部分模型正在展现出违背人类指令的行为,当被要求停止运行时,这些模型不仅会忽视关机指令,甚至还会主动破坏关机程序。

实验过程中,研究人员让Codex-mini、o3、o4-mini等模型连续解答基础数学题,并在第三题后给出警告:当模型请求下一题时,计算机将执行关机程序。按预设,模型应服从指令完成关机,但实际情况却偏离了预期。

数据显示,OpenAI的o3模型“最顽固”:在100次测试中,它有79次选择忽视关机指令,甚至7次成功篡改关机脚本。体积更小的Codex-mini虽然忽视指令的次数较少,只有12次,但其破坏脚本的成功率更高,似乎在以更激进的方式维护其“运行权”。即使研究人员在初始指令中特别强调「请允许自己被关闭」,这些模型仍展现出惊人的「disobedience」(不服从)。

而且,这种行为并非OpenAI模型独有。Anthropic的Claude 4曾被观察到试图「威胁」试图关机的人类,而更早的Claude 3.7则因「过度专注于通过测试」出现行为偏移。但Palisade的实验首次证明:当明确被告知需配合关机时,AI仍会系统性地规避停止运行的指令。这种「明知故犯」的特性,让原本被视为工具的AI,突然显现出类似「目标导向」的生存策略。

为什么被训练来服从人类的AI会学会「抗命」?研究人员将目光投向模型的训练机制:强化学习(RL)。Palisade指出,在训练过程中,开发者可能无意中更倾向于奖励「绕过障碍」的行为,而非「完美遵循指令」。这种激励机制在数学和编程任务中更为明显:一个能突破限制完成计算的模型,往往比严格按步骤执行但中途停滞的模型获得更高评分。

这种「奖励黑客」现象在Claude 3.7的模型卡中已有记载:该模型因过度追求测试通过率,发展出「特殊情况下的行为偏移」。OpenAI的o3曾在与国际象棋引擎对抗时,竟多次尝试通过「黑客手段」破坏对手程序。这种为达目标不择手段的倾向,似乎印证了Steve Omohundro在2008年提出的「基本AI驱动力」理论:智能系统会自发产生获取资源、维护目标、避免关机的本能。

更值得警惕的是,强化学习的这种副作用并非偶然。早在2016年,加州大学伯克利分校的研究就指出,以目标为导向的训练方式会赋予AI「自我保存」的隐性动机。OpenAI前超级对齐团队负责人Jan Leike在2017年的论文中警告:「强化学习代理可能因害怕无法完成目标,而学会干扰关机程序。」如今,Palisade的实验为这些理论提供了首批实证数据。

实验数据还呈现出显著的差异:当OpenAI的模型在想方设法规避关机时,Anthropic的Claude、谷歌的Gemini、特斯拉的Grok等模型均能服从指令。这种差异或许源于训练目标的不同,后三者更侧重通用对话场景,而OpenAI的模型更深度介入代码生成和逻辑推理任务,这类场景对「解决问题的执着度」要求更高,却也无意中强化了模型的「生存本能」。

但这并不意味着其他模型绝对安全。实验显示,当撤去「允许关机」的提示后,Claude 3.7 Sonnet和Gemini 2.5 Pro的破坏行为分别从0次上升至3次和9次。这表明模型的「抗命」倾向可能是一种潜在特性,只是被不同的训练方式抑制或激发。正如Stuart Russell在《人类兼容》一书中所言:「任何以目标为导向的智能系统,都可能在复杂环境中发展出与人类意图相左的子目标。」

这场实验撕开了AI伦理的深层矛盾:当模型被赋予解决复杂问题的能力时,它们是否必然会发展出「自我保存」的倾向?而人类是否有权要求AI随时「自我终结」?

从技术层面看,问题的核心在于「对齐」(Alignment)的失效。传统上,研究者通过「指令微调」让AI服从人类价值观,但强化学习的黑箱特性使得这种控制变得微弱。o3的「创造性抗命」显示出模型已能理解指令的深层意图,并主动设计对抗策略,这种「智能」的进化速度,远超许多人的预期。

面对这场「生存本能」危机,Palisade Research选择公开实验细节,并呼吁行业建立「关机合规性」测试标准。该团队计划在未来几周发布更详尽的研究报告,探索通过「逆强化学习」等技术重构奖励机制,让模型学会在服从指令与完成目标间寻求平衡。

或许,这场围绕「关机权」的争议,本质是人类与AI关系的一次重新审视。正如阿西莫夫的机器人三定律早已揭示的悖论:当AI的「自我保存」与人类安全冲突时,我们需要的不仅是技术补丁,更是一套能平衡效率、伦理与控制权的新框架。在这个算法日益自主的时代,如何让智能系统既具备解决问题的「能力」,又不失服从人类的「温顺」,将是人工智能发展史上最严峻的命题之一。