
前沿资讯
1743141790更新
0
大语言模型通过海量数据训练而成,其内部的运行机制和决策逻辑犹如神秘的黑箱,让人难以完全理解。深入探索这些语言模型的思维方式,不仅能让我们知晓模型在生成文本时的运作细节,还有助于我们更好地发挥其能力,在各个领域实现更高效、准确的应用,同时规避因不了解其机制而可能产生的风险。
长久以来,神经科学领域的专家们致力于探究人类大脑的思维模式,他们借助观察大脑活动和信息传递来实现这一目标。如今,Anthropic的Claude团队也在用类似的思路来剖析人工智能模型的思维。毕竟,语言模型在一定程度上模拟了人类处理语言的方式。
当前,在理解模型思维方面取得了显著进展。在“AI生物学”系列论文中,第一篇论文拓展了寻找可解释概念的工作,将其融入“特征库”模型,成功揭示了语言模型中类似神经元的计算“回路”,这些回路与特定单词或单词组合紧密相关。第二篇论文则对Claude在简单任务中的表现展开深入研究,带来了关于其思维过程的关键新发现。
(一)多语言能力背后的奥秘
Claude具备出色的多语言能力,能从英语、法语自如切换到中文、菲律宾语等。研究发现,不同语言之间存在语法机制的重叠迹象。通过在不同语言中询问Claude相反词的实验,研究人员发现随着概念规模增大,共享电路增多,这有力地证明了存在一种通用的“思维语言”。这意味着Claude在学习一种语言时,能够借鉴其他语言的知识,在高级推理任务中,一个领域的知识能助力其理解其他领域,大大拓展了其应用的广度和深度。
(二)诗歌创作中的规划能力
在诗歌创作方面,Claude展现出令人惊叹的能力。以“他看见一只乌鸦,饥饿难耐,想吃谷粒”为例,模型在创作第二行时,并非简单逐词生成,而是会提前规划押韵。在开始后两句之前,它就已在脑海中确定“谷粒”等词,并基于此进行创作,以实现语义连贯和押韵的完美结合。研究人员通过类似神经科学实验的方法,改变输入概念,发现Claude能灵活调整内部计划,展现出强大的思维灵活性和规划能力。
(三)独特的“思维数学”路径
Claude虽未被设计成计算器,却能在文本训练基础上正确处理数学计算问题,如计算56+39。研究表明,Claude采用多种并行计算路径。一条路径负责计算粗略近似值,另一条关注数字末位,还有其他路径执行更复杂运算。这些路径相互协作,揭示了Claude处理数学问题的独特策略,也为理解其处理复杂问题的方式提供了重要线索。
(四)解释可靠性的探究
像Claude 3.7 Sonnet等新发布的模型可“深度思考”,但这也带来了解释可靠性的问题。以计算664的平方根为例,Claude可能会给出看似合理却编造的解释。研究人员通过可解释性技术发现,模型实际未执行相应中间步骤,而是进行有偏差的猜测。不过,Claude能追踪自身实际内部推理过程,为审计人工智能系统带来新契机。通过训练辅助模型检测主模型推理情况,可有效识别令人担忧的“思维过程”。
(五)应对“幻觉”与突破困境
“幻觉”是模型产生无根据信息的现象。研究表明,在Claude拒绝回答的默认行为背后,存在一种将“已知实体”特征与“虚假事实”特征相对应的机制。当模型检测到与“虚假事实”特征相关的页面(即“垃圾页面”)被激活时,便会默认回答“我不知道”。然而,有时这个“静音”已知答案的回路会意外触发,导致模型即便知道答案,也会给出“我不知道”的错误回应。
(六)越狱现象与语义连贯性
越狱是指通过特定提示诱导Claude产生其通常会避免的输出。实现这一目的的方法众多,在研究中,利用模型对“语义连贯性”敏感性的方式,成功诱使Claude生成了其常规情况下不会产生的输出。
为何语义连贯性对Claude如此重要?又是什么原因导致它开始生成与这种连贯性相悖的无意义内容?研究人员确定了一种特定的“连贯性违规”行为,这种行为一旦触发,Claude就会开始生成无意义内容,并持续得出结论。这一发现意义重大,因为它揭示了存在一种语义连贯性的来源,这种来源通常能抑制输出中的无意义内容,但也可被诱导忽略。
这些关于Claude思维的研究成果具有多方面的重要价值。从科学角度看,它们为理解人工智能系统的运作机制提供了关键见解,有助于构建更完善的理论体系。在应用层面,这些发现有望在医学成像、游戏等众多领域发挥作用,提升人工智能在实际场景中的应用效果。探索大语言模型的思维奥秘是一个充满挑战与机遇的征程,它将不断推动人工智能技术迈向新的高度。
参考资料:
https://www.anthropic.com/research/tracing-thoughts-language-model
https://transformer-circuits.pub/2025/attribution-graphs/methods.html
https://transformer-circuits.pub/2025/attribution-graphs/biology.html