前沿资讯 1737629388更新
0
美国亚利桑那州立大学计算机科学与工程系教授苏巴罗·甘巴姆帕蒂(Subbarao Kambhampati)参加了播客节目《Machine Learning Street Talk》,与主持人一起探讨了OpenAI的o1模型和推理系统的未来。
大语言模型的发展让我们得以目睹其在推理、生成、甚至某些创造性工作中的巨大潜力。然而,当我们试图理解这些模型的推理能力时,并不能明确断言它们真的在“推理”。一个核心问题是:它们是否拥有类似人类思维的系统性能力,或者仅仅是在复杂的概率空间中进行模式匹配?
这些模型在生成推理链条、处理复杂逻辑任务时表现出了一定的独立性,这种能力常被形容为“分形智能”,模型可能在一个问题上处理得像是某种形式的推理,但在同一类型的变形任务中立刻失败。举例来说,“链式思维”方法希望通过在提示中加入逐步推理步骤的演示,让模型学会像人一样分步骤解决问题。研究表明,这种方法在一些测试任务中确实提升了模型表现,但这些提升并不一致。一旦问题复杂度加大,模型的表现便可能迅速恶化。如果模型真的会“推理”,为什么无法超过提供示例所覆盖的范围?
我们可以用经典问题探讨模型推理是否依赖真实的“推理”。例如,假设一个问题是一个无解的规划问题。常规的大语言模型会倾向于生成一个看似合理但完全错误的答案,因为对于模型来说,RLHF(基于人类反馈的强化学习)训练鼓励它在任何输入后都给出输出。它们从不质疑问题本身的合理性,并倾向于“硬解”。
这也引出了一个有趣的现象,有实验表明,o1在生成错误答案后会试图“解释”其方案的正确性,甚至在逻辑上找问题本身。这种行为显然不是推理,而更像是模型在语言空间中进行的伪逻辑操作。试想,一个在推理过程中自发生成数千个“推理令牌”的模型,它的逻辑原理是什么?我们真的可以称这些生成的“话痨式”路径为逻辑推导吗?
如果我们从认知科学和传统逻辑的定义出发来审视推理行为,可以发现一些关键问题。推理意味着有目标的探索:人类在面对问题时能制定子目标,动态评估路径的有效性。而大语言模型的“条件生成”能否等同于这种目标驱动的活动?从目前的研究看,这些模型更像是在以模式为主导的生成空间里“尝试”而非“探索”。缺乏停止规则:推理还需要一种自我纠错的能力。让大语言模型面对一个无解的问题或动态环境,模型很少能清楚地识别其路径是否无效,更别提停止探索。这种缺乏元认知能力的表现也说明它们大多无法真正“推理”。
一个值得注意的发展是,通过后训练阶段强化学习和推理时扩展(如蒙特卡洛树推理、生成候选答案并后续筛选等方法),一些模型表现出了超越传统模型的推理能力。例如,有理论认为o1模型可能会在后训练阶段,将强化学习策略用于推理任务,并通过增加推理时间的复杂度来实现更高的准确性。实际上,这种看似“推理”的能力更多是伪推理。它通过成千上万次尝试和更新参数来“学习”优化生成某些类型的问题答案,但这种优化的本质完全是经验性的。真正的问题在于:在面对新问题时,这些模型并没有表现出通用的解决能力,而更可能是重新进入一种“广撒网”式生成和筛选模式。这距离真正意义上的推理依然相去甚远。
对于一些实用化的任务,研究人员开始探索不同的模型组合,例如通过“LM模块化”的方式,让特定子任务交由专用模块处理,而非完全依赖单个模型。通过这种思路,将问题拆分到多个子模块进行处理,系统性推理的表现则得以提升。相比之下,简单依赖单一模型进行推理和推理的做法显然不如模块化系统可靠和高效。而像OpenAI推广o1模型时给出的“推理时计费”,也从一个侧面显示了单靠这样的模型其实非常昂贵。一个更有潜力的方向是混合架构。混合架构不仅利用大语言模型提供自然语言操作的便捷性,还结合传统的逻辑引擎或其他领域专用优化器来实现类似推理的深度推理能力。这种协作形式更像是多代理的计算生态,而非一个万能的“推理代理”。
大语言模型更多依赖对语言的模式捕捉和生成机制,通过规模性后训练或优化,试图提升答案准确性。然而,当前的路径揭示了它们的推理仍然是近似的、代价高昂的,且仍然不具备可靠通用性的。不过,研究这些模型如何在特定语境中模拟推理行为,或许可以为构建更精细的认知代理提供灵感。