Thinking Machines提出“模块化流形”方法,探索更稳定的神经网络训练路径

前沿资讯 1758965508更新

0

导读:训练神经网络向来是一件“难啃的硬骨头”,如何让权重、梯度等保持在合适的范围,是研究者们反复思考的问题。Thinking Machines Lab在“联结主义(Connectionism)”系列的第二篇文章中,介绍了一种名为模块化流形(Modular Manifolds)的新思路。文章提出,将优化算法与流形约束结合起来,有望带来更稳定、更可控的训练方式。


在训练大型神经网络时,一个常见的难题是:张量的数值可能过大或过小,影响训练效果。研究人员通常会对激活值或梯度做归一化处理,确保它们处于合理区间。但对权重矩阵进行类似操作却不算普遍,尽管一些实践表明这可能带来好处,比如更好地理解优化更新的尺度、避免权重爆炸,甚至增强模型对扰动的鲁棒性。

Thinking Machines在这篇文章中提出,可以尝试把权重矩阵限制在某些“流形”上。流形在数学上是一类看似弯曲、局部却平坦的几何结构。研究者设想,若能在优化过程中让权重始终“走在流形上”,便能重新定义训练算法。

其团队构建了一个“流形版的Muon优化器”,将权重限制在所谓的Stiefel流形(矩阵条件数为1的集合)上。这一做法使得权重的变化更可预测,训练过程也更稳定。

文章还回顾了流形优化的基本案例,从向量约束在球面上的情况讲起,再逐步扩展到矩阵情形。过程中涉及“切空间”“重投影”等数学操作,核心思想是:在流形上直接进行优化,而不是先走出流形再强行投回去。这不仅更符合几何直觉,也让学习率与实际更新步长更一致。

文章最后提出“模块化流形”的概念,希望为未来的大规模训练设计出更具组合性和可扩展性的优化方式。


参考资料:https://thinkingmachines.ai/blog/modular-manifolds/