前沿资讯
1776828943更新
0
过去三年,整个AI行业都在疯狂地训练更大的LLM。
万亿参数,千亿投入。
大家的理论很简单,把模型搞大,大到一定程度,它自然就会理解世界是怎么运作的。
Yann LeCun说,这是愚蠢的。
他认为,生成式AI从根子上就是低效的。当一个AI在预测下一个词,或者生成下一个像素的时候,它把海量的算力浪费在了表面的细节上。它记住的是模式,而不是真实世界的物理规律。
这话听着很难理解对吧。
我还是用大白话举个例子。
就像一个学生,他不理解为什么1+1=2,他只是把1+1=2背下来了。然后考试考1+1,他能答对。但你问他2+2等于几,他傻了。
这就是现在大语言模型在干的事。
它把互联网上几乎所有文本都记住了。你问它任何问题,它能从记忆里搜索出最相似的回答。它不是在理解你,它是在做超级高级的「复制粘贴」。
LeCun好几年前就在喷这个。他说你们这帮人做的大模型,本质上就是在做「更复杂的自动补全」,下一个词预测下一个词,跟真正的智能半毛钱关系没有。
那什么才是对的?
LeCun提出了一条路,叫JEPA,全称是联合嵌入预测架构。
核心思想很简单。
真实世界里的信息是冗余的。一段视频里,99%的像素变化其实都不重要。重要的是那些「抽象」的物理量,物体的位置、速度、形状。
所以JEPA不直接预测像素。它先把每一帧压缩成一个很短很短的向量,只保留最核心的物理信息。然后在这个压缩空间里做预测。
打个比方,就像你学开车,你不需要理解发动机每一个零件怎么配合、汽油怎么燃烧、轮胎跟地面摩擦力多少。你只需要知道,踩油门,车往前;打方向盘,车转弯。
JEPA就是让AI学这个——不是预测像素,而是预测「行为结果」。
但问题是,很长一段时间里,JEPA有一个致命的缺陷。
它会遭遇「表示崩溃」。
因为AI被允许简化现实,它就开始作弊。
它发现,把一只狗、一辆车、一个人都映射到同一个向量上,最省力。反正你让我预测下一秒会发生,我只管输出就行,管它对不对呢。
然后呢,它什么都没学到。
为了修复这个问题,工程师们不得不使用各种复杂的骚操作。主要有两条路线。
第一条,是DINO-WM的"找外挂"思路。它说我不管了,我直接拿一个现成的、已经在大规模数据上训练好的视觉模型来用。这个模型已经见过几十亿张图片了,什么狗啊车啊人啊,早就认得清清楚楚,所以它不会崩溃。
但代价是什么呢?你用的是别人的能力,不是你自己的。就好比你考试,你直接抄了一个学霸的笔记,学霸会的你会,学霸不会的你还是不会。你的水平,被锁死在了学霸的天花板下面。
第二条,是PLDM的"疯狂打补丁"思路。它说我就是要自己从头学,但问题是,这个模型太容易偷懒了,你稍不注意它就躺平给你看。那怎么办?工程师们想,我给你加约束啊。你不是爱偷懒吗,我给你加规则:你必须记住这个、你还必须记住那个、你还得注意这个、那个也不能忘……
但问题是,这些加的规则,它们不是配合的关系,是互相矛盾的关系。。
一个说你要这样做,另一个说不行你得那样做。就像一条船上坐了七个人,每个人都在拼命划,但每个人都往不同方向划。最终船只能在原地打转,根本动不了。
这也导致,训练过程极其混乱。曲线一会上一会下,完全没有规律。调参更是噩梦,六个超参数,排列组合起来,不知道要跑多少次实验才能找到最优解。
直到,LeWM出现。
这是研究人员上个月发布的一篇论文,全称LeWorldModel。
他们彻底解决了崩溃问题。
他们用一个单一的、优雅的数学正则化器,替换掉了那些复杂的工程技巧。
这个正则化器叫SIGReg,全称是「随机投影各向同性高斯正则化」。
它做的事很简单,强制把AI的内部「思维」变成一个完美的高斯分布。
为什么这样就能防止崩溃?
因为,如果所有输入都被映射到同一个点,方差就是零,这就不叫高斯分布了,这叫狄拉克delta函数。高斯分布要求表示有一定的离散程度,得展开。
所以AI没办法偷懒了。如果你把所有东西都映射到同一个点,你就违反了正则化条件,你就会受到惩罚。
但如果你映射得太开,预测又不准了,预测损失就会上升。
两种力量博弈的结果,就是AI会学到一种刚刚好的表示,既有多样性,又跟预测任务相关。
更骚的是什么呢。
这个正则化器只有一个参数需要调。
研究者发现,SIGReg内部的随机投影数量对结果几乎没有影响。这意味着只需要调一个λ就行。
一个超参数,用二分搜索,log级别的复杂度,分分钟找到最优值。
对比一下PLDM的六个超参数的网格搜索,这个差距,简直就是马车跟火箭的区别。
而且训练过程极其稳定。
论文里给了一张图,LeWM的损失函数曲线,平滑下降,规规矩矩。PLDM的呢,七条曲线纠缠在一起,此起彼伏,跟乐队打架一样。
这种稳定性,对于工程落地来说,太重要了。谁也不想训练跑了三天,发现模型凉了。
但最让人震惊的,还是性能。
在Push-T任务上,就是控制一个蓝色圆点去推一个T形的方块到目标位置,LeWM达到了96%的成功率。PLDM是78%。差了整整18个百分点。
但等等,这还不是最夸张的。
更夸张的是效率。
DINO-WM的规划时间,大约是47秒。
LeWM是多少呢,0.98秒。
快了将近48倍。
为什么能这么快?因为LeWM用更少的token来表示每一帧图像,大约是DINO-WM的1/200。这意味着在潜在空间里做规划的时候,计算量大幅下降。
48倍的加速,意味着什么?
意味着实时控制成为可能。
你想象一下,机器人在真实世界里动,每一帧都需要规划下一步。如果你的规划需要47秒,那黄花菜都凉了。但如果只需要1秒,机器人就能真正做到「眼疾手快」。
而且,LeWM只有1500万参数。在一张普通的GPU上,训练几个小时就够了。
我们花了数十亿美元,试图让巨大的服务器集群去背诵整个互联网。现在,一个跑在单张显卡上的小模型,反而真正学会了真实世界是怎么运作的。
这不是技术的胜利,这是路线选择的胜利。
当然,LeWM也不是完美的。
论文提到,在最简单的TwoRoom导航任务上,LeWM反而不如PLDM和DINO-WM。研究者分析说,这可能是因为环境太简单了,复杂度很低,强制让表示符合高维高斯分布,反而是一种过度约束。
这个局限性很有意思。它说明,没有任何方法是万能的。你得根据任务的复杂度来选择合适的工具。
还有一个点我觉得值得展开聊聊。
这篇论文还做了很多实验,来验证LeWM是否真的学到了「物理意义上的理解」。
他们训练了一个探测网络,让它从AI学到的潜在表示中,去预测物理量,比如物体位置、速度、角度。
结果发现,这些物理量能够被非常准确地恢复出来。
这意味着什么?意味着原始的视觉信息,被有效压缩进了那个很短的向量里,而且这个信息是可读的,不是乱码。
就像你把一本书压缩成了一页纸的摘要,但这页摘要不是乱写的,它真的包含了这本书的核心内容。
他们还做了「违反预期」测试。
给AI看正常演变的视频,然后突然让物体瞬移,或者改变颜色,观察AI会不会产生惊讶反应。
结果发现,LeWM对物理扰动非常敏感,比如物体突然换位置,惊讶值直接飙升。但对纯视觉扰动,比如颜色变化,就没那么敏感。
这跟人类婴儿的认知研究有很有趣的呼应。
发展心理学的研究早就发现,婴儿对物理扰动反应更强烈。你把一个东西从A点瞬移到B点,婴儿会盯着看很久,但如果你只是改变它的颜色,婴儿可能理都不理。
所以LeWM学到的,不是简单的像素模式,而是某种更接近人类直觉物理的东西。
我们花了几十亿美元训练的那些巨型生成模型,它们学到了什么?它们学到的是像素层面的统计规律,是「画面里这种排列之后通常会跟什么样的排列」。它们在做的事情,跟鹦鹉学舌没有本质区别。
而一个只有1500万参数的小模型,在单张GPU上训练几个小时,反而学到了世界的基本物理规律。
LeCun说了好几年,你们走错了。生成式AI是在浪费算力。你们应该学物理,不是学像素。
但没人听。
大家都觉得参数不够多、数据不够大、算力不够强。没人愿意慢下来想一想,到底什么是智能。
这篇论文,可能就是那条被嘲笑的路,终于开始发光的时刻。
就像1880年代电力刚普及时,大家都在嘲笑,「电有什么用?我已经有蒸汽机了」。那些真正理解电力潜力的人,后来成了工业革命的主角。
AI时代也一样。现在这个阶段,就挺像1880年。
我们还在用蒸汽机的思路搞AI,拼命堆参数、堆数据、堆算力。但真正理解这场游戏的人,已经开始转向了。
转向那条更难、但更接近本质的路。
让AI学世界怎么运作,而不是学世界长什么样子。
这两者的区别,可能比人和鹦鹉的区别还大。
我说这些,不是要否定大模型的价值。大模型在很多任务上还是牛逼的,但我们可能需要更清醒地认识到,大模型的能力边界在哪里。它的强项是记忆和模仿,它的弱项是真正的理解。
而JEPA这条路,虽然现在还有很多问题没解决,但它指向的方向,可能是对的。
豫公网安备41010702003375号