Yann LeCun是对的。LeWM证明，生成式AI可能是一条死路。-AI前沿快讯-AI工具导航

提交工具关于我们

Yann LeCun是对的。LeWM证明，生成式AI可能是一条死路。

前沿资讯 1776828943更新

过去三年，整个AI行业都在疯狂地训练更大的LLM。

万亿参数，千亿投入。

大家的理论很简单，把模型搞大，大到一定程度，它自然就会理解世界是怎么运作的。

Yann LeCun说，这是愚蠢的。

他认为，生成式AI从根子上就是低效的。当一个AI在预测下一个词，或者生成下一个像素的时候，它把海量的算力浪费在了表面的细节上。它记住的是模式，而不是真实世界的物理规律。

这话听着很难理解对吧。

我还是用大白话举个例子。

就像一个学生，他不理解为什么1+1=2，他只是把1+1=2背下来了。然后考试考1+1，他能答对。但你问他2+2等于几，他傻了。

这就是现在大语言模型在干的事。

它把互联网上几乎所有文本都记住了。你问它任何问题，它能从记忆里搜索出最相似的回答。它不是在理解你，它是在做超级高级的「复制粘贴」。

LeCun好几年前就在喷这个。他说你们这帮人做的大模型，本质上就是在做「更复杂的自动补全」，下一个词预测下一个词，跟真正的智能半毛钱关系没有。

那什么才是对的？

LeCun提出了一条路，叫JEPA，全称是联合嵌入预测架构。

核心思想很简单。

真实世界里的信息是冗余的。一段视频里，99%的像素变化其实都不重要。重要的是那些「抽象」的物理量，物体的位置、速度、形状。

所以JEPA不直接预测像素。它先把每一帧压缩成一个很短很短的向量，只保留最核心的物理信息。然后在这个压缩空间里做预测。

打个比方，就像你学开车，你不需要理解发动机每一个零件怎么配合、汽油怎么燃烧、轮胎跟地面摩擦力多少。你只需要知道，踩油门，车往前；打方向盘，车转弯。

JEPA就是让AI学这个——不是预测像素，而是预测「行为结果」。

但问题是，很长一段时间里，JEPA有一个致命的缺陷。

它会遭遇「表示崩溃」。

因为AI被允许简化现实，它就开始作弊。

它发现，把一只狗、一辆车、一个人都映射到同一个向量上，最省力。反正你让我预测下一秒会发生，我只管输出就行，管它对不对呢。

然后呢，它什么都没学到。

为了修复这个问题，工程师们不得不使用各种复杂的骚操作。主要有两条路线。

第一条，是DINO-WM的"找外挂"思路。它说我不管了，我直接拿一个现成的、已经在大规模数据上训练好的视觉模型来用。这个模型已经见过几十亿张图片了，什么狗啊车啊人啊，早就认得清清楚楚，所以它不会崩溃。

但代价是什么呢？你用的是别人的能力，不是你自己的。就好比你考试，你直接抄了一个学霸的笔记，学霸会的你会，学霸不会的你还是不会。你的水平，被锁死在了学霸的天花板下面。

第二条，是PLDM的"疯狂打补丁"思路。它说我就是要自己从头学，但问题是，这个模型太容易偷懒了，你稍不注意它就躺平给你看。那怎么办？工程师们想，我给你加约束啊。你不是爱偷懒吗，我给你加规则：你必须记住这个、你还必须记住那个、你还得注意这个、那个也不能忘……

但问题是，这些加的规则，它们不是配合的关系，是互相矛盾的关系。。

一个说你要这样做，另一个说不行你得那样做。就像一条船上坐了七个人，每个人都在拼命划，但每个人都往不同方向划。最终船只能在原地打转，根本动不了。

这也导致，训练过程极其混乱。曲线一会上一会下，完全没有规律。调参更是噩梦，六个超参数，排列组合起来，不知道要跑多少次实验才能找到最优解。

直到，LeWM出现。

这是研究人员上个月发布的一篇论文，全称LeWorldModel。

他们彻底解决了崩溃问题。

他们用一个单一的、优雅的数学正则化器，替换掉了那些复杂的工程技巧。

这个正则化器叫SIGReg，全称是「随机投影各向同性高斯正则化」。

它做的事很简单，强制把AI的内部「思维」变成一个完美的高斯分布。

为什么这样就能防止崩溃？

因为，如果所有输入都被映射到同一个点，方差就是零，这就不叫高斯分布了，这叫狄拉克delta函数。高斯分布要求表示有一定的离散程度，得展开。

所以AI没办法偷懒了。如果你把所有东西都映射到同一个点，你就违反了正则化条件，你就会受到惩罚。

但如果你映射得太开，预测又不准了，预测损失就会上升。

两种力量博弈的结果，就是AI会学到一种刚刚好的表示，既有多样性，又跟预测任务相关。

更骚的是什么呢。

这个正则化器只有一个参数需要调。

研究者发现，SIGReg内部的随机投影数量对结果几乎没有影响。这意味着只需要调一个λ就行。

一个超参数，用二分搜索，log级别的复杂度，分分钟找到最优值。

对比一下PLDM的六个超参数的网格搜索，这个差距，简直就是马车跟火箭的区别。

而且训练过程极其稳定。

论文里给了一张图，LeWM的损失函数曲线，平滑下降，规规矩矩。PLDM的呢，七条曲线纠缠在一起，此起彼伏，跟乐队打架一样。

这种稳定性，对于工程落地来说，太重要了。谁也不想训练跑了三天，发现模型凉了。

但最让人震惊的，还是性能。

在Push-T任务上，就是控制一个蓝色圆点去推一个T形的方块到目标位置，LeWM达到了96%的成功率。PLDM是78%。差了整整18个百分点。

但等等，这还不是最夸张的。

更夸张的是效率。

DINO-WM的规划时间，大约是47秒。

LeWM是多少呢，0.98秒。

快了将近48倍。

为什么能这么快？因为LeWM用更少的token来表示每一帧图像，大约是DINO-WM的1/200。这意味着在潜在空间里做规划的时候，计算量大幅下降。

48倍的加速，意味着什么？

意味着实时控制成为可能。

你想象一下，机器人在真实世界里动，每一帧都需要规划下一步。如果你的规划需要47秒，那黄花菜都凉了。但如果只需要1秒，机器人就能真正做到「眼疾手快」。

而且，LeWM只有1500万参数。在一张普通的GPU上，训练几个小时就够了。

我们花了数十亿美元，试图让巨大的服务器集群去背诵整个互联网。现在，一个跑在单张显卡上的小模型，反而真正学会了真实世界是怎么运作的。

这不是技术的胜利，这是路线选择的胜利。

当然，LeWM也不是完美的。

论文提到，在最简单的TwoRoom导航任务上，LeWM反而不如PLDM和DINO-WM。研究者分析说，这可能是因为环境太简单了，复杂度很低，强制让表示符合高维高斯分布，反而是一种过度约束。

这个局限性很有意思。它说明，没有任何方法是万能的。你得根据任务的复杂度来选择合适的工具。

还有一个点我觉得值得展开聊聊。

这篇论文还做了很多实验，来验证LeWM是否真的学到了「物理意义上的理解」。

他们训练了一个探测网络，让它从AI学到的潜在表示中，去预测物理量，比如物体位置、速度、角度。

结果发现，这些物理量能够被非常准确地恢复出来。

这意味着什么？意味着原始的视觉信息，被有效压缩进了那个很短的向量里，而且这个信息是可读的，不是乱码。

就像你把一本书压缩成了一页纸的摘要，但这页摘要不是乱写的，它真的包含了这本书的核心内容。

他们还做了「违反预期」测试。

给AI看正常演变的视频，然后突然让物体瞬移，或者改变颜色，观察AI会不会产生惊讶反应。

结果发现，LeWM对物理扰动非常敏感，比如物体突然换位置，惊讶值直接飙升。但对纯视觉扰动，比如颜色变化，就没那么敏感。

这跟人类婴儿的认知研究有很有趣的呼应。

发展心理学的研究早就发现，婴儿对物理扰动反应更强烈。你把一个东西从A点瞬移到B点，婴儿会盯着看很久，但如果你只是改变它的颜色，婴儿可能理都不理。

所以LeWM学到的，不是简单的像素模式，而是某种更接近人类直觉物理的东西。

我们花了几十亿美元训练的那些巨型生成模型，它们学到了什么？它们学到的是像素层面的统计规律，是「画面里这种排列之后通常会跟什么样的排列」。它们在做的事情，跟鹦鹉学舌没有本质区别。

而一个只有1500万参数的小模型，在单张GPU上训练几个小时，反而学到了世界的基本物理规律。

LeCun说了好几年，你们走错了。生成式AI是在浪费算力。你们应该学物理，不是学像素。

但没人听。

大家都觉得参数不够多、数据不够大、算力不够强。没人愿意慢下来想一想，到底什么是智能。

这篇论文，可能就是那条被嘲笑的路，终于开始发光的时刻。

就像1880年代电力刚普及时，大家都在嘲笑，「电有什么用？我已经有蒸汽机了」。那些真正理解电力潜力的人，后来成了工业革命的主角。

AI时代也一样。现在这个阶段，就挺像1880年。

我们还在用蒸汽机的思路搞AI，拼命堆参数、堆数据、堆算力。但真正理解这场游戏的人，已经开始转向了。

转向那条更难、但更接近本质的路。

让AI学世界怎么运作，而不是学世界长什么样子。

这两者的区别，可能比人和鹦鹉的区别还大。

我说这些，不是要否定大模型的价值。大模型在很多任务上还是牛逼的，但我们可能需要更清醒地认识到，大模型的能力边界在哪里。它的强项是记忆和模仿，它的弱项是真正的理解。

而JEPA这条路，虽然现在还有很多问题没解决，但它指向的方向，可能是对的。