LeCunn的世界模型
LeCun 在做一件很不一样的事
最近我花了一些时间试图搞清楚 Yann LeCun 的世界模型的想法。他是卷积神经网络的发明者、2018年图灵奖得主,深度学习三位教父之一——同时也是过去几年里最公开、最持续地唱衰 LLM 的人。他在 Meta 一边帮忙做 Llama,一边说 LLM 是死路。这种内部矛盾让他的批评很难被简单地忽视。2025年底他离开 Meta,创立 AMI Labs,全押世界模型。我想搞清楚他到底押的是什么。
LLM 的成功恰恰暴露了它的上限
LeCun 对 LLM 的批评不是”它不够好”,而是”它的成功本身就是一个信号,说明它在解决一个比我们想象中简单得多的问题”。
语言之所以能被 LLM 驾驭,是因为语言是一个低维度的、离散的、有强统计结构的空间。它是人类思维的”序列化版本”——我们把三维的、连续的、多模态的世界经验,压缩成一串符号传递给对方。LLM 学会了在这个压缩后的符号空间里做插值,做得非常好,好到能通过司法考试、写出流畅的代码。但这恰恰说明语言本身足够简单,而不是说 AI 足够聪明。
LeCun 用一个对比来说明这件事:任何一个 17 岁的人,花 20 小时就能学会开车。但人类花了数十年、数十亿美元,至今没有造出真正的 5 级自动驾驶。不是因为工程师不够努力,而是因为开车需要对物理世界的实时理解——那个世界是连续的、高维的、充满噪声的,不是语言能描述的。AI 在语言上赢了,在猫会做的事情上输了。这个剪刀差,才是 LeCun 真正在意的。
预测下一个词,是一个错误的学习目标
理解 LeCun 在做什么,首先要理解他认为 LLM 的学习目标本身是错的。
LLM 的自监督学习方式是:遮住一段文字的后半部分,让模型预测被遮住的词。图像生成模型的做法类似:遮住图片的一部分,预测每个被遮住的像素。这个框架很优雅,但它有一个根本性的问题——它强迫模型预测那些在物理上本来就不可预测的细节。
想象一张猫坐在沙发上的照片,窗帘随风飘动。如果遮住右半部分,让模型还原:猫耳朵的大致形状是可以预测的,沙发的材质颜色是可以预测的,但窗帘此刻飘到什么角度、猫毛每根丝的朝向、光线折射的精确分布——这些在物理上就是随机的,根本无法被正确预测。生成模型于是只能”编造”一个合理的版本,这就是幻觉的来源之一。模型不是在说谎,它是在用力完成一个不可能完成的任务。
LeCun 的问题是:为什么要预测像素?我们真正需要的是理解”那里有猫的后半身”——这是语义,不是像素。如果学习目标本身就要求预测所有细节,那么模型永远无法把精力集中在真正有意义的结构上。
JEPA:在抽象空间里预测,而不是在原始空间里重建
这是 LeCun 的核心技术方案,叫做 JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)。
它的思路是:不在像素空间或 token 空间里做预测,而是先把输入编码成抽象的表征向量,然后在这个表征空间里做预测。表征向量是神经网络对输入的”理解”——它不包含每个像素的精确值,而是编码了”这是一只猫”、”物体在左边”、”场景是室内”这类语义信息。那些无法预测的随机细节,在编码过程中自然被丢掉了。
具体训练时,JEPA 有两个编码器:一个处理可见的上下文部分,一个处理被遮住的目标部分。预测器接受上下文的表征,输出对目标表征的预测,然后计算预测结果和真实目标表征之间的误差。整个损失计算发生在表征空间里,而不是像素空间。这意味着模型不需要还原窗帘的精确角度,它只需要知道”那里有窗帘,而且它在飘动”。
这个设计有一个必须解决的技术难题,叫做”表征崩塌”——如果模型把所有输入都映射到同一个向量,预测误差永远是零,但什么都没学到。LeCun 在 2025 年发表的 LeJEPA 用数学证明了最优的表征分布应该是各向同性高斯分布,并设计了对应的正则化方法来防止崩塌。这是 JEPA 从理论到可扩展实践的关键一步。
世界模型的真正用途:在脑子里规划,而不是描述规划
JEPA 训练出的表征学习能力,是为了支撑一个更大的目标:让 AI 能够规划和行动。
LeCun 的设想是,一个训练好的世界模型,能够给定当前状态和一个动作,预测执行这个动作之后世界会变成什么状态——不是预测每个像素,而是预测状态的抽象表征。有了这个能力,规划就变成了一个优化问题:我现在在状态 S,我想到达目标状态 G,那么什么样的动作序列 A 能让世界模型预测出的结果最接近 G?
这里有一个容易误解的地方。动作序列不是靠枚举候选方案来生成的——物理动作空间是连续的,枚举根本不可行。实际的做法是把动作序列 A 本身当作可优化的参数,随机初始化之后,通过梯度反传不断调整,直到世界模型预测出”执行 A 之后会到达 G”。整个过程不涉及语言,不涉及采样,纯粹是在连续数学空间里的优化。这和大脑接住一个飞来的球的方式,在结构上是类似的:不是在脑子里用语言推理抛物线方程,而是直接在运动表征空间里做实时预测和调整。
Reasoning 模型(比如 o1、o3)也在做某种规划,但它的规划是在语言空间里发生的:生成中间步骤的文字描述,评估哪条路径更好,输出结论。LeCun 把这称为”System 1.1”——比纯粹的直觉反应强一点,但本质上还是在语言 token 的统计空间里搜索,而不是在连续物理空间里优化。对于数学推理和代码生成,这可能已经足够;对于机器人操作和物理世界的实时交互,语言作为中介本身就是瓶颈。
这个方向目前还没有解决的问题
诚实地说,LeCun 的方案在概念上有说服力,在视觉表征学习上已经有扎实的成果,但在完整的规划-执行闭环上,还有几个没有干净答案的问题。
首先是目标的表达问题。如果目标可以用一张图来描述(”让杯子在右边”),那可以直接编码成目标向量。但很多时候目标是模糊的、偏好性的,比如”把这个房间收拾得好看一点”——这种目标目前没有好的处理方式。
其次是动作空间的问题。动作序列从随机初始化出发做梯度优化,在简单任务上可行,但对于全新的、复杂的任务,收敛是很困难的。分层规划(先规划高层子目标,再规划底层动作)是缓解方式,但不是完整的解。
最根本的问题在于训练数据。世界模型训练需要(状态, 动作, 下一状态)这样的数据,但大多数视频只有(状态, 下一状态),动作是缺失的隐变量。用隐变量模型来推断”是什么因素让世界从 S 变到了 S’”是可行的思路,但推断出的隐变量和真实物理动作之间的对应关系是模糊的,要把它转化成可执行的机器人指令,还需要额外的数据和模块。
LeCun 自己也说,需要几个重大概念突破,才能实现他想要的东西。这几个问题,大概就是那些突破需要发生在哪里。
为什么这个方向在概念上值得认真对待
LeCun 的方案有说服力,不是因为它已经工作了,而是因为它对准了一个真实的、长期存在的失败,并且给出了一个在逻辑上自洽的解释。
这个失败叫做 Moravec 悖论:让计算机通过考试很容易,让它像猫一样走路很难。过去几十年,每一波 AI 浪潮都是靠绕开这个悖论来获得成功的——选择那些天然适合符号处理和统计学习的任务,而不是正面解决物理世界的连续性和高维性。LeCun 的方案是少数几个正面回应这个悖论的方向之一。
它和神经科学的吻合也增加了说服力。婴儿在会说话之前已经理解了重力、物体permanence、因果关系,这些都是从观察和互动里学到的,不是从语言里学到的。”预测性编码”是神经科学里的主流理论之一,认为大脑的核心工作就是不断预测感官输入并用预测误差更新内部模型——这和 JEPA 在表征空间里做预测的思路,在结构上高度一致。这个吻合不能证明 LeCun 是对的,但它意味着这个方向至少没有走错科。
最有力的论点是:LLM 的问题不是工程缺陷,而是学习目标决定了它能学到什么。一个从没见过颜色的盲人,可以学到所有关于”红色”的语言描述——红色是长波光,红色让人联想到热情——但他永远不知道红色看起来是什么。语言描述是对物理现实的有损压缩,而这个损失是不可逆的,更多的文本数据无法恢复它。如果这个论点是对的,那么 LLM 的天花板不是算力问题,而是信息论问题。
当然,反对方也有论据。Scaling 派会说:也许语言这个有损压缩保留的信息已经足够了,也许语言就是智能的正确基底。这场争论的核心是一个目前没有答案的问题:语言理解和物理世界理解,哪个是另一个的基础?LeCun 押注物理在先,Scaling 派押注语言够用。两边都没有被决定性地证伪。
但有一件事是确定的:如果我们想要的是那种能收拾房间、能学会开车、能在物理世界里真正行动的智能,那么一个从来没有看过世界、只读过关于世界的文字描述的系统,和我们想要的东西之间,有一个结构性的距离。LeCun 在做的,是试图量化并跨越这个距离。