具身智能的范式重心将从语言转向视觉......

03-06 23:35

质量金标

作者丨具身纪元

本文只做学术分享，如有侵权，联系删文

Jim Fan在X上发布了一篇文章，讲述了第二种预训练范式，是用于机器人的、预测下一个物理状态的世界模型。我们翻译如下。

“预测下一个词”是第一种预训练范式。

现在，我们正经历第二种预训练范式转移：世界模型（World Modeling），即“预测下一个物理状态”。

很少有人明白这一转变影响有多深远。

遗憾的是，目前世界模型最热门的用例却是一些用AI生成的垃圾视频（接下来会是垃圾游戏）。

我敢肯定，2026年将是大型世界模型为机器人技术、以及更广泛的多模态AI奠定真正基础的元年。

在此背景下，我将世界模型定义为：基于某个动作，预测下一个合理的世界状态（或更长的一连串状态）。

视频生成模型就是一种体现。

这里的“下一个状态”是一系列RGB帧（通常8-10秒，最长几分钟），“动作”则是描述要做什么的文本。

训练过程涉及对数十亿小时视频像素的未来变化进行建模。

核心在于，视频世界模型是可学习的物理模拟器和渲染引擎。

它们捕捉“反事实”——换个高级点的词，就是推演如果采取不同动作，未来会如何不同。

世界模型本质上是“视觉优先”的。

相比之下，视觉语言模型（VLM）本质上是“语言优先”的。

从最早的原型（如2023年的LLaVA）开始，套路基本一致：视觉信息进入编码器，然后被路由到语言骨干网络中。

虽然随着时间推移，编码器在进步，架构变简洁，视觉也试图变得更“原生”（如Omni模型），但它仍是二等公民。

相比大语言模型（LLM）多年积累的肌肉，视觉显得微不足道。

这条路很方便。

我们知道LLM能扩展（Scale）。

我们的架构直觉、数据配方设计和基准指导（VQA），全都是针对语言优化的。

对于物理AI，2025年是VLA（视觉-语言-动作）模型的一年：在预训练的VLM检查点上嫁接一个机器人运动动作解码器。

实际上这是“LVA”：语言 > 视觉 > 动作，地位依次递减。

这条路同样方便，因为我们对VLM的配方很熟。

然而，VLM的大部分参数分配给了“知识”（例如“这团像素是可口可乐品牌”），而不是“物理”（例如“如果你倾斜瓶子，液体会流出变成棕色水洼，弄脏白桌布，搞坏电机”）。

VLA在知识检索上设计得很好，但在关键能力上重心放错了位置。这种多阶段的嫁接设计，也违背了我对简洁和优雅的偏好。

从生物学角度看，视觉主导了我们大脑皮层的计算。

大约三分之一的皮层（跨越枕叶、颞叶和顶叶区域）专门处理像素。

相比之下，语言依赖的区域相对紧凑。

视觉是连接大脑、运动器官和物理世界的最高带宽通道。它闭合了“感觉运动回路”——这是机器人技术最需要解决的回路，中间完全不需要语言参与。

大自然给了我们一个存在证明，即具备极高灵巧度的物理智能，却只有极少的语言能力：猿猴。

我见过猿猴开高尔夫球车，像人类技工一样用螺丝刀换刹车片。它们的语言理解能力顶多相当于BERT或GPT-1，但物理技能却远超我们最先进的机器人。

猿猴可能没有好的语言模型，但它们脑中肯定有一幅强大的“如果……会怎样”的图景：物理世界是如何运作的，以及如何对它们的干预做出反应。

世界模型的时代到了。它印证了“苦涩的教训”（The Bitter Lesson）。

正如Jitendra喜欢提醒我们这些沉迷于扩展（Scaling）的人那样：“监督是AI研究人员的。”整个YouTube和智能眼镜的兴起，将捕捉到海量的世界原始视觉流，其规模远超我们要训练的所有文本。

我们将看到一种新型的预训练：下一个世界状态包含的将不仅仅是RGB图像——还包含3D空间运动、本体感觉和触觉感测，这些才刚刚起步。

我们将看到一种新型的推理：视觉空间中的“思维链”，而不是语言空间中的。你可以通过模拟几何形状和接触，想象物体如何移动和碰撞来解决物理谜题，完全无需翻译成字符串。语言是瓶颈，是脚手架，而非地基。

我们将面临新的潘多拉魔盒，充满未解之谜：即使有了完美的未来模拟，该如何解码运动动作？像素重建真的是最佳目标吗？还是应该进入某种替代的潜空间？我们需要多少机器人数据？大规模遥操作仍然是答案吗？

做完这些练习后，我们是否终于迈向了机器人的“GPT-3时刻”？

Ilya终究是对的。AGI尚未收敛。我们回到了研究的时代，没有什么比挑战第一性原理更令人兴奋的了。