世界模型能够根据当前输入预测未来观测或潜在表征。其前向预测能力在VLA系统中变得越来越重要,可支持规划、推理和控制功能
(1)在世界模型中生成动作:与直接生成动作的模型不同,世界模型会生成未来的视觉观测(如图像或视频序列),然后利用这些观测来指导动作生成。例如,UniPi采用受Video UNet启发的扩散模型,根据初始观测图像和任务指令生成视频序列。随后,逆动力学模型(IDM)将预测的图像序列转换为低层动作。这种视觉预测与基于IDM的控制相结合的方式,是基于模型的VLA中常见的设计模式。类似地,DreamGen和GeVRM通过预测未来的视觉表征来生成动作。HiP通过整合LLM进行子任务分解,进一步扩展了这一思路,能够实现更长周期行为的执行。Dreamitate对Stable Video Diffusion进行微调,以合成人类使用工具完成操作任务的视频。然后,根据生成的视频,利用MegaPose估计工具的6自由度位姿,使机器人能够遵循估计的工具位姿进行操作。与生成完整视频序列不同,SuSIE利用InstructPix2Pix根据初始观测和任务指令生成中间目标图像,从而预测抽象的子目标图像,并将其作为扩散策略的条件约束。CoT-VLA采用类似方法实现思维链推理(详见第4.1节)。LUMOS也会生成目标图像,但其生成过程是通过一个以低层动作指令为输入的世界模型实现的。在LUMOS中,通过与学习到的世界模型交互,训练策略以模仿专家演示。
除了视频和图像生成,近年来许多研究还利用光流或特征点跟踪技术。由于光流和特征跟踪与机器人实体无关,因此为利用人类演示数据提供了更具泛化性的方法。与UniPi类似,AVDC生成视频序列,并利用GMFlow计算每一帧的光流。然后,将目标物体的SE(3)刚体变换估计问题转化为一个优化问题。ATM在训练过程中利用CoTracker预测任意特征点的未来轨迹,并训练一个Transformer,在这些轨迹的指导下生成动作。Track2Act预测初始图像和目标图像之间的特征点轨迹,优化3D刚体变换,并学习残差策略以细化运动。LangToMo根据初始图像和任务指令预测未来光流,利用RAFT进行光流监督,并将该预测映射为机器人动作。MinD采用端到端方法,联合学习视频预测和动作预测。具体而言,MinD将一个低频视频生成器(根据初始图像和指令在潜在空间中预测未来视觉观测)与DiffMatcher(将这些预测转换为时序特征,供高频动作策略用于高效生成动作序列)相结合。PPI接收视觉和语言输入,预测每个关键帧的抓手位姿和物体位移(Pointflow),并将其作为动作生成的中间条件
(2)通过世界模型生成潜在动作:这类VLA模型利用世界模型从人类演示中学习潜在动作表征。例如,LAPA(从视频中进行潜在动作预训练)(详见第3节)通过联合学习从当前和未来图像对中预测动作表征,以及根据当前图像和潜在动作生成未来帧,实现了在无显式动作标签的数据集(如人类视频)上的训练。一旦学习到潜在动作,就可以利用这些token训练VLA策略。随后,替换动作头部并进行微调,以输出机器人动作。LAPA已被用于GR00T N1和DreamGen的预训练。此外,GO-1和Moto也采用了类似方法。UniVLA通过语言输入扩展了DINOv2的潜在空间,并采用两阶段训练过程,分离与任务无关和与任务相关的潜在动作token。UniSkill采用基于图像编辑的方法,从RGB-D图像中提取潜在动作,并将其作为扩散策略的条件。
(3)包含隐式世界模型的感知运动模型:这类VLA模型同时输出动作和未来观测预测,以提升性能。GR-1整合了预训练的MAE-ViT编码器、CLIP文本编码器和一个Transformer,并在Ego4D数据集上进行训练以预测未来观测图像。随后,通过微调使模型能够根据图像、语言和本体感知输入,同时预测动作和未来帧。通过在标准VLA框架中融入类似视频预测模型的观测预测功能,GR-1在任务成功率方面表现出了提升。GR-2在GR-1的基础上,通过扩大训练数据集和引入架构改进(包括基于VQGAN的图像token化和用于动作生成的条件变分自编码器(VAE)),进一步提升了性能。GR-MG利用基于InstructPix2Pix的模型生成中间目标图像,并将其嵌入到GR-1风格的框架中。此外,GR-3通过整合VLM(Qwen2.5-VL)和带有流匹配功能的扩散Transformer以生成动作,实现了分层结构。3D-VLA通过扩展这一研究方向,利用Stable Diffusion预测RGB-D图像,并利用Point-E预测点云。此外,FLARE、UVA、WorldVLA和ViSA-Flow等多种模型也在感知运动模型中融入了完整的视频预测功能
https://github.com/nvidia-cosmos
https://zhuanlan.zhihu.com/p/19751920966
清华陈建宇(星动纪元创始人)团队和斯坦福 Chelsea Finn(PI 创始人) 团队基于 Ctrl-World (两个团队的首个合作成果),再度携手,联合提出了 VLAW 框架,首次实现了 VLA 策略与动作条件世界模型的协同迭代优化,让两者形成一个「互相促进的闭环 https://mp.weixin.qq.com/s/mViF9Uf_gotNY1DPgXfA0Q
李飞飞:https://vision-x-nyu.github.io/thinking-in-space.github.io/
Yann LeCun一直在走一条与主流大语言模型截然不同的路。当行业焦点集中在模型参数规模的暴力扩展时,他将研究重心完全放在了世界模型上。
过去几周,V-JEPA 2.1、LeWorldModel 和 ThinkJEPA 等论文相继发布。
面对主流自回归模型在物理常识和多步规划上的局限,**JEPA(****联合嵌入预测架构)**给出了另一种思路:彻底放弃底层的像素重建,直接在抽象的特征空间中预测未来状态。
这 14 篇关键论文,正是这套架构从理论走向现实的完整记录
系统从处理单一的静态图像起步,逐步跨越视频与三维几何,最终接入动作变量,构建出一个具备端到端推演和规划能力的完整框架
在 JEPA 问世前,自监督视觉学习一直被像素重建(如掩码自编码器 MAE)和依赖数据增强的对比学习主导。
LeCun 打破了这一惯性,确立了一个绝对核心的原则:预测必须在抽象的表征空间中进行。
JEPA与H-JEPA:概念起点
JEPA 和 H-JEPA(Hierarchical JEPA)[1] 作为早期的概念起点,引入了层级化和多时间尺度的机制。
这不仅是为了解决单一尺度的预测问题,更核心的目的在于让模型具备更高维度、更长周期的状态推演能力。
这一阶段虽然偏向理论构想,但为后续具备规划能力的世界模型划定了清晰的理论边界。
I-JEPA:视觉领域的首次落地
I-JEPA(Image-based JEPA)[2] 是将理论转化为工程实现的关键节点。
它证明了在不依赖手工数据增强的情况下,系统依然能学到深度的语义表征,从而成为掩码自编码器之外的一种极具竞争力的可行路径。
此前的对比学习高度依赖色彩抖动、空间裁剪等手工设计的数据增强,引入了较强的归纳偏置。I-JEPA 完全摒弃了这种做法,核心在于引入了多块掩码策略。
整个 pipeline 基于 ViT 构建,分为上下文编码器、目标编码器和预测器三部分。
训练时,系统会先在图像里采样 4 个目标块(面积占 15%-20%,长宽比随机)。接着,再采样一个面积更大(85%-100%)、比例方正的上下文块,并把两者重叠的部分严格剔除。
目标编码器的参数由上下文编码器的参数通过指数移动平均(EMA)更新而来 ;上下文编码器则处理剩余的可见上下文块。
一个轻量级的预测器接收上下文特征以及对应的掩码 token,在隐空间中预测目标块的表征。整个过程通过最小化预测值与真实目标值之间的 L2 距离来驱动
掩码尺度的把控是这套设计的关键。如果只随机掩盖零散的 patch,模型极易通过局部的像素插值完成任务,无法学习到深层语义。
I-JEPA 通过大尺度目标块掩码,迫使模型去理解图像全局的语义结构。
由于系统只在隐空间中计算损失,无需解码还原高频像素细节,训练效率显著提升。预训练一个 ViT-Huge/14 模型,在 16 张 A100 显卡上仅需不到 1200 GPU 小时
阶段二:走向动态与跨模态
在验证了图像领域的有效性后,架构的演进必然要面对现实世界中最核心的维度:时间与动态变化。
这一阶段的研究,将特征预测机制推向了更复杂的时空数据和跨模态任务。
MC-JEPA:引入动态理解
MC-JEPA(Motion-Content JEPA)[3] 是从静态图像走向动态理解的探索性尝试。
它通过在共享编码器中联合学习运动(Motion)和内容(Content)特征,初步验证了在隐空间中同时捕捉静态细节与动态变化的可行性,为后续处理高维度时空数据做好了铺垫。
V-JEPA:视频特征预测的验证
V-JEPA(Video-based JEPA)[4] 是架构演进路线上的绝对支柱。
处理视频数据时,如果沿用传统的像素级重建(如 VideoMAE 等方案),时空维度的增加会导致计算成本呈指数级爆炸。
V-JEPA 明确证明了,纯粹的特征预测完全可以作为视频自监督学习的独立目标,且无需依赖任何预训练图像编码器、文本对齐或像素重建。
整个 pipeline 将输入的视频片段切分为空间 16x16、时间跨度 2 帧的时空 token 序列。
与 I-JEPA 采用 L2 距离不同,V-JEPA 在隐空间中计算预测表征与真实目标表征之间的损失时,改用了 L1 回归,原论文指出这种方式在视频任务中更为稳定。
为了迫使模型真正理解动态世界,V-JEPA 设计了一套 3D 多块掩码策略。在训练中,系统会平均丢弃视频中高达 90% 的时空 patch。
为了防止模型通过相邻帧进行简单的时空插值“作弊”(信息泄漏),这些掩码块会贯穿视频的整个时间维度。
系统会混合使用短程掩码(采样 8 个小块,各占 15% 面积)和长程掩码(采样 2 个大块,各占 70% 面积)。
这种在高度信息缺失下进行的特征预测,使模型学到了极具通用性的视觉表征。在包含 200 万段视频的 VideoMix2M 数据集上预训练后,V-JEPA 展现出了惊人的泛化能力。
在冻结主干网络的评估协议下,V-JEPA 在高度依赖精细动作理解的 Something-Something-v2 任务上,大幅超越了之前所有的视频掩码模型,并拉开了与 DINOv2 等顶级图像基础模型的差距
在训练效率方面,由于彻底避开了像素解码的计算消耗,V-JEPA 比主流的像素重建视频模型快了约 2 倍。
此外,它还展现出极强的标签效率,在仅提供 5% 或 10% 标注数据的情况下,依然能保持稳定的微调表现。
在 CIFAR-10 和 Moving MNIST 上的基准测试表明,即便在轻量级设置下,EB-JEPA 依然能学习到高质量表征(CIFAR-10 线性评估准确率达 91%)。
Audio-JEPA:模态通用性的确立
在视觉与视频领域跑通后,Audio-JEPA [5] 进一步证实了这套架构的底层通用性。
它将特征预测机制迁移到音频频谱图上,通过引入时频感知掩码,让模型在隐空间中预测缺失的音频特征。
这一节点的成功,表明避免原始信号重建、在高度抽象的特征空间中进行局部到局部的预测,是一种可以跨越感官模态的通用学习法则。
阶段三:深入三维几何
从 2D 图像和视频跨越到 3D 几何空间,架构的演进面临着新的挑战。与排列在规则网格上的像素不同,3D 点云本质上是高度无序且不规则的。
传统的掩码自编码器强行重建原始的 3D 点云坐标,不仅计算成本高昂,还会让模型将算力浪费在拟合无意义的局部几何噪声上。
Point-JEPA**:点云几何表征的高效提取**
Point-JEPA [6] 是将 JEPA 专门适配到点云数据的关键尝试。
针对点云无序性带来的上下文块和目标块采样难题,它避免了在原始空间进行坐标和颜色的重建,转而在隐空间中进行特征预测
通过这种设计,Point-JEPA 成功绕开了原始点云数据中存在的冗余和噪声,证明了该架构在处理复杂几何表征时依然能够保持极高的效率。
3D-JEPA:更广泛的3D语义重塑
3D-JEPA [7] 进一步拓宽了架构在三维空间的适用范围,将应用场景从单一的点云数据扩展到了更广泛的三维特征学习。它标志着该架构已经成熟,可以作为处理完整 3D 语义的基础框架
阶段四:接入动作与规划
在解决静态和动态特征提取后,架构不可避免地要面对构建世界模型最核心的考验:理解动作如何影响物理环境,并据此进行多步推演。
这一阶段的研究标志着系统从被动感知正式跨入主动控制的领域。
ACT-JEPA:动作变量的联合预测
ACT-JEPA [8] 是 JEPA 走向完整控制系统的关键节点。此前的模型大多停留在对观测信号的隐空间预测,而 ACT-JEPA 引入了动作序列这一核心变量
具体实现上,系统不再单一预测未来的观测特征,而是将动作序列与隐式观察序列进行联合预测。
这种联合建模方式不仅让模型理解了环境会如何演变,更理解了特定的动作指令会如何干预并改变环境的走向。
引入动作预测后,世界模型的整体表征质量得到了显著提升,在多项控制任务中表现出了更高的任务成功率。这套机制也为后续更复杂的策略学习搭建了稳固的底层架构。
V-JEPA 2:具备零样本规划能力的显式世界模型
如果说 ACT-JEPA 是控制架构的雏形,V-JEPA 2 [9] 则是该系列中具有决定性意义的里程碑。
在这个节点,JEPA 正式演变为一个能够执行理解、预测与规划的显式世界模型。
V-JEPA 2 的核心突破在于其展现出的零样本机器人规划能力。在未经特定环境数据微调的情况下,模型能够在一个完全未知的物理环境中,利用一系列视觉子目标进行多步动作推演。
阶段五:底层重构与端到端演进
随着架构在感知和控制领域的验证逐步收网,研究重心开始向两个方向聚拢:一是清理早期工程探索中遗留的冗余设计,回归数学本质;二是向着更复杂的端到端训练和长周期推理发起挑战。
LeJEPA:回归数学本质
早期的联合嵌入架构在很大程度上依赖指数移动平均、停止梯度等启发式技巧来防止模型训练过程中的表示坍塌。
LeJEPA [10] 直接从底层数学逻辑出发,引入了各向同性高斯正则化(SIGReg)。
这种优化目标能够主动约束隐空间的数据分布,彻底移除了复杂的教师学生网络架构和繁琐的超参数调度。整个计算流程被精简,让模型的并行训练变得更加纯粹和稳定。
Causal-JEPA:引入对象级掩码的因果推理
为了让系统超越表层的视觉关联,Causal-JEPA [11] 将掩码机制从基础的图像块升级到了对象级别。在训练过程中,模型必须根据环境中的其他对象来推断被掩盖对象的状态。
这种强制性的交互推理诱发了隐空间中的潜在干预机制。它不仅显著提升了系统在复杂场景下的反事实推理能力,还在智能体控制任务中实现了极高的数据效率——系统仅需极少的隐层特征维度即可完成精准规划。
V-JEPA 2.1:解锁密集特征与深度自监督
在建立动作规划能力后,V-JEPA 2.1 [12] 将重心放回了表征质量的极致打磨,属于该阶段重点拆解的核心工作。
它引入了密集预测损失,让可见的上下文标记和被掩盖的标记共同参与损失计算,从而大幅强化了模型对时空的精确定位能力。
与此同时,系统还在编码器的多个中间层级同步应用了深度自监督机制,迫使网络在较浅的层级就开始理解复杂的物理逻辑
配合能够统一处理图像和视频数据的多模态分词器,该模型在短期动作预测和细粒度场景理解任务上确立了全新的性能基准。
LeWorldModel:纯粹的端到端世界模型
构建世界模型的难点在于如何保持特征空间的稳定,先前的方案往往需要拼凑多项辅助损失或依赖外部预训练的编码器。
LeWorldModel [13] 首次实现了完全从原始像素端到端稳定训练的极简架构。整个系统仅依靠两个目标驱动:下一步特征预测以及高斯正则化。
这种轻量级的纯粹设计不仅大幅降低了工程复杂度,更让其在控制任务中的推演规划速度远超庞大的传统基础模型流水线。即使在没有任何辅助监督信号的情况下,系统依然展现出了对物理规律违和事件的敏锐感知力。
ThinkJEPA:融合语义思考的长周期规划
单纯的隐空间预测在处理长视野任务时,容易陷入局部的低级特征外推。作为路线图上的最新节点,ThinkJEPA [14] 代表了向复杂推理进发的探索方向。
它将视觉语言模型中蕴含的深层语义抽象和通用知识,巧妙地编织进隐式世界模型的预测路径中。
从图像上的隐空间预测,到扩展至视频与三维空间等多模态数据,再到最终实现端到端的动作规划,JEPA 架构已经走出了早期自监督特征提取的范畴。
面对主流自回归模型在物理常识和长序列规划上的局限,彻底放弃像素重建、直接在抽象空间中推演环境演变,被证明是一条切实可行的路线。
这套机制让系统跳出了单纯的模式匹配,开始真正理解物理世界的运作规律,并具备了执行复杂决策的能力。
[2] https://arxiv.org/abs/2301.08243
[3] https://arxiv.org/abs/2307.12698
[4] https://arxiv.org/abs/2404.08471
[5] https://arxiv.org/abs/2507.02915
[6] https://arxiv.org/abs/2404.16432
[7] https://arxiv.org/abs/2409.15803
[8] https://arxiv.org/abs/2501.14622
[9] https://arxiv.org/abs/2506.09985
[10] https://arxiv.org/abs/2511.08544
[11] https://arxiv.org/abs/2602.11389
[12] https://arxiv.org/abs/2603.14482
[13] https://arxiv.org/abs/2603.19312. https://le-wm.github.io/
[14] https://arxiv.org/abs/2603.2228
| 序号 | 论文标题 | arXiv链接 | 会议/期刊 |
|---|---|---|---|
| 1 | Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture (I-JEPA) | 2301.08243 | 2023 IEEE/CVF International Conference on Computer Vision |
| 2 | MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features | 2307.12698 | ICLR 2024 (The Twelfth International Conference on Learning Representations) |
| 3 | Revisiting Feature Prediction for Learning Visual Representations from Video (V-JEPA) | 2404.08471 | arXiv预印本 (尚未有明确的会议/期刊信息) |
| 4 | Audio-JEPA: Joint-Embedding Predictive Architecture for Audio Representation Learning | 2507.02915 | ICME 2025 (2025年IEEE国际多媒体与展览会) |
| 5 | Point-JEPA: A Joint Embedding Predictive Architecture for Self-Supervised Learning on Point Cloud | 2404.16432 | WACV 2025 (Winter Conference on Applications of Computer Vision) |
| 6 | 3D-JEPA: A Joint Embedding Predictive Architecture for 3D Self-Supervised Representation Learning | 2409.15803 | arXiv预印本 (尚未有明确的会议/期刊信息) |
| 7 | ACT-JEPA: Novel Joint-Embedding Predictive Architecture for Efficient Policy Representation Learning | 2501.14622 | arXiv预印本 (尚未有明确的会议/期刊信息) |
| 8 | V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning | 2506.09985 | arXiv预印本 (尚未有明确的会议/期刊信息) |
| 9 | LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics | 2511.08544 | arXiv预印本 (尚未有明确的会议/期刊信息) |
| 10 | Causal-JEPA: Learning World Models through Object-Level Latent Interventions (C-JEPA) | 2602.11389 | arXiv预印本 (尚未有明确的会议/期刊信息) |
| 11 | 标题未获取 | 2603.14482 | arXiv预印本 (内容缺失,无法获取标题和会议信息) |
| 12 | 标题未获取 | 2603.19312 | arXiv预印本 (内容缺失,无法获取标题和会议信息) |
| 13 | 标题未获取 | 2603.2228 | arXiv预印本 (内容缺失,无法获取标题和会议信息) |
WAM 萌芽——用视频补短板,算是 “摸着石头过河”
UniPi: Learning Universal Policies via Text-Guided Video Generation》(MIT、谷歌等联合团队,2023)
这篇应该是 WAM 的 “开山之作”,MIT 和谷歌的联合团队,首次提出 “策略即视频” 的思路——核心是用文本引导的视频扩散模型,生成未来动作的像素级视频轨迹,再通过简单的逆动力学模型(IDM),从视频像素中反推出机器人的关节动作
我觉得这个想法特别巧妙,它第一次证明了 “视频预训练能补全物理理解短板”,模型也能实现跨环境迁移,但缺点也很突出:视频和动作是完全解耦的,视频生成的计算量极大,且长时间序列下视频质量会退化,导致动作控制精度不足,细粒度控制更是谈不上,算是典型的 “补短板” 式探索,摸着石头过河
《LAPA: Latent Action Pretraining from Videos》(Seonghyeon Ye, Joel Jang 等,KAIST、华盛顿大学、微软研究院、NVIDIA 等联合团队,2025,ICLR 会议论文)
这篇真的刷新了我对 “无标注数据利用” 的认知,它完全跳出了 “必须用机器人标注数据” 的思维定式,核心是一套三阶段的无监督预训练方案,逻辑闭环又巧妙:第一步先靠 VQ-VAE 训练一个动作量化模型,从连续视频帧中无监督学习离散的 “ latent action(隐式动作)”—— 相当于给物理世界的基础动作 “分词”,不用预设关节角度、末端执行器位置这些先验;第二步用预训练 VLM 做行为克隆,根据视频观测和任务描述预测这些隐式动作,全程不用任何真实机器人动作标签;第三步只需要用小规模带标签的机器人数据微调,就能把隐式动作映射成机器人能执行的实际动作
它的突破点不止一个:一是泛化能力极强,哪怕预训练只用人类操作视频(比如日常物品互动的视频),和机器人本体差异巨大,微调后在 SIMPLER 仿真和真实机器人任务上,居然能超过用专业机器人数据集(Bridgev2)训练的 OpenVLA;二是效率惊人,预训练只用 272 个 H100 GPU 小时,是 OpenVLA的 30-40 倍,却在真实世界任务中平均成功率比 OpenVLA 高 6.22%;三是跨场景迁移稳健,不管是跨任务、跨环境还是跨机器人本体,隐式动作在语义空间里都能保持一致性——比如不同机械臂的 “移动”“旋转”,隐式表示高度重合,这意味着互联网上的海量视频都能成为机器人的 “物理知识教材”。
更意外的是,它还能当简易世界模型用:把预测出的隐式动作输入解码器,就能重建未来视频帧,相当于能 “想象” 动作带来的结果,为后续闭环控制打下了基础。这篇工作彻底证明,机器人学习不一定非要依赖昂贵的标注数据,互联网视频里的物理动态信息,只要用对方法,就能成为突破 VLA 瓶颈的关键。
这一阶段的 WAM,虽然还有很多不足,但已经明确了核心方向:视频预训练,就是解决 VLA 短板的关键。就像给不懂做饭的机器人,看了很多烹饪视频,它慢慢知道了开火、翻炒的基本逻辑,虽然还做不好,但已经迈出了重要一步
WAM 成熟——视频与动作深度融合,终于 “能做好” 了
如果说萌芽阶段的 WAM 是 “能做”,那成熟阶段的 WAM,就是 “能做好”。研究者们不再满足于 “视频和动作各做各的”,而是开始探索怎么让两者深度融合,要么优化分开的方案、减少信息损失,要么直接端到端训练,让一套模型同时搞定视频预测和动作生成,这一阶段的技术成熟度,比萌芽阶段提升了一大截。
《mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs》(mimic robotics、Microsoft Zurich、ETH Zurich 等,2025)
这篇是 “分开优化” 的代表,它没有像 UniPi 那样生成完整的视频,核心优化是让视频骨干模型(Cosmos-Predict2)沿扩散流轨迹停在中间噪声水平,既保留物理动态信息,又规避了全量视频生成的计算开销;同时用 “冻结视频骨干 + 轻量级动作解码器” 的两阶段训练,梯度不回传,让视频和动作的配合更流畅
《PAD: Prediction with Action: Visual Policy Learning via Joint Denoising Process》(UC Berkeley, 2024)
这篇是端到端训练的 “基础之作”,UC Berkeley 的团队提出了一个很关键的想法:视频预测和动作生成,可以共享同一套 DiT 骨干网络,核心是通过联合去噪动力学,从噪声中同时重建未来的视频帧和动作序列,实现两者的原生对齐。
这样做的好处很明显,视频和动作能精准对齐,不会出现 “视频里动作是向左,机器人却向右动” 的情况,也彻底解决了分开方案的信息损失问题。而且它还支持 “有动作标注的机器人数据” 和 “无动作标注的纯视频数据” 联合训练,为后来利用海量互联网视频,打下了架构基础。
《Vidar: Embodied Video Diffusion Model for Generalist Manipulation》(清华大学,2025)
这篇是落地性最强的,团队聚焦于双臂操作这种复杂场景,核心优化是用 Masked IDM 学习与动作相关的像素掩码,过滤无关像素干扰,优化了视频与动作的融合逻辑。最让我震撼的是它的样本效率:只用 20 分钟的人类示范数据,就在 50 个任务上达到了 65.8% 的成功率,而这个数据量,只有 的 1/1200
WAM 进阶——一个模型搞定四件事,离通用机器人更近了
成熟阶段的 WAM 已经很优秀了,但研究者们并没有停下脚步,而是朝着 “通用机器人” 的目标迈进——让一个模型,同时实现正向动力学(预测未来状态)、逆向动力学(从视频反推动作)、策略推理(输出动作)、视频生成四件事,彻底打破数据边界,让模型能从海量互联网纯视频中学习,实现多任务互促提升。
这一阶段的三篇文献,每一篇都让我眼前一亮,也让我看到了具身智能的未来:
《Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets》(华盛顿大学、丰田研究所等,2025)
这篇是统一化 WAM 的标杆,设计特别简洁却极具巧思:核心是让视频和动作的扩散时间步独立采样,不用复杂修改架构,通过简单的遮罩逻辑,一个模型就能灵活切换四种任务模式——想让它输出动作,就调策略推理模式;想让它预测未来,就调正向动力学模式
最厉害的是它的 “视频白嫖” 策略,能把没有动作标注的纯视频,当成 “隐藏动作” 来训练,彻底打破了对机器人数据的依赖。看完这篇,我才明白:原来模型可以这么 “聪明”,不用专门标注,就能从互联网视频里学懂世界的规律。
《DreamZero: World Action Models are Zero-shot Policies》(NVIDIA GEAR 实验室,2026)
这篇算是目前 WAM 的 “集大成者”,NVIDIA 的团队用 14B 参数的视频扩散模型,做了端到端的统一训练,核心是采用自回归架构保持原生帧率,解决了双向扩散的视频-动作对齐问题,零样本泛化能力是顶级 VLA 的 2 倍以上。最让我佩服的是它的跨本体迁移效率:只用 30 分钟的 “玩耍数据”,就能从一款机器人,适配到另一款全新的机器人,而且还能保留零样本泛化能力
更关键的是,它解决了统一化模型 “算力高、推理慢” 的痛点,通过异步执行、CFG 并行等六层优化栈,让 14B 模型在 2 块 GB200 上实现 7Hz 实时控制,真正具备了规模化落地的可能。
《Motus: A Unified Latent Action World Model》(清华 TSAIL 实验室,2025)
这篇是性能标杆,清华大学毕弘喆、谭恒楷等研究者领衔的作品,核心创新是 “用光流提取动作趋势”—— 通过 DPFlow 算法从 YouTube 烹饪视频、人类操作视频里,提取像素级的运动轨迹,再用卷积 VAE 压缩为本体无关的隐式动作,让模型能适配不同机器人
它的实验数据特别惊艳:在 50 个任务的训练中,任务越多,成功率越高,最终达到 87.0%,比 高出 45 个百分点;在真实机器人的咖啡研磨任务中,成功率更是达到 92%,而 只有 8%。这也证明了,统一化模型学到的,是通用的世界知识,而不是单一任务的动作,这才是通用机器人的核心。
这一阶段的 WAM,已经彻底打破了 VLA 的所有瓶颈,让机器人从 “基础操作” 走向 “灵巧操作”,也让我看到了 “互联网视频驱动通用机器人” 的可能——未来,或许不用再花大量成本采集机器人数据,只要有足够的互联网视频,机器人就能学会各种技能
灵巧手操作:微软ETH等提出一种超越传统视觉-语言-动作模型(VLA)的新型机器人控制范式VAM
论文 mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs 提出了一种超越传统视觉-语言-动作模型(VLA)的新型机器人控制范式——Video-Action Model(VAM)。该方法不再仅依赖静态视觉或语言语义,而是引入大规模预训练视频生成模型作为核心先验,直接利用视频中蕴含的时序动态与物理演化规律来指导机器人动作生成。通过将“视频层面的动态规划”与“动作层面的逆动力学映射”解耦,mimic-video 显著提升了样本效率与训练稳定性。在模拟与真实机器人实验中,该方法在仅需少量机器人数据的情况下,即可在复杂操作任务上取得优于 VLA 与扩散策略基线的表现。该工作表明,视频模型是连接感知与行动、推动通用具身智能的重要桥梁
https://www.pnprobotics.com/nd.jsp?id=356 https://mimic-video.github.io/ https://www.mimicrobotics.com/news
近年来,机器人操作领域涌现出大量基于视觉与语言的控制模型(Vision-Language-Action Models, VLAs),通过将视觉观察与语言指令融合输入机器人策略网络,实现端到端指令到动作的映射。VLA 这类模型通常依托于大规模静态视觉-语言预训练骨干(如联合训练的图像与文本模型),在零样本语义理解与多任务泛化方面表现出显著改进。然而,这类模型存在一个本质限制:静态的视觉-语言预训练并未捕捉 物理动态与因果关系 ,机器人策略仍需从零开始仅通过机器人轨迹数据隐式学习复杂的物理运动规律与时间依赖性。这造成了极高的动作数据需求,并且对动态推理能力有限。
论文提出 mimic-video ——一种全新的 Video-Action Model (VAM) 架构,它通过将机器人策略直接建立在大规模预训练的视频生成模型之上,利用视频对时序动态与物理变化的直观编码,将控制问题从从零学习物理动态转化为利用视频中固有的运动先验来“解读视觉计划再映射到动作”。这种范式显著提高数据效率与学习速度,并对复杂操作任务展现出更强泛化能力
https://dreamdojo-world.github.io/
https://zhuanlan.zhihu.com/p/2028537168910394485
在25年初我们就发现vla单纯靠语言引导实在太脆弱了,主要有两点原因,一是因为vlm在微调后原始的vl feature会受到一定程度的破坏,二是机器人训练数据中V跟L的比例本身就不是一个量级的,相比于vision数据,language提供的信息实在是太有限了。最终导致的结果是,对ood的测试任务,我们根本就不知道该怎么给出能让vla正常work的instruction。
那怎么解决这个问题呢,instruction没有ground truth但是vision有啊,用vision做引导不比language强n倍吗,我直接告诉vla该去哪儿执行什么样的操作不就完事儿了吗。goal-conditioned control本身并不是什么新概念,但关键在于怎么让它在具身场景下work。其中最关键的就是,怎样实现ood场景下的goal image生成。这需要world model能够有强泛化性。很好,别忘了现在是大航海时代(大模型时代),image&video生成的泛化性已经相当强悍了。除了image生成外,我们还希望world model能够准确理解指令,并且自动将指令切分为subtask。这就得提一下Emu3.5这个理解生成统一的模型了。借助这个模型,我们实现了根据high level指令交替生成subtask和goal image,比pi0.7单独构建high-level policy的方式更加简洁有效,相当于让world model同时实现planning和generation,这其实更符合world model这一概念。
在world model已经能够实现对ood场景生成高质量的subgoal之后,有意思的事情来了,原本脆弱不堪听不懂指令的vla,在加入视觉引导后,哪怕面对强视觉干扰也能轻松完成任务。更重要的是,vla现在根本不需要通过大量的数据实现物体和背景的泛化,它只需要在少量单一场景数据上学习好技能,就可以直接通过subgoal泛化到ood场景中。我们在论文里的实验结果是,用总共两个小时的对五个物体的pick-place数据,就可以成功泛化到新场景下的21种不同的物体上(当时只找到21个物体)实现69%的成功率,而同样数据训练的pi0只有14%