
视频模型正在从离线理解向在线行动转变。经典的视频理解通常假设模型可以访问整个视频片段。在这种假设下,模型可以使用全局时间上下文来执行分类、检测、分割、重建或字幕生成。这种设置对于离线分析是很自然的,因为事件已经发生:未来的帧可以帮助解决当前的歧义。
但这种假设在机器人技术、具身智能体、虚拟角色控制、实时视频智能体、交互式生成和 VLA (视觉-语言-动作) 系统中不再成立。在这些环境中,视频不是一个完成的数据对象。它是随着时间推移到达的观察流。在时间 t,模型只能访问 x_≤t,但它必须立即更新其对世界的理解,并产生可能影响接下来发生什么输出。
这就是因果视频模型变得重要的地方。因果视频模型不仅是带有因果注意力掩码的传统视频模型。它是用于在线系统的时间建模范式。它必须沿着时间箭头运行,在部分可观察性下维护内部状态,将新的观察整合到记忆中,并发出可以被控制、规划、语言推理或动作模块消耗的时间变量。
这种模型的输出不应狭隘地理解为轨迹。轨迹只是一个具体且容易衡量的形式。更普遍地说,因果视频模型为未来的决策生成中间表征:对象状态、主体状态、接触关系、任务进度、空间记忆、事件边界、交互意图、动作条件、策略潜在变量,或者语言模型可以推理的视觉-时间上下文。其核心价值在于将高维、连续、嘈杂的视频流转化为可更新、可查询和可执行的时间结构。
一个视频模型是否是因果的,不能仅仅通过检查网络中是否屏蔽了未来的 token 来确定。真正的因果关系是系统级属性。它涉及模型在部署期间如何接收输入,如何更新记忆,如何暴露输出,当前输出如何参与未来状态,以及训练和推理是否遵循相同的时间规则。
离线视频模型的行为类似于后验解释器。在观察到整个事件之后,它们可以对过去的帧产生更好的解释。如果一个主体消失在遮挡物后面并随后重新出现,离线模型可以使用后面的帧来推断遮挡期间发生了什么。如果一个动作只在结束时才能被识别,模型可以使用结尾来分类开头。如果多个目标路径交叉,未来的帧可以帮助恢复身份分配。
这些能力对于离线分析很有用,但它们与实时系统的接口不匹配。实时系统不能等待未来的帧才产生控制信号。在后来证据到达后,它也不能修改已经发出的动作。
因果视频模型更接近于在线状态估计器。在每一步,它接收新的视觉观察并基于历史记忆产生输出。该输出不是孤立的。它可以被下游策略读取,反馈到下一步的预测中,或者转化为改变环境从而改变未来观察的动作。因此,因果视频模型必须关心长视界稳定性、误差累积、状态漂移和恢复,而不仅仅是帧级或短片段级的准确性。
这就是为什么因果关系必须超越注意力掩码。即使一个模型避免了对未来帧的关注,如果它的训练使用了全序列统计、未来对齐的监督、非部署的历史输入,或者状态展开过程与推理不同,它仍然不能成为真正的因果模型。必须在数据协议、训练调度、状态缓存、输出反馈和推理接口中强制执行因果关系。
传统视频模型通常被设计为序列编码器。它们接收一个帧特征窗口,融合时间上下文,并输出上下文化的表征。核心问题是如何在固定的片段内聚合信息。
因果视频模型更应该被理解为时间状态机。它们的核心问题不是如何一次性编码完整的序列,而是当新帧到达时如何更新内部信念。
这种信念是关于当前世界的一个压缩假设。它可能包括相关对象在哪里、主体是谁、任务处于哪个阶段、哪些对象已经被操作过、以前的动作引起了什么变化、当前的不确定性是否来自遮挡,以及哪些信息对未来的决策仍然相关。一个新帧不会取代这种信念。它会修改它、强化它或触发状态转换。
这改变了视频模型的能力边界。模型必须在遮挡、模糊、相机运动和暂时消失期间保持连续性。当潜在世界状态真正改变时,它还必须快速更新,而不是过度信任历史惯性。它需要记忆,但也需要遗忘。它需要稳定性,但也需要受控的状态转换。它必须压缩历史,但不能丢弃与任务相关的长期信息。
从这个意义上说,因果视频模型是在时间中运行的动态系统。它不仅“理解视频”。它维护着世界的可执行表征。这对于 VLA 尤为重要。一个 VLA 系统不仅需要知道当前图像中可见的内容;它还需要知道当前的世界状态是如何从过去的观察和动作中产生的。没有因果时间状态,视觉、语言和动作之间的联系往往会退化为静态映射。
在 VLA 系统中,视觉表征最终服务于动作。这里的动作不一定指低级运动控制。它也可以指高级决策、任务规划、交互选择或语言介导的推理。关键要求是视觉表征必须稳定,并能随着时间推移被动作系统读取。
因此,因果视频模型不仅应输出语义标签,也不应仅输出几何轨迹。它应该生成动作上下文。这个上下文必须包括视觉事实、时间关系、客体永久性、任务相关性和可操作性。它应该告诉下游模块不仅“可见的是什么”,而且“它从哪里来”、“为什么它对任务很重要”、“它是否仍然是同一个对象”、“最后的动作是否改变了它”,以及“接下来应该关注哪些变量”。
这与经典的视觉理解根本不同。传统模型强调识别和描述。因果视频模型强调维护和更新。传统模型产生对视频的解释。因果视频模型产生可以继续运行的上下文。
在这个意义上,因果视频模型是 VLA 的时间基础设施。视觉模型将帧编码为 token。语言模型表达目标和语义约束。动作模型产生决策或控制。因果视频模块将这些信号放在共享的时间线上。它确定哪些上下文仍然有效,哪些观察已经过时,哪些对象必须保持绑定,以及在行动之后哪些状态发生了改变。
在真实视频中,起作用的实体通常没有明确给出。在多人场景中,主体可能没有通过输入框指定。在机器人操作中,目标对象可能被遮挡或暂时不在视野内。在长视界任务中,当前可见的对象可能只与最终目标间接相关。传统的流水线通常将其分解为检测、实例分割、跟踪和状态估计。但这种分解很难避免误差传播。
因果视频模型提供了一个更统一的视角。主体、对象和任务焦点都可以被视为受历史观察、当前输入、语言条件和监督约束的潜在变量。模型不是在每一帧都从头开始独立选择一个焦点对象。它随着时间的推移维护一个持久的假设。当前帧提供证据,历史状态提供连续性,任务调节提供选择标准,而输出反馈塑造未来状态。
这对于 VLA 至关重要。语言指令可能只出现在任务的开始,但它指定对象、关系或目标必须在随后的整个视觉流中保持活跃。模型需要记住它正在操作哪个对象,并理解该对象在行动之后是如何改变的。这些变量不能可靠地从单张图像中恢复。它们需要因果视频状态。
因此,因果视频模型中的记忆不仅仅是过去帧的缓存。它是一种受任务条件约束的绑定机制。它必须在视觉证据改变时保持对象身份,在对象消失时保留可恢复状态,在对象重新出现时重新绑定对象,并在任务进度变化时更新任务焦点。这种跨时间潜在变量维护是从静态视觉-语言理解走向连续行动的关键要求之一。
因果视频模型在部分可观察性下运行。当前帧可能包含不相关的纹理、背景运动、光照变化、相机运动和遮挡噪声。直接从原始像素学习长视界状态更新迫使模型同时解决视觉抽象、对象绑定、时间推理和动作预测。这是一个困难的学习问题。
因此,结构化视觉 token 很重要。不同的任务可能使用不同的中间结构。以人为中心的任务可能使用姿态或身体 token。操作任务可能使用对象、接触、深度、手、工具或可供性 (affordance) token。导航任务可能使用空间记忆或拓扑 token。交互任务可能使用主-客体-动作关系 token。重点不在于具体的 token 类型,而在于原始视觉被压缩成了更适合状态更新的观察变量。
这些结构化 token 并非是对僵化经典流水线的回归。它们不一定是最终输出,也不需要对每一个中间预测进行完美的监督。它们充当归纳偏置。它们使因果模型更容易将视觉证据写入时间状态。一个强大的视觉编码器产生丰富的观察。一个因果时间模块维护动态信念。一个动作模块读取该信念以做出决定或生成控制。
在架构上,这表明未来的视频-动作系统可能不再是一个消耗所有帧并直接发出最终动作的单一庞大模型。一个更自然的结构是分层的:底层视觉编码器产生高质量感知 token;中层因果视频模块维护时间状态;高层语言和策略模块读取该状态以产生决策。因果视频模型位于中间,将“所见”转换为“随着时间推移可执行的操作”。
因果视频模型自然地在闭环中运行。当前输出影响未来状态,而未来状态影响以后的输出。如果模型连接到一个动作系统,这个循环会变得更强:由模型输出生成的动作改变了环境,而改变后的环境成为下一个视觉输入。模型不再仅仅是观察世界;它参与了对未来观察的塑造。
这使得训练-推理的一致性变得至关重要。如果训练总是使用干净的历史状态,但推理依赖于模型自己生成的历史,模型将面临分布偏移。早期的微小错误会将状态移入训练期间很少见到的区域,最终导致主体漂移、对象绑定失败、动作振荡或任务崩溃。
因此,因果视频模型不能仅仅优化单步预测。它必须为展开 (rollout) 而设计。它必须关心长视界状态稳定性、误差恢复和闭环鲁棒性。对于 VLA,这一点更为重要,因为策略执行会改变输入分布。一个可部署的 VLA 系统必须能够在它创造的环境状态中感知、纠正和行动,而不仅仅是沿着理想轨迹。
这也意味着评估必须超越单帧损失。一个模型在单步预测时可能看起来很准确,但在数百或数千帧展开时可能会失败。重要的问题是它是否能随着时间的推移保持对象绑定、任务焦点和状态一致性;它是否能从遮挡、噪声或错误的中间行动中恢复;以及当环境因行动而改变时,它是否能更新其信念。
因果视频模型对时间协议高度敏感。帧率、时间戳可靠性、采样间隔、缓存长度、块边界、状态重置、动作频率、标签插值和传感器延迟,所有这些都会影响模型是否能学习到稳定的动态。对于离线识别,这些细节有时可能看起来像工程问题。对于因果状态建模,它们是模型能力的一部分。
当模型学习连续状态或动作变量时,每个时间步长都必须有一致的语义。如果视频是可变帧率的,或者如果标签时间戳不能可靠地映射到帧,学到的动态就会被系统噪声破坏。在自回归模型中,这种时间错位可以通过状态传播,并变成长视界错误。
在 VLA 中,时间协议甚至更复杂。语言目标是低频的。视觉观察是中频的。电机动作可能是高频的。本体感受和环境反馈会引入自身的延迟。未来的 VLA 系统需要一个统一的因果时间框架,该框架将不同的模态、频率和延迟组织成可执行状态。因果视频模型完全有能力作为该框架的视觉-时间核心。
这个时间核心不仅仅是一个历史缓冲区。它必须将多模态信号对齐成一个可更新的动态状态。语言目标定义长期约束。视频流提供外部观察。动作历史解释环境变化。本体感受提供执行反馈。因果视频模型必须将这些信号组织成一个可以被规划和控制层不断读取和更新的上下文。
主体运动 6DoF 提供了一个精简的例子,说明如何在一个工程系统中实例化这些想法。它从流式视频中预测目标主体的刚体 6DoF 运动,使用六个归一化通道:x、y、z、roll (横滚)、pitch (俯仰) 和 yaw (偏航)。选择 6DoF 并不旨在捕捉所有人类细节。它提供了一个低维度的、连续的动作变量,可以被下游系统消耗。
该示例反映了因果视频建模的几个关键属性。它的输入是因果的:在帧 t 的预测仅使用帧 t 及其之前的帧。主体可以是隐式的:训练标签定义了应预测哪个主体的运动,即使帧中出现多人,也无需显式的分割掩码或人物 ID 轨迹。人类姿势特征充当结构化视觉先验,帮助模型形成更接近主体运动的观察。输出仍然是一个紧凑的刚体抽象,而不是完整的网格、骨架或每关节重建。
更重要的是,模型不是在进行独立的逐帧回归。在流式训练和生成期间,它携带视觉历史和动作状态。视觉缓存支持随时间推移的主体一致性,而自回归动作状态支持输出连续性。在监督方面,标签表示为随时间推移的稀疏动作点,并插值为密集的帧级目标。在视频方面,需要可靠的恒定帧率,以便时间标签与视觉帧一致对齐。
开源实现可在这里获取:CausalLM/subject-motion-6dof。该示例展示了一个更广泛的模式:从流式视觉中提取结构化观察,在因果时间中维持状态,并生成可用于行动的连续变量。
如果主体运动 6DoF 中的 6DoF 输出被更一般的面向动作的变量取代,相同的范式依然成立。输出可能是末端执行器条件、对象状态、接触预测、任务阶段、可操作区域、短视界动作潜变量,或者是语言规划器可以读取的视觉-时间记忆。关键不在于具体的输出格式。关键在于模型能够因果地随时间维持世界状态,并将其转换为行动系统可用的上下文。
这是 VLA 的中心方向。一个可部署的 VLA 系统不应仅仅在一个大模型内部拼接图像、语言和动作。它需要一个持续运行的时间核心。它必须在理解语言目标的同时维持视觉状态。它必须在理解行动后果的同时生成行动。它必须在闭环中保持稳定的同时实现语义泛化。它必须在处理长视界任务的同时从局部失败中恢复。
未来的 VLA 架构很可能是分层的,而不是依赖一个模型来端到端处理所有时间细节。高层处理语言目标、任务分解和长视界语义推理。中层维护因果视频状态、对象绑定、动作上下文和短视界预测。底层处理高频控制、安全约束和动力学。因果视频模型属于中层。它将看见的内容转化为可执行的时间表征。
在这个框架中,视频模型不仅仅是 VLA 的感知前端。它是行动循环内部的状态维护者。它接收高维视觉输入,吸收过去行动的后果,随时间保持对象和任务的一致性,并为策略提供稳定的上下文。没有这个时间核心,VLA 面临着沦为附加了动作头的静态视觉-语言模型的风险。有了它,VLA 可以成为连续感知、行动和纠正的闭环系统。
因果视频模型代表了从离线解释到在线行动的转变。它们将视频视为观察流,将模型视为状态更新系统,将输出视为可由控制、规划、语言推理或动作策略消耗的时间变量。它们的主要关注点不仅是视觉识别,还包括训练-推理一致性、时间协议、状态稳定性、主体和对象绑定、自回归反馈以及长视界恢复。
对于 VLA,因果视频模型是连接视觉和行动的中间层。它们允许系统不仅仅理解当前帧,而是随着时间的推移维护一个可操作的世界表征。主体运动 6DoF 通过一个紧凑的主体运动任务展示了这一理念:因果输入、结构化视觉先验、隐式主体建模和自回归状态更新,将流式视频变成了一个连续的动作变量。当此类变量从主体运动扩展到对象状态、任务进度、交互关系和策略潜变量时,因果视频模型将成为下一代 VLA 系统的时间基础设施。