因果的ビデオモデル：ストリーミング視覚理解からVLAの時空間インフラへ

詳細

選択

カテゴリー： Research

日付： 2026年5月27日

著者： CausalLM

この記事は機械翻訳されました。原文を見る (English)

ビデオモデルは、オフラインの理解からオンラインのアクションへと移行しつつあります。従来のビデオ理解では、モデルがビデオクリップ全体にアクセスできることを前提としています。この前提のもとでは、モデルはグローバルな時間的文脈を使用して、分類、検出、セグメンテーション、再構成、またはキャプション生成を行うことができます。この設定は、イベントがすでに発生しているため、オフライン分析には自然なことです。未来のフレームは、現在の曖昧さを解決するのに役立ちます。

しかし、この前提は、ロボティクス、身体性エージェント、仮想キャラクター制御、リアルタイムビデオエージェント、インタラクティブ生成、および VLA (Vision-Language-Action) システムでは破綻します。これらの設定では、ビデオは完成したデータオブジェクトではありません。時間の経過とともに到着する観察のストリームです。時間 t において、モデルは x_≤t にしかアクセスできませんが、世界に対する理解を即座に更新し、次に何が起こるかに影響を与える可能性のある出力を生成する必要があります。

ここで因果的ビデオモデルが重要になります。因果的ビデオモデルは、単に因果的アテンションマスクを備えた従来のビデオモデルではありません。それはオンラインシステムのための時空間モデリングパラダイムです。それは時間の矢に沿って実行され、部分的な観測可能性の下で内部状態を維持し、新しい観察を記憶に統合し、制御、計画、言語推論、またはアクションモジュールによって消費され得る時間的変数を出力しなければなりません。

そのようなモデルの出力は、軌跡として狭義に理解されるべきではありません。軌跡は、具体的で簡単に測定可能な形の一つにすぎません。より一般的には、因果的ビデオモデルは、将来の意思決定のための無数の中間表現（オブジェクト状態、主体状態、接触関係、タスクの進捗、空間記憶、イベント境界、相互作用の意図、アクション条件、ポリシーの潜在変数、または言語モデルが推論できる視覚的時間的文脈など）を生成します。その核心的な価値は、高次元で連続的でノイズの多いビデオストリームを、更新可能で照会可能、かつ実用的な時間的構造に変換することにあります。

因果関係はシステムセマンティクスであり、単なるアーキテクチャの選択ではない

ビデオモデルが因果的であるかどうかは、ネットワークで未来のトークンがマスクされているかどうかを確認するだけでは判断できません。真の因果関係はシステムレベルの特性です。それは、デプロイ中にモデルがどのように入力を受け取るか、記憶をどのように更新するか、出力をどのように公開するか、現在の出力が将来の状態にどのように関与するか、そしてトレーニングと推論が同じ時間的ルールに従うかどうかに関係しています。

オフラインビデオモデルは、事後解釈器のように動作します。イベント全体を観察した後、過去のフレームのより良い説明を生成できます。被写体が遮蔽物の後ろに消え、後で再び現れた場合、オフラインモデルは後のフレームを使用して遮蔽中に何が起こったかを推測できます。アクションが最後にのみ認識可能になる場合、モデルは終わりを使用して始まりを分類できます。複数のターゲットが交差する場合、未来のフレームはアイデンティティの割り当てを回復するのに役立ちます。

これらの機能はオフライン分析には有用ですが、リアルタイムシステムのインターフェースとは一致しません。リアルタイムシステムは、制御信号を生成する前に未来のフレームを待つことはできません。また、後の証拠が到着した後に、すでに発行されたアクションを修正することもできません。

因果的ビデオモデルは、オンライン状態推定器に近いものです。各ステップで、新しい視覚的観察を受け取り、過去の記憶に基づいて出力を生成します。その出力は孤立していません。下流のポリシーによって読み取られたり、次の予測ステップにフィードバックされたり、環境を変更して未来の観察を変更するアクションに変換されたりする可能性があります。このため、因果的ビデオモデルは、フレームレベルや短いクリップの正確さだけでなく、長期間の安定性、エラーの蓄積、状態のドリフト、および回復を気にかける必要があります。

これが、因果関係がアテンションマスキングを超えて拡張されなければならない理由です。モデルが未来フレームのアテンションを回避したとしても、トレーニングで全シーケンスの統計、未来に整合した教師データ、デプロイ時とは異なる過去の入力、または推論とは異なる状態のロールアウト手順が使用される場合、真に因果的になることはできません。因果関係は、データプロトコル、トレーニングスケジュール、状態キャッシュ、出力フィードバック、および推論インターフェース全体で強制される必要があります。

ビデオエンコーダから時間的状態マシンへ

従来のビデオモデルは、多くの場合、シーケンスエンコーダとして設計されています。それらはフレーム特徴のウィンドウを取得し、時間的文脈を融合し、文脈化された表現を出力します。中心的な問題は、固定されたクリップ内で情報をどのように集約するかです。

因果的ビデオモデルは、時間的状態マシンとして理解する方が適切です。それらの中心的な問題は、完全なシーケンスを一度にどのようにエンコードするかではなく、新しいフレームが到着したときに内部の信念をどのように更新するかです。

この信念は、現在の世界に関する圧縮された仮説です。それには、関連するオブジェクトがどこにあるか、主体は誰か、タスクはどの段階にあるか、どのオブジェクトがすでに操作されているか、前のアクションによってどのような変化が引き起こされたか、現在の不確実性が遮蔽によるものかどうか、そして将来の決定にどの情報がまだ関連しているかが含まれる場合があります。新しいフレームは、この信念を置き換えるものではありません。それを変更したり、強化したり、状態遷移を引き起こしたりします。

これにより、ビデオモデルの能力の境界が変わります。モデルは、遮蔽、ぼやけ、カメラの動き、一時的な消失を通じて連続性を維持しなければなりません。また、基礎となる世界の状態が純粋に変化した場合は、過去の慣性に過度に依存するのではなく、迅速に更新する必要があります。記憶が必要ですが、忘却も必要です。安定性が必要ですが、制御された状態遷移も必要です。履歴を圧縮する必要がありますが、タスクに関連する長期的な情報を破棄することはできません。

この意味で、因果的ビデオモデルは時間内で実行される動的システムです。単に「ビデオを理解する」だけではありません。それは世界の実用的な表現を維持します。これは VLA にとって特に重要です。VLA システムは、現在の画像に何が見えるかを知る必要があるだけでなく、現在の世界の状態が過去の観察とアクションからどのように現れたかを知る必要があります。因果的な時間的状態がなければ、視覚、言語、およびアクションの間の接続は静的なマッピングに崩壊する傾向があります。

因果的ビデオモデルはアクションコンテキストを生成する

VLA システムでは、視覚的表現は最終的にアクションに役立ちます。ここでのアクションは、低レベルのモーター制御を意味する必要はありません。高度な意思決定、タスク計画、インタラクションの選択、または言語を介した推論を意味する場合もあります。重要な要件は、視覚的表現が安定しており、時間の経過とともにアクションシステムによって読み取り可能でなければならないということです。

このため、因果的ビデオモデルはセマンティックラベルのみを出力するべきではなく、幾何学的軌跡のみを出力するべきでもありません。アクションコンテキストを生成する必要があります。このコンテキストには、視覚的事実、時間的関係、対象物の永続性、タスクの関連性、および操作性が含まれている必要があります。下流のモジュールに対して、「何が見えるか」だけでなく、「それはどこから来たのか」、「なぜそれがタスクにとって重要なのか」、「それはまだ同じオブジェクトなのか」、「最後のアクションがそれを変更したのか」、そして「次にどの変数に注目すべきか」を伝える必要があります。

これは、古典的な視覚的理解とは根本的に異なります。従来のモデルは認識と記述を強調しています。因果的ビデオモデルは維持と更新を強調しています。従来のモデルはビデオの解釈を生成します。因果的ビデオモデルは、実行を継続できるコンテキストを生成します。

この意味で、因果的ビデオモデルは VLA の時空間インフラストラクチャです。視覚モデルはフレームをトークンにエンコードします。言語モデルは目標と意味的制約を表現します。アクションモデルは決定または制御を生成します。因果的ビデオモジュールは、これらの信号を共有タイムラインに配置します。どのコンテキストがまだ有効か、どの観察が古いか、どのオブジェクトをバインドし続ける必要があるか、およびアクションの後にどの状態が変化したかを決定します。

主体、オブジェクト、およびタスクの焦点は潜在変数である

実際のビデオでは、重要なエンティティは明示的に与えられないことがよくあります。複数人がいるシーンでは、主体は入力ボックスで指定されない場合があります。ロボットの操作では、ターゲットオブジェクトが遮蔽されたり、一時的に見えなくなったりする場合があります。長期間のタスクでは、現在見えているオブジェクトは、最終的な目標に間接的にしか関連していない場合があります。従来のパイプラインでは、これを検出、インスタンスセグメンテーション、トラッキング、状態推定に分解することがよくあります。しかし、そのような分解では、エラーの伝播を回避することが困難になります。

因果的ビデオモデルは、より統一された視点を提供します。主体、オブジェクト、タスクの焦点はすべて、過去の観察、現在の入力、言語条件、および教師データによって制約される潜在変数として扱うことができます。モデルは、各フレームで最初から独立して焦点オブジェクトを選択しているわけではありません。時間の経過とともに永続的な仮説を維持します。現在のフレームは証拠を提供し、履歴状態は連続性を提供し、タスクの条件付けは選択基準を提供し、出力フィードバックは将来の状態を形成します。

これは VLA にとって不可欠です。言語指示はタスクの開始時にのみ表示される場合がありますが、それが指定するオブジェクト、関係、または目標は、その後の視覚ストリーム全体でアクティブなままでなければなりません。モデルは、どのオブジェクトを操作しているかを記憶し、アクション後にそのオブジェクトがどのように変化したかを理解する必要があります。このような変数は、単一の画像から確実に復元することはできません。それらには因果的ビデオ状態が必要です。

したがって、因果的ビデオモデルの記憶は、過去のフレームの単なるキャッシュではありません。それはタスク条件付きのバインディングメカニズムです。視覚的証拠が変化してもオブジェクトのアイデンティティを保持し、オブジェクトが消えたときに回復可能な状態を保持し、オブジェクトが再び現れたときに再バインドし、タスクの進行状況が変化したときにタスクの焦点を更新する必要があります。この時間経過に伴う潜在変数の維持は、静的な視覚と言語の理解から継続的なアクションに移行するための重要な要件の1つです。

構造化された視覚的トークンが適切な帰納的バイアスを提供する

因果的ビデオモデルは、部分的な観測可能性の下で動作します。現在のフレームには、無関係なテクスチャ、背景の動き、照明の変化、カメラの動き、遮蔽ノイズが含まれている場合があります。生のピクセルから直接長期的な状態の更新を学習すると、モデルは視覚的抽象化、オブジェクトのバインディング、時間的推論、アクションの予測を同時に解決することを余儀なくされます。それは困難な学習問題です。

したがって、構造化された視覚的トークンが重要です。タスクが異なれば、異なる中間構造を使用する場合があります。人間中心のタスクでは、ポーズやボディのトークンを使用する場合があります。操作タスクでは、オブジェクト、接触、深度、手、ツール、またはアフォーダンストークンを使用する場合があります。ナビゲーションタスクでは、空間記憶またはトポロジートークンを使用する場合があります。インタラクションタスクでは、主体-客体-アクションの関係トークンを使用する場合があります。重要な点は、特定のトークンの種類ではなく、生の視覚が状態の更新に適した観察変数に圧縮されるという事実です。

これらの構造化されたトークンは、硬直した古典的なパイプラインへの回帰ではありません。それらは最終的な出力である必要はなく、すべての中間予測が完全に監視される必要もありません。それらは帰納的バイアスとして機能します。因果モデルが視覚的証拠を時間的状態に書き込むことを容易にします。強力な視覚エンコーダは、豊富な観察結果を生成します。因果的時間モジュールは動的な信念を維持します。アクションモジュールは、意思決定や制御の生成のためにその信念を読み取ります。

アーキテクチャ的に、これは将来のビデオアクションシステムが、すべてのフレームを消費して最終的なアクションを直接出力する単一のモノリシックモデルではない可能性を示唆しています。より自然な構造は階層化されています。低レベルの視覚エンコーダは高品質の知覚トークンを生成し、中レベルの因果的ビデオモジュールは時間的状態を維持し、高レベルの言語およびポリシーモジュールはその状態を読み取って意思決定を行います。因果的ビデオモデルは中間に位置し、「見えているもの」を「時間の経過とともに実用的なもの」に変換します。

自己回帰的な閉ループが長期的な安定性を決定する

因果的ビデオモデルは、自然に閉ループで動作します。現在の出力は未来の状態に影響を与え、未来の状態はその後の出力に影響を与えます。モデルがアクションシステムに接続されている場合、ループはより強くなります。モデルの出力から生成されたアクションは環境を変更し、変更された環境は次の視覚入力になります。モデルはもはや単に世界を観察しているだけではありません。将来の観察の形成に参加しています。

このため、トレーニングと推論の一貫性が重要になります。トレーニングでは常にクリーンな履歴状態が使用されるが、推論ではモデル自身が生成した履歴に依存する場合、モデルは分布のシフトに直面します。初期の小さな間違いは、トレーニング中にはめったに見られない領域に状態を移動させ、最終的に主体のドリフト、オブジェクトバインディングの失敗、アクションの振動、またはタスクの崩壊を引き起こす可能性があります。

したがって、因果的ビデオモデルは1ステップの予測のみを最適化することはできません。ロールアウト用に設計する必要があります。長期的な状態の安定性、エラーの回復、閉ループの堅牢性を気にかける必要があります。VLA の場合、ポリシーの実行により入力の分布が変わるため、これはさらに重要になります。デプロイ可能な VLA システムは、理想的な軌跡に沿うだけでなく、システムが作成した環境状態を認識し、修正し、行動できなければなりません。

これは、評価がフレームごとの損失を超えて進む必要があることも意味します。モデルは1ステップの予測では正確に見えるかもしれませんが、数百または数千のフレームにわたってロールアウトすると失敗する可能性があります。重要な問題は、オブジェクトのバインディング、タスクの焦点、状態の一貫性を長期にわたって維持できるかどうか、遮蔽、ノイズ、または不正確な中間アクションから回復できるかどうか、アクションによって環境が変化したときにその信念を更新できるかどうかです。

タイムプロトコルはモデルの一部である

因果的ビデオモデルは、タイムプロトコルに対して非常に敏感です。フレームレート、タイムスタンプの信頼性、サンプリング間隔、キャッシュ長、チャンク境界、状態リセット、アクション周波数、ラベル補間、センサーのレイテンシはすべて、モデルが安定したダイナミクスを学習するかどうかに影響します。オフライン認識の場合、これらの詳細はエンジニアリングの懸念のように見えることがあります。因果的状態モデリングの場合、これらはモデルの能力の一部です。

モデルが連続した状態またはアクションの変数を学習する場合、すべてのタイムステップで一貫したセマンティクスが必要です。ビデオのフレームレートが可変である場合、またはラベルのタイムスタンプをフレームに確実にマッピングできない場合、学習されたダイナミクスは系統的なノイズによって破損します。自己回帰モデルでは、この時間的なずれが状態を通じて伝播し、長期的なエラーになる可能性があります。

VLA では、タイムプロトコルはさらに複雑になります。言語の目標は低頻度です。視覚的観察は中頻度です。モーターアクションは高頻度になる場合があります。自己受容感覚と環境フィードバックは、独自の遅延をもたらします。将来の VLA システムには、さまざまなモダリティ、頻度、遅延を実用的な状態に整理する統一された因果的時間フレームワークが必要です。因果的ビデオモデルは、そのフレームワークの視覚的・時間的コアとして機能するのに適した位置にあります。

この時間적コアは単なる履歴バッファではありません。マルチモーダル信号を更新可能な動的状態に合わせる必要があります。言語の目標は長期的な制約を定義します。ビデオストリームは外部の観察を提供します。アクションの履歴は環境の変化を説明します。自己受容感覚は実行のフィードバックを提供します。因果的ビデオモデルは、これらの信号を、計画と制御レイヤーが継続的に読み取って更新できるコンテキストに整理する必要があります。

具体例：Subject Motion 6DoF

Subject Motion 6DoF

Subject Motion 6DoF は、これらのアイデアをエンジニアリングシステムでどのようにインスタンス化できるかを示すコンパクトな例を提供します。ストリーミングビデオから、ターゲット被写体の剛体 6DoF モーションを、x、y、z、roll、pitch、yaw の6つの正規化されたチャネルを使用して予測します。6DoF の選択は、人間のすべての詳細をキャプチャすることを意図したものではありません。下流のシステムで消費できる、低次元で連続的なアクション変数を提供します。

この例は、因果的ビデオモデリングのいくつかの重要な特性を反映しています。その入力は因果的です。フレーム t での予測は、フレーム t 以前のフレームのみを使用します。被写体は暗黙的である可能性があります。トレーニングラベルは、フレームに複数の人が写っている場合でも、明示的なセグメンテーションマスクや人物IDトラックを必要とせずに、どの被写体の動きを予測すべきかを定義します。人間のポーズ特徴は構造化された視覚的プライアとして機能し、モデルが被写体の動きに近い観察を形成するのを助けます。出力は、フルメッシュ、スケルトン、またはジョイントごとの再構築ではなく、コンパクトな剛体抽象化のままです。

さらに重要なことに、モデルは独立したフレームごとの回帰を行っていません。ストリーミングのトレーニングと生成の間、視覚的履歴とアクション状態を保持します。視覚的キャッシュは時間の経過に伴う被写体の一貫性をサポートし、自己回帰アクション状態は出力の連続性をサポートします。教師データの側では、ラベルは時間経過に伴うまばらなアクションポイントとして表され、密なフレームレベルのターゲットに補間されます。ビデオの側では、時間ラベルが視覚フレームと一貫して一致するように、信頼性の高い一定のフレームレートが必要です。

オープンソースの実装はこちらから入手できます: CausalLM/subject-motion-6dof。この例は、ストリーミングビジョンから構造化された観察を抽出し、因果的時間で状態を維持し、アクションに役立つ連続変数を生成するという、より広範なパターンを示しています。

被写体の動きから VLA 時空間インフラストラクチャへ

Subject Motion 6DoF の 6DoF 出力が、より一般的なアクション指向の変数に置き換えられた場合でも、同じパラダイムが成り立ちます。出力は、エンドエフェクタの条件、オブジェクトの状態、接触予測、タスクフェーズ、操作可能領域、短期間のアクション潜在変数、または言語プランナーが読み取ることができる視覚的・時間的記憶である可能性があります。鍵となるのは、特定の出力形式ではありません。鍵となるのは、モデルが時間の経過とともに世界の状態を因果的に維持し、それをアクションシステムで使用できるコンテキストに変換することです。

これが VLA の中心的な方向性です。デプロイ可能な VLA システムは、大きなモデルの内部で画像、言語、アクションを単に連結するべきではありません。継続的に実行される時間的コアが必要です。視覚的状態を維持しながら、言語の目標を理解しなければなりません。アクションの結果を理解しながら、アクションを生成しなければなりません。閉ループで安定性を維持しながら、意味的に一般化しなければなりません。長期間のタスクを処理しながら、局所的な失敗から回復できなければなりません。

将来の VLA アーキテクチャは、1つのモデルですべての時間的詳細をエンドツーエンドで処理するのではなく、階層化される可能性が高いです。高レベル層は、言語の目標、タスクの分解、長期間の意味推論を処理します。中レベル層は、因果的ビデオ状態、オブジェクトバインディング、アクションコンテキスト、短期間の予測を維持します。低レベル層は、高頻度の制御、安全性の制約、ダイナミクスを処理します。因果的ビデオモデルは中間に属します。それは、見ることを実用的な時間的表現に変換します。

このフレームワークでは、ビデオモデルは単なる VLA の認識フロントエンドではありません。アクションループ内部の状態維持者です。高次元の視覚入力を受け取り、過去のアクションの結果を吸収し、時間の経過とともにオブジェクトとタスクの一貫性を維持し、ポリシーに安定したコンテキストを提供します。この時間的コアがなければ、VLA はアクションヘッドが接続された静的な視覚言語モデルになるリスクがあります。それがあれば、VLA は連続的な知覚、アクション、修正の閉ループシステムになることができます。

結論

因果的ビデオモデルは、オフラインの解釈からオンラインのアクションへの移行を表しています。それらはビデオを観察のストリームとして、モデルを状態更新システムとして、出力を制御、計画、言語推論、またはアクションポリシーによって消費できる時間的変数として扱います。それらの主な関心事は、視覚認識だけでなく、トレーニングと推論の一貫性、タイムプロトコル、状態の安定性、主体と客体のバインディング、自己回帰フィードバック、長期的な回復でもあります。

VLA にとって、因果的ビデオモデルは視覚とアクションを接続する中間層です。これにより、システムは現在のフレームを理解するだけでなく、実用的な世界の表現を時間の経過とともに維持できるようになります。Subject Motion 6DoF は、コンパクトな被写体動作タスクを通じてこのアイデアを示しています。因果的入力、構造化された視覚的プライア、暗黙的な被写体モデリング、および自己回帰的な状態の更新により、ストリーミングビデオが連続的なアクション変数に変わります。このような変数が被写体の動きからオブジェクトの状態、タスクの進行状況、相互作用の関係、ポリシーの潜在変数に拡張されると、因果的ビデオモデルは次世代の VLA システムの時空間インフラストラクチャになります。

GitHubでこのパラダイムのデモ実装を見る →