Kausale Videomodelle: Von der visuellen Streaming-Verständnis zur zeitlichen Infrastruktur für VLA

Mehr

Auswählen

Kausale Videomodelle: Von der visuellen Streaming-Verständnis zur zeitlichen Infrastruktur für VLA

Kategorie: Research

Datum: 27. Mai 2026

Autor: CausalLM

Dieser Artikel wurde maschinell übersetzt.Original anzeigen (English)

Videomodelle bewegen sich vom Offline-Verständnis hin zur Online-Aktion. Klassisches Videoverständnis geht in der Regel davon aus, dass das Modell auf einen gesamten Videoclip zugreifen kann. Unter dieser Annahme kann das Modell globalen zeitlichen Kontext verwenden, um Klassifizierung, Erkennung, Segmentierung, Rekonstruktion oder Beschriftung durchzuführen. Diese Einstellung ist für die Offline-Analyse natürlich, da das Ereignis bereits stattgefunden hat: Zukünftige Frames können helfen, Unklarheiten in der Gegenwart aufzulösen.

Aber diese Annahme bricht in der Robotik, bei verkörperten Agenten, bei der Steuerung virtueller Charaktere, bei Echtzeit-Videoagenten, bei der interaktiven Generierung und bei VLA-Systemen (Vision-Language-Action) zusammen. In diesen Umgebungen ist Video kein fertiges Datenobjekt. Es ist ein Strom von Beobachtungen, der über die Zeit ankommt. Zum Zeitpunkt t hat das Modell nur Zugriff auf x_≤t, muss aber sein Verständnis der Welt sofort aktualisieren und Ausgaben erzeugen, die beeinflussen können, was als Nächstes passiert.

Hier werden kausale Videomodelle wichtig. Ein kausales Videomodell ist nicht einfach ein herkömmliches Videomodell mit einer kausalen Aufmerksamkeitsmaske. Es ist ein zeitliches Modellierungsparadigma für Online-Systeme. Es muss entlang des Zeitpfeils laufen, einen internen Zustand unter teilweiser Beobachtbarkeit aufrechterhalten, neue Beobachtungen ins Gedächtnis integrieren und zeitliche Variablen ausgeben, die von Steuerungs-, Planungs-, Sprachschlussfolgerungs- oder Aktionsmodulen verbraucht werden können.

Die Ausgabe eines solchen Modells sollte nicht eng als Trajektorie verstanden werden. Eine Trajektorie ist nur eine konkrete und leicht messbare Form. Allgemeiner ausgedrückt erzeugt ein kausales Videomodell Zwischendarstellungen für zukünftige Entscheidungsfindungen: Objektstatus, Subjektstatus, Kontaktbeziehung, Aufgabenfortschritt, räumliches Gedächtnis, Ereignisgrenze, Interaktionsabsicht, Aktionsbedingung, Policy-Latente oder einen visuell-zeitlichen Kontext, über den ein Sprachmodell schlussfolgern kann. Sein Kernwert besteht darin, hochdimensionale, kontinuierliche, verrauschte Videostreams in zeitliche Strukturen umzuwandeln, die aktualisierbar, abfragbar und umsetzbar sind.

Kausalität ist eine Systemsemantik, nicht nur eine Architekturentscheidung

Ob ein Videomodell kausal ist, kann nicht nur dadurch bestimmt werden, dass überprüft wird, ob zukünftige Token im Netzwerk maskiert sind. Wahre Kausalität ist eine Eigenschaft auf Systemebene. Es geht darum, wie das Modell während der Bereitstellung Eingaben empfängt, wie es das Gedächtnis aktualisiert, wie es Ausgaben offenlegt, wie aktuelle Ausgaben am zukünftigen Zustand teilnehmen und ob Training und Inferenz denselben zeitlichen Regeln folgen.

Offline-Videomodelle verhalten sich wie A-posteriori-Interpreter. Nachdem sie das gesamte Ereignis beobachtet haben, können sie eine bessere Erklärung eines vergangenen Frames liefern. Wenn ein Motiv hinter einem Verdeckungsobjekt verschwindet und später wieder auftaucht, kann ein Offline-Modell spätere Frames verwenden, um abzuleiten, was während der Verdeckung passiert ist. Wenn eine Aktion erst am Ende erkennbar wird, kann das Modell das Ende verwenden, um den Anfang zu klassifizieren. Wenn sich die Wege mehrerer Ziele kreuzen, können zukünftige Frames helfen, die Identitätszuweisung wiederherzustellen.

Diese Fähigkeiten sind nützlich für die Offline-Analyse, aber sie passen nicht zur Schnittstelle von Echtzeitsystemen. Ein Echtzeitsystem kann nicht auf zukünftige Frames warten, bevor es ein Steuersignal ausgibt. Es kann auch eine bereits ausgegebene Aktion nicht revidieren, nachdem spätere Beweise eingetroffen sind.

Ein kausales Videomodell ist näher an einem Online-Zustandsschätzer. Bei jedem Schritt empfängt es eine neue visuelle Beobachtung und erzeugt eine Ausgabe basierend auf dem historischen Gedächtnis. Diese Ausgabe ist nicht isoliert. Sie kann von einer nachgelagerten Richtlinie (Policy) gelesen, in den nächsten Vorhersageschritt zurückgekoppelt oder in eine Aktion umgewandelt werden, die die Umgebung und damit zukünftige Beobachtungen verändert. Aus diesem Grund müssen sich kausale Videomodelle um langfristige Stabilität, Fehlerakkumulation, Zustandsdrift und Wiederherstellung kümmern, nicht nur um Genauigkeit auf Frame- oder Kurzclip-Ebene.

Aus diesem Grund muss sich Kausalität über das Attention-Masking hinaus erstrecken. Ein Modell kann die Aufmerksamkeit auf zukünftige Frames vermeiden und dennoch nicht wirklich kausal sein, wenn das Training Statistiken der gesamten Sequenz, auf die Zukunft ausgerichtete Überwachung, nicht einsetzbare historische Eingaben oder ein Zustands-Rollout-Verfahren verwendet, das sich von der Inferenz unterscheidet. Kausalität muss über das Datenprotokoll, den Trainingsplan, den State-Cache, das Output-Feedback und die Inferenzschnittstelle hinweg erzwungen werden.

Von Video-Encodern zu temporalen Zustandsmaschinen

Traditionelle Videomodelle werden oft als Sequenz-Encoder entworfen. Sie nehmen ein Fenster von Frame-Merkmalen, verschmelzen den zeitlichen Kontext und geben kontextualisierte Repräsentationen aus. Die zentrale Frage ist, wie Informationen innerhalb eines festen Clips aggregiert werden können.

Kausale Videomodelle lassen sich besser als temporale Zustandsmaschinen verstehen. Ihre Kernfrage ist nicht, wie man eine komplette Sequenz einmal kodiert, sondern wie man eine interne Überzeugung (Belief) aktualisiert, wenn ein neuer Frame eintrifft.

Dieser Glaube ist eine komprimierte Hypothese über die aktuelle Welt. Er kann umfassen, wo sich das relevante Objekt befindet, wer das Subjekt ist, in welchem Stadium sich die Aufgabe befindet, welche Objekte bereits manipuliert wurden, welche Änderungen durch vorherige Aktionen verursacht wurden, ob die aktuelle Unsicherheit von Verdeckungen herrührt und welche Informationen noch relevant für zukünftige Entscheidungen sind. Ein neuer Frame ersetzt diesen Glauben nicht. Er modifiziert ihn, stärkt ihn oder löst einen Zustandsübergang aus.

Dies verändert die Leistungsgrenze von Videomodellen. Das Modell muss Kontinuität durch Verdeckung, Unschärfe, Kamerabewegung und vorübergehendes Verschwinden aufrechterhalten. Es muss auch schnell aktualisiert werden, wenn sich der zugrunde liegende Weltzustand wirklich ändert, anstatt der historischen Trägheit übermäßig zu vertrauen. Es braucht Gedächtnis, aber es braucht auch Vergessen. Es braucht Stabilität, aber auch kontrollierte Zustandsübergänge. Es muss die Geschichte komprimieren, kann aber aufgabenrelevante Langzeitinformationen nicht verwerfen.

In diesem Sinne ist ein kausales Videomodell ein dynamisches System, das in der Zeit abläuft. Es „versteht“ nicht nur ein Video. Es unterhält eine umsetzbare Repräsentation der Welt. Dies ist besonders wichtig für VLA. Ein VLA-System muss nicht nur wissen, was im aktuellen Bild sichtbar ist; es muss wissen, wie der aktuelle Weltzustand aus vergangenen Beobachtungen und Aktionen hervorgegangen ist. Ohne einen kausalen temporalen Zustand tendiert die Verbindung zwischen Sehen, Sprache und Handeln dazu, zu einer statischen Abbildung zu kollabieren.

Kausale Videomodelle erzeugen Handlungskontext

In einem VLA-System dient die visuelle Repräsentation letztlich dem Handeln. Handeln muss hier nicht unbedingt Low-Level-Motorsteuerung bedeuten. Es kann auch hochrangige Entscheidungsfindung, Aufgabenplanung, Interaktionsauswahl oder sprachgesteuerte Schlussfolgerungen bedeuten. Die Hauptanforderung besteht darin, dass die visuelle Repräsentation stabil und von einem Aktionssystem im Laufe der Zeit lesbar sein muss.

Aus diesem Grund sollte ein kausales Videomodell nicht nur semantische Labels ausgeben, noch sollte es nur geometrische Trajektorien ausgeben. Es sollte Handlungskontext produzieren. Dieser Kontext muss visuelle Fakten, zeitliche Beziehungen, Objektpermanenz, Aufgabenrelevanz und Bedienbarkeit umfassen. Es sollte nachgelagerten Modulen nicht nur sagen, „was sichtbar ist“, sondern auch „woher dies kam“, „warum es für die Aufgabe wichtig ist“, „ob es noch dasselbe Objekt ist“, „ob die letzte Aktion es verändert hat“ und „auf welche Variablen als Nächstes geachtet werden sollte“.

Dies unterscheidet sich grundlegend vom klassischen visuellen Verständnis. Traditionelle Modelle betonen Erkennung und Beschreibung. Kausale Videomodelle betonen Aufrechterhaltung und Aktualisierung. Traditionelle Modelle erzeugen eine Interpretation eines Videos. Kausale Videomodelle erzeugen einen Kontext, der weiterlaufen kann.

In diesem Sinne sind kausale Videomodelle eine temporale Infrastruktur für VLA. Ein visuelles Modell codiert Frames in Token. Ein Sprachmodell drückt Ziele und semantische Einschränkungen aus. Ein Aktionsmodell generiert Entscheidungen oder Kontrollen. Das kausale Videomodul platziert diese Signale auf einer gemeinsamen Zeitleiste. Es bestimmt, welcher Kontext noch gültig ist, welche Beobachtung veraltet ist, welches Objekt gebunden bleiben muss und welcher Zustand sich nach der Aktion geändert hat.

Subjekte, Objekte und Aufgabenfokus sind latente Variablen

In echten Videos ist die Entität, auf die es ankommt, oft nicht explizit gegeben. In Szenen mit mehreren Personen wird das Subjekt möglicherweise nicht durch eine Eingabebox spezifiziert. Bei der Robotermanipulation kann das Zielobjekt verdeckt oder vorübergehend außer Sichtweite sein. Bei Aufgaben mit langem Horizont steht das aktuell sichtbare Objekt möglicherweise nur in indirektem Zusammenhang mit dem Endziel. Traditionelle Pipelines zerlegen dies oft in Erkennung, Instanzsegmentierung, Tracking und Zustandsschätzung. Eine solche Zerlegung macht es jedoch schwierig, Fehlerfortpflanzung zu vermeiden.

Ein kausales Videomodell bietet eine einheitlichere Sichtweise. Subjekt, Objekt und Aufgabenfokus können alle als latente Variablen behandelt werden, die durch historische Beobachtungen, aktuelle Eingaben, Sprachbedingungen und Überwachung eingeschränkt sind. Das Modell wählt bei jedem Frame nicht unabhängig ein Fokusobjekt von Grund auf neu aus. Es behält im Laufe der Zeit eine anhaltende Hypothese bei. Der aktuelle Frame liefert Beweise, der historische Zustand sorgt für Kontinuität, die Aufgabenbedingung liefert Auswahlkriterien und das Output-Feedback prägt den zukünftigen Zustand.

Dies ist entscheidend für VLA. Eine Sprachanweisung mag nur zu Beginn einer Aufgabe erscheinen, aber das Objekt, die Beziehung oder das Ziel, das sie spezifiziert, muss während des gesamten nachfolgenden visuellen Streams aktiv bleiben. Das Modell muss sich merken, an welchem Objekt es operiert, und verstehen, wie sich dieses Objekt nach der Aktion verändert hat. Solche Variablen können nicht zuverlässig aus einem einzigen Bild wiederhergestellt werden. Sie erfordern einen kausalen Videozustand.

Das Gedächtnis in einem kausalen Videomodell ist daher nicht nur ein Cache vergangener Frames. Es ist ein aufgabenkonditionierter Bindungsmechanismus. Er muss die Objektidentität bewahren, wenn sich visuelle Beweise ändern, den wiederherstellbaren Zustand beibehalten, wenn Objekte verschwinden, Objekte neu binden, wenn sie wieder auftauchen, und den Aufgabenfokus aktualisieren, wenn sich der Aufgabenfortschritt ändert. Diese Maintenance von latenten Variablen über die Zeit ist eine der Hauptvoraussetzungen für den Übergang vom statischen Vision-Language-Verständnis zur kontinuierlichen Aktion.

Strukturierte visuelle Token liefern den richtigen Inductive Bias

Kausale Videomodelle arbeiten unter teilweiser Beobachtbarkeit. Der aktuelle Frame kann irrelevante Texturen, Hintergrundbewegungen, Beleuchtungsänderungen, Kamerabewegungen und Verdeckungsrauschen enthalten. Das direkte Erlernen langfristiger Zustandsaktualisierungen aus rohen Pixeln zwingt das Modell, visuelle Abstraktion, Objektbindung, zeitliche Inferenz und Aktionsvorhersage gleichzeitig zu lösen. Das ist ein schwieriges Lernproblem.

Daher sind strukturierte visuelle Token wichtig. Unterschiedliche Aufgaben können unterschiedliche Zwischenstrukturen verwenden. Menschenzentrierte Aufgaben verwenden möglicherweise Pose- oder Körper-Token. Manipulationsaufgaben können Objekt-, Kontakt-, Tiefen-, Hand-, Werkzeug- oder Affordance-Token verwenden. Navigationsaufgaben können räumliches Gedächtnis oder topologische Token verwenden. Interaktionsaufgaben können Subjekt-Objekt-Aktion-Beziehungs-Token verwenden. Der wichtige Punkt ist nicht der spezifische Token-Typ, sondern die Tatsache, dass das rohe Sehen in Beobachtungsvariablen komprimiert wird, die besser für die Zustandsaktualisierung geeignet sind.

Diese strukturierten Token sind keine Rückkehr zu starren klassischen Pipelines. Sie müssen keine endgültigen Ausgaben sein und erfordern keine perfekte Überwachung jeder Zwischenvorhersage. Sie fungieren als Inductive Bias. Sie erleichtern es dem kausalen Modell, visuelle Beweise in den zeitlichen Zustand zu schreiben. Ein starker visueller Encoder erzeugt reichhaltige Beobachtungen. Ein kausales zeitliches Modul unterhält dynamischen Glauben. Ein Aktionsmodul liest diesen Glauben, um Entscheidungen zu treffen oder Kontrolle zu erzeugen.

Architektonisch deutet dies darauf hin, dass zukünftige Video-Action-Systeme möglicherweise nicht aus einem einzigen monolithischen Modell bestehen, das alle Frames konsumiert und direkt endgültige Aktionen ausgibt. Eine natürlichere Struktur ist geschichtet: Low-Level-Visual-Encoder produzieren hochwertige Wahrnehmungstoken; ein Mid-Level-kausales Videomodul behält den zeitlichen Zustand bei; High-Level-Sprach- und Policy-Module lesen diesen Zustand, um Entscheidungen zu treffen. Das kausale Videomodell sitzt in der Mitte und wandelt „was gesehen wird“ in „was im Laufe der Zeit umsetzbar ist“ um.

Autoregressive geschlossene Schleifen bestimmen die Langzeitstabilität

Kausale Videomodelle arbeiten natürlicherweise in geschlossenen Schleifen (Closed Loops). Die aktuelle Ausgabe beeinflusst den zukünftigen Zustand, und der zukünftige Zustand beeinflusst spätere Ausgaben. Wenn das Modell mit einem Aktionssystem verbunden ist, wird die Schleife stärker: Ausgaben des Modells erzeugte Aktionen verändern die Umgebung, und die veränderte Umgebung wird zum nächsten visuellen Input. Das Modell beobachtet die Welt nicht mehr nur; es beteiligt sich an der Gestaltung zukünftiger Beobachtungen.

Dies macht die Konsistenz zwischen Training und Inferenz von entscheidender Bedeutung. Wenn das Training immer einen sauberen historischen Zustand verwendet, die Inferenz jedoch von der eigenen generierten Geschichte des Modells abhängt, wird das Modell mit Distribution Shift konfrontiert sein. Ein kleiner früher Fehler kann den Zustand in eine Region verschieben, die während des Trainings selten gesehen wurde, was schließlich zu Subjektdrift, Fehlschlagen der Objektbindung, Aktionsoszillation oder Zusammenbruch der Aufgabe führt.

Ein kausales Videomodell kann daher nicht nur die Ein-Schritt-Vorhersage optimieren. Es muss für Rollouts ausgelegt sein. Es muss sich um langfristige Zustandsstabilität, Fehlerbehebung und Robustheit im Closed-Loop kümmern. Für VLA ist dies noch wichtiger, da die Ausführung von Richtlinien (Policy) die Inputverteilung verändert. Ein einsetzbares VLA-System muss in der Lage sein, wahrzunehmen, zu korrigieren und in den Umgebungszuständen zu handeln, die es selbst schafft, und nicht nur entlang idealer Trajektorien.

Dies bedeutet auch, dass die Evaluierung über den Frame-basierten Loss hinausgehen muss. Ein Modell kann bei der Einschritt-Vorhersage genau aussehen, aber fehlschlagen, wenn es über Hunderte oder Tausende von Frames ausgerollt wird. Die wichtigen Fragen sind, ob es Objektbindung, Aufgabenfokus und Zustandskonsistenz im Laufe der Zeit bewahrt; ob es sich von Verdeckung, Rauschen oder falschen Zwischenaktionen erholen kann; und ob es seinen Glauben aktualisieren kann, wenn sich die Umgebung aufgrund einer Aktion ändert.

Das Zeitprotokoll ist Teil des Modells

Kausale Videomodelle reagieren hochempfindlich auf das Zeitprotokoll. Framerate, Zuverlässigkeit der Zeitstempel, Abtastintervall, Cachelänge, Chunk-Grenze, State Reset, Aktionshäufigkeit, Label-Interpolation und Sensorlatenz beeinflussen alle, ob das Modell stabile Dynamiken lernt. Für die Offline-Erkennung können diese Details manchmal wie technische Bedenken erscheinen. Für die kausale Zustandsmodellierung sind sie Teil der Modellkapazität.

Wenn ein Modell kontinuierliche Zustands- oder Aktionsvariablen lernt, muss jeder Zeitschritt eine konsistente Semantik haben. Wenn das Video eine variable Framerate hat oder wenn Label-Zeitstempel nicht zuverlässig Frames zugeordnet werden können, werden die gelernten Dynamiken durch systematische Fehler (Noise) verfälscht. In einem autoregressiven Modell kann sich diese zeitliche Fehlausrichtung durch den Zustand fortpflanzen und zu langfristigen Fehlern führen.

In VLA ist das Zeitprotokoll noch komplexer. Sprachziele sind niederfrequent. Visuelle Beobachtungen sind mittelfrequent. Motorische Aktionen können hochfrequent sein. Propriozeption und Umgebungsfeedback führen ihre eigenen Verzögerungen ein. Ein zukünftiges VLA-System benötigt ein einheitliches kausales Zeitrahmenwerk, das verschiedene Modalitäten, Frequenzen und Latenzen in einen handlungsfähigen Zustand organisiert. Kausale Videomodelle sind gut positioniert, um als der visuell-zeitliche Kern dieses Frameworks zu dienen.

Dieser zeitliche Kern ist nicht nur ein Historienpuffer. Er muss multimodale Signale zu einem aktualisierbaren dynamischen Zustand ausrichten. Sprachziele definieren langfristige Einschränkungen. Videostreams liefern externe Beobachtungen. Aktionshistorie erklärt Umweltveränderungen. Propriozeption liefert Ausführungsfeedback. Ein kausales Videomodell muss diese Signale in einen Kontext organisieren, der von Planungs- und Steuerungsschichten kontinuierlich gelesen und aktualisiert werden kann.

Ein konkretes Beispiel: Subject Motion 6DoF

Subject Motion 6DoF

Subject Motion 6DoF bietet ein kompaktes Beispiel dafür, wie diese Ideen in einem technischen System instanziiert werden können. Es prognostiziert die Starrkörper-6DoF-Bewegung eines Zielobjekts aus Streaming-Video unter Verwendung von sechs normalisierten Kanälen: x, y, z, roll, pitch und yaw. Die Wahl von 6DoF soll nicht alle menschlichen Details erfassen. Es bietet eine niedrigdimensionale, kontinuierliche Aktionsvariable, die von nachgelagerten Systemen konsumiert werden kann.

Das Beispiel spiegelt mehrere wichtige Eigenschaften der kausalen Videomodellierung wider. Seine Eingabe ist kausal: Die Vorhersage in Frame t verwendet nur Frame t und frühere Frames. Das Subjekt kann implizit sein: Das Trainings-Label definiert, die Bewegung welches Subjekts vorhergesagt werden soll, auch wenn mehrere Personen im Bild erscheinen, ohne dass eine explizite Segmentierungsmaske oder ein Person-ID-Track erforderlich sind. Merkmale der menschlichen Pose (Human Pose Features) fungieren als strukturierte visuelle Vorabinformationen und helfen dem Modell, Beobachtungen zu bilden, die der Subjektbewegung näher kommen. Die Ausgabe bleibt eine kompakte Starrkörperabstraktion und kein vollständiges Mesh, Skelett oder eine Rekonstruktion pro Gelenk.

Noch wichtiger ist, dass das Modell keine unabhängige Regression pro Frame durchführt. Während des Streaming-Trainings und der Generierung führt es visuelle Historie und Aktionszustand mit. Der visuelle Cache unterstützt die Subjektkonsistenz im Laufe der Zeit, während der autoregressive Aktionszustand die Output-Kontinuität unterstützt. Auf der Überwachungsseite werden Labels als spärliche Aktionspunkte im Laufe der Zeit dargestellt und in dichte Ziele auf Frame-Ebene interpoliert. Auf der Videoseite ist eine zuverlässige konstante Framerate erforderlich, damit die Zeit-Labels konsistent mit den visuellen Frames übereinstimmen.

Die Open-Source-Implementierung ist hier verfügbar: CausalLM/subject-motion-6dof. Das Beispiel demonstriert ein breiteres Muster: Extrahieren strukturierter Beobachtungen aus Streaming-Vision, Aufrechterhalten des Zustands in kausaler Zeit und Generieren kontinuierlicher Variablen, die für Aktionen nützlich sind.

Von Subject Motion zur VLA Temporal Infrastructure

Wenn die 6DoF-Ausgabe in Subject Motion 6DoF durch allgemeinere handlungsorientierte Variablen ersetzt wird, gilt immer noch dasselbe Paradigma. Die Ausgabe kann eine Endeffektor-Bedingung, ein Objektzustand, eine Kontaktvorhersage, eine Aufgabenphase, ein bedienbarer Bereich, eine latent Variable für kurzfristige Aktionen oder ein visuell-zeitliches Gedächtnis sein, das ein Sprachplaner lesen kann. Der Schlüssel ist nicht das spezifische Ausgabeformat. Der Schlüssel ist, dass das Modell den Weltzustand über die Zeit hinweg kausal aufrechterhält und in einen Kontext transformiert, der von einem Aktionssystem genutzt werden kann.

Dies ist die zentrale Richtung für VLA. Ein einsetzbares VLA-System sollte Bild, Sprache und Aktion nicht nur innerhalb eines großen Modells verketten. Es benötigt einen kontinuierlich laufenden temporalen Kern. Es muss Sprachziele verstehen und gleichzeitig den visuellen Zustand beibehalten. Es muss Handlungen generieren und gleichzeitig die Konsequenzen der Handlung verstehen. Es muss semantisch verallgemeinern und gleichzeitig im Closed-Loop stabil bleiben. Es muss Aufgaben mit langem Horizont bewältigen und sich gleichzeitig von lokalen Fehlern erholen können.

Zukünftige VLA-Architekturen werden wahrscheinlich eher geschichtet sein, als sich auf ein einziges Modell zu verlassen, um alle temporalen Details durchgängig zu verarbeiten. Eine High-Level-Schicht verarbeitet Sprachziele, Aufgabenzerlegung und langfristige semantische Schlussfolgerungen. Eine mittlere Schicht behält den kausalen Videozustand, die Objektbindung, den Handlungskontext und die kurzfristige Vorhersage bei. Eine Low-Level-Schicht kümmert sich um hochfrequente Steuerung, Sicherheitsbeschränkungen und Dynamik. Das kausale Videomodell gehört in die Mitte. Es verwandelt das Sehen in umsetzbare zeitliche Repräsentationen.

In diesem Framework ist das Videomodell nicht nur das Wahrnehmungs-Frontend von VLA. Es ist der Zustandsbewahrer innerhalb der Aktionsschleife. Es empfängt hochdimensionale visuelle Eingaben, absorbiert die Konsequenzen vergangener Aktionen, bewahrt die Objekt- und Aufgabenkonsistenz über die Zeit und bietet einen stabilen Kontext für Richtlinien (Policy). Ohne diesen temporalen Kern riskiert VLA, ein statisches Vision-Language-Modell mit einem angeschlossenen Aktionskopf zu werden. Mit ihm kann VLA zu einem Closed-Loop-System aus kontinuierlicher Wahrnehmung, Aktion und Korrektur werden.

Fazit

Kausale Videomodelle stellen eine Verschiebung von der Offline-Interpretation zur Online-Aktion dar. Sie behandeln Video als einen Strom von Beobachtungen, das Modell als ein Zustandsaktualisierungssystem und die Ausgabe als eine zeitliche Variable, die von Steuerungs-, Planungs-, Sprachschlussfolgerungs- oder Aktionsrichtlinien (Action Policy) konsumiert werden kann. Zu ihren Hauptanliegen gehören nicht nur die visuelle Erkennung, sondern auch Konsistenz von Training und Inferenz, Zeitprotokoll, Zustandsstabilität, Subjekt- und Objektbindung, autoregressives Feedback und langfristige Wiederherstellung.

Für VLA sind kausale Videomodelle die mittlere Schicht, die Sehen und Handeln verbindet. Sie ermöglichen einem System nicht nur, den aktuellen Frame zu verstehen, sondern im Laufe der Zeit eine praktikable Repräsentation der Welt aufrechtzuerhalten. Subject Motion 6DoF demonstriert diese Idee durch eine kompakte Subjekt-Bewegungsaufgabe: kausaler Input, strukturierte visuelle Priors, implizite Subjektmodellierung und autoregressive Zustandsaktualisierung verwandeln Streaming-Video in eine kontinuierliche Aktionsvariable. Wenn solche Variablen von der Subjektbewegung auf Objektstatus, Aufgabenfortschritt, Interaktionsbeziehungen und Policy-Latenten expandieren, werden kausale Videomodelle zur temporalen Infrastruktur für die nächste Generation von VLA-Systemen.

Sehen Sie sich die Demo-Implementierung dieses Paradigmas auf GitHub an →

Weitere Feldnotizen

Archiv erkunden

Retrievatar: Ein multimodaler Datensatz für entitätszentrierte Retrieval-Augmented Generation

Datasets

14. Dezember 2025

Retrievatar: Ein multimodaler Datensatz für entitätszentrierte Retrieval-Augmented Generation

Retrievatar ist ein multimodaler Datensatz, der entwickelt wurde, um die Retrieval-Augmented Generation-Fähigkeiten von Vision-Language-Modellen zu verbessern, wobei der Schwerpunkt speziell auf fiktiven Anime-Charakteren und realen Prominenten liegt.

Das LLM-Potenzial mit unserer "Geheimzutat" für synthetische Daten erschließen

Datasets

26. Februar 2024

Das LLM-Potenzial mit unserer "Geheimzutat" für synthetische Daten erschließen

Wir stellen unser einzigartiges Rezept zur Generierung hochwertiger synthetischer Datensätze vor, um die LLM-Leistung zu steigern, mit unserem neuen Anime-Datensatz mit über 1 Million Einträgen als Proof of Concept.