Heutige Robotik-KI hat eine konzeptionelle Schwäche: Die Modelle lernen direkt, welche Bewegung auf welche Kamerabilder folgen soll. Sie verstehen aber nicht, wie sich die Welt durch ihre Handlung tatsächlich verändert.
Ein neues Übersichtspapier der Fudan University, des Shanghai Innovation Institute und der National University of Singapore fasst erstmals systematisch eine Modellklasse zusammen, die genau diese Lücke schließen soll: World Action Models.
Die Autoren ordnen sämtliche aktuellen World-Action-Modelle entlang zweier Hauptäste an und zeigen, wie sich Joint- und Cascaded-Architekturen ab 2024 ausdifferenziert haben. | Bild: Wang et al.Roboter, die ihre eigene nahe Zukunft simulieren
Bisherige Vision-Language-Action-Modelle lernen vor allem direkte Zuordnungen von Beobachtungen zu passenden Aktionen. World Action Models erweitern diesen Ansatz, indem sie zusätzlich die voraussichtliche Entwicklung der Umgebung modellieren und diese Vorhersage mit der Aktionsgenerierung koppeln.
Aus dieser Verschiebung folgt laut den Autoren ein praktischer Vorteil. Ein Modell, das die Folgen einer Bewegung vorab simuliert, generalisiert besser auf unbekannte Objekte und Umgebungen. Vor allem aber kann es aus Videomaterial lernen, in dem gar keine Roboteraktionen annotiert sind, etwa aus Alltagsvideos in Ich-Perspektive. Solche Daten waren für klassische Robotik-KI bisher kaum nutzbar.
Reine Videogeneratoren erzeugen zwar plausible Zukunftsbilder, sind aber nicht an Steuerungssignale gekoppelt. Genau diese Abgrenzung hatte zuletzt auch ein Forschungsteam um die Peking University in seiner einheitlichen Definition von Weltmodellen gezogen. World Action Models erfüllen beide Bedingungen gleichzeitig.
WAMs lernen anders als klassische VLA-Modelle nicht nur Aktionen, sondern auch das voraussichtliche Folgebild der Umgebung. | Bild: Wang et al.Zwei zentrale Architekturen
Die Forschenden ordnen rund hundert untersuchte Arbeiten in zwei Architekturlinien ein. Die erste (Cascaded WAMs) arbeitet in zwei Schritten. Zuerst erzeugt ein Weltmodell ein Bild oder Video davon, wie die Szene gleich aussehen soll. Danach extrahiert ein zweites Modul daraus die passenden Steuerbefehle. Frühe Arbeiten wie UniPi generieren komplette Videos und leiten die Bewegung über ein gelerntes Rückwärtsmodell ab.
In Cascaded-Architekturen plant erst ein Videogenerator den nächsten Zustand, bevor ein zweites Modul daraus konkrete Aktionen ableitet. | Bild: Wang et al.Andere Ansätze wie AVDC oder 3DFlowAction arbeiten mit Bewegungsfeldern, aus denen sich die Robotertrajektorie geometrisch berechnen lässt. Wieder andere wie VPP oder LAPA verzichten ganz auf den Umweg über sichtbare Bilder und sagen die Zukunft in komprimierten, abstrakten Repräsentationen vorher. Das spart Rechenzeit, die sonst für die Erzeugung jedes einzelnen Pixels nötig wäre.
Die zweite Linie (Joint WAMs) kombiniert beide Aufgaben in einem einzigen Modell. Arbeiten wie GR-1, GR-2 oder WorldVLA behandeln Bilder und Aktionen als einheitliche Tokenfolge. Diffusionsbasierte Varianten wie PAD, UWM oder DreamZero erzeugen Zukunftsbild und Bewegung parallel. Cosmos Policy von Nvidia kann mit derselben Architektur wahlweise als Steuerung, als Simulator oder als Bewertungsmodell arbeiten.
Joint WAMs erzeugen Zukunftsbild und Bewegung im selben Modell. Mal teilen sich beide ein gemeinsames Netzwerk, mal laufen sie in getrennten Strängen, die untereinander Informationen austauschen. | Bild: Wang et al.Eine ähnliche Doppelrolle verfolgt Nvidia auch mit DreamDojo, einem Weltmodell, das Steuerbefehle entgegennimmt und daraus eine simulierte Zukunft in Bildern erzeugt. Das im Survey diskutierte Modell π0.7 wiederum nutzt das Weltmodell nicht als Ersatz, sondern als Zulieferer. Es speist imaginierte Zukunftsbilder in den Kontext einer vortrainierten Roboter-KI ein, die daraus die Bewegung erzeugt.
Der eigentliche Engpass liegt bei den Daten
Ein eigenes Kapitel widmet sich der Frage, woher das Trainingsmaterial kommt. Hier prägen vier Quellen das Feld: Teleoperationsdaten von ferngesteuerten Robotern sind präzise, aber teuer und auf wenige Umgebungen beschränkt. Datensätze wie Open X-Embodiment oder DROID versuchen das durch Bündelung vieler Labore zu lösen. Tragbare Demonstrationswerkzeuge wie das Universal Manipulation Interface umgehen die Hardwareabhängigkeit. Menschen führen dabei Aufgaben mit handgehaltenen Greifern im Alltag aus.
Je leichter sich eine Datenquelle skalieren lässt, desto schwieriger wird in der Regel der Transfer auf den Roboter. Egozentrische Mensch-Videos sind dabei das Extrembeispiel. | Bild: Wang et al.Der Datensatz RDT2 sammelt auf diese Weise rund 10.000 Stunden Material. Simulationen wie RoboCasa oder RoboTwin 2.0 liefern beliebig viele Trajektorien mit perfekter Tiefeninformation, leiden aber unter der bekannten Lücke zur Realität. Nvidia setzt mit GR00T N1 konsequent auf diesen Ansatz und trainiert humanoide Roboter überwiegend in synthetischen Umgebungen.
Egozentrische Alltagsvideos aus Ego4D bieten unbegrenzte Vielfalt, enthalten aber keine Aktionslabels. Genau hier zeigt sich der Vorteil von World Action Models. Sie könnten solche Videos zur Vorhersage von Zukunftsbildern nutzen, auch wenn keine Bewegungsdaten vorliegen.
Bewertung hinkt der Entwicklung hinterher
Besonders kritisch äußern sich die Autoren zur Frage, wie gut die Modelle eigentlich evaluiert werden. Visuelle Qualität wird mit Standardmaßen wie PSNR oder FVD geprüft, die aber wenig darüber aussagen, ob ein Video physikalisch plausibel ist.
Spezialisierte Benchmarks prüfen unterschiedliche Aspekte physikalischer Plausibilität: VideoPhy bewertet physische Interaktionsszenarien, Physics-IQ testet die Vorhersage realer physikalischer Ereignisse aus Videoframes, und WorldModelBench prüft explizit Regeln wie Gravitation, Massenerhaltung, Festkörpermechanik und Undurchdringlichkeit.
Eine besonders pointierte Beobachtung liefert der "Wow, wo, val!"-Benchmark. Er prüft, ob aus einem generierten Video überhaupt eine ausführbare Bewegung abgeleitet werden kann. Viele optisch überzeugende Modelle fallen dabei laut Survey auf nahezu null Erfolgsquote zurück.
Ein Video kann also realistisch aussehen und trotzdem keine brauchbare Information für die Steuerung enthalten. Genau diese Trennung kritisieren die Autoren als zentrales Defizit. Es fehle ein Maß dafür, ob die imaginierte Zukunft und die ausgeführte Bewegung kausal zusammenpassen.
Bestätigung für Yann LeCuns JEPA-Ansatz
Bislang gibt es laut den Autoren keine kontrollierte Studie, die die verschiedenen Architekturen unter gleichen Bedingungen vergleicht. Fast alle Modelle arbeiten ausschließlich mit Kamerabildern, obwohl Aufgaben mit feinem Kontakt Tast- und Kraftinformationen benötigen. Die Rechenzeit bleibe ein Engpass. DreamZero erreicht rund sieben Vorhersagen pro Sekunde, klassische Robotersteuerungen arbeiten dagegen mit etwa fünfzig.
Die Autoren formulieren auch eine Sicherheitsfrage: Ein Modell, das voller Überzeugung eine falsche Zukunft vorhersagt, kann längere Handlungsketten in Gang setzen, die schwer zu unterbrechen sind. Die gleiche prädiktive Fähigkeit ließe sich aber auch nutzen, um geplante Bewegungen vor der Ausführung gegen physikalische Regeln zu prüfen.
Vor wenigen Monaten hatte Meta mit V-JEPA 2 gezeigt, dass selbstüberwachte Video-Weltmodelle ganz auf die Erzeugung sichtbarer Pixel verzichten und stattdessen nur abstrakte Repräsentationen der Zukunft vorhersagen können. Die Autoren des Survey sehen darin einen der vielversprechendsten Wege, um den hohen Rechenaufwand expliziter Videogenerierung zu vermeiden, ohne die physikalische Verankerung der Vorhersagen aufzugeben.
Eine vollständige Übersicht der besprochenen Arbeiten stellt das Projekt auf GitHub bereit.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.



