World Action Models: Forscher kartieren das nächste Paradigma der Robotik-KI

3 weeks ago 10

Heutige Robotik-KI hat eine konzeptionelle Schwäche: Die Modelle lernen direkt, welche Bewegung auf welche Kamerabilder folgen soll. Sie verstehen aber nicht, wie sich die Welt durch ihre Handlung tatsächlich verändert.

Ein neues Übersichtspapier der Fudan University, des Shanghai Innovation Institute und der National University of Singapore fasst erstmals systematisch eine Modellklasse zusammen, die genau diese Lücke schließen soll: World Action Models.

Baumdiagramm der WAM-Forschungslandschaft mit zwei Stämmen für Joint WAM und Cascaded WAM, weiter aufgefächert in Diffusion-based, Autoregressive, Explicit und Implicit, Methoden wie Cosmos Policy, DreamZero, GR-1, GR-2, UniPi und Vidar auf einer Zeitachse von 2024 bis 2026 verortet.

Roboter, die ihre eigene nahe Zukunft simulieren

Bisherige Vision-Language-Action-Modelle lernen vor allem direkte Zuordnungen von Beobachtungen zu passenden Aktionen. World Action Models erweitern diesen Ansatz, indem sie zusätzlich die voraussichtliche Entwicklung der Umgebung modellieren und diese Vorhersage mit der Aktionsgenerierung koppeln.

Aus dieser Verschiebung folgt laut den Autoren ein praktischer Vorteil. Ein Modell, das die Folgen einer Bewegung vorab simuliert, generalisiert besser auf unbekannte Objekte und Umgebungen. Vor allem aber kann es aus Videomaterial lernen, in dem gar keine Roboteraktionen annotiert sind, etwa aus Alltagsvideos in Ich-Perspektive. Solche Daten waren für klassische Robotik-KI bisher kaum nutzbar.

Reine Videogeneratoren erzeugen zwar plausible Zukunftsbilder, sind aber nicht an Steuerungssignale gekoppelt. Genau diese Abgrenzung hatte zuletzt auch ein Forschungsteam um die Peking University in seiner einheitlichen Definition von Weltmodellen gezogen. World Action Models erfüllen beide Bedingungen gleichzeitig.

Schemavergleich von VLA, WAM und WM mit Eingängen Current Obs und Language und Ausgängen Action und Next Obs, daneben Mengendiagramm mit WAM als Obermenge von VAM und Video Policy.

Zwei zentrale Architekturen

Die Forschenden ordnen rund hundert untersuchte Arbeiten in zwei Architekturlinien ein. Die erste (Cascaded WAMs) arbeitet in zwei Schritten. Zuerst erzeugt ein Weltmodell ein Bild oder Video davon, wie die Szene gleich aussehen soll. Danach extrahiert ein zweites Modul daraus die passenden Steuerbefehle. Frühe Arbeiten wie UniPi generieren komplette Videos und leiten die Bewegung über ein gelerntes Rückwärtsmodell ab.

Drei Architekturschemata für Cascaded WAMs, links Video-Generator mit nachgelagertem Inverse-Dynamics-Modul, mittig Video-Generator mit geometrischer Aktionsextraktion, rechts Video-Generator mit latenter Repräsentation und IDM.

Andere Ansätze wie AVDC oder 3DFlowAction arbeiten mit Bewegungsfeldern, aus denen sich die Robotertrajektorie geometrisch berechnen lässt. Wieder andere wie VPP oder LAPA verzichten ganz auf den Umweg über sichtbare Bilder und sagen die Zukunft in komprimierten, abstrakten Repräsentationen vorher. Das spart Rechenzeit, die sonst für die Erzeugung jedes einzelnen Pixels nötig wäre.

Die zweite Linie (Joint WAMs) kombiniert beide Aufgaben in einem einzigen Modell. Arbeiten wie GR-1, GR-2 oder WorldVLA behandeln Bilder und Aktionen als einheitliche Tokenfolge. Diffusionsbasierte Varianten wie PAD, UWM oder DreamZero erzeugen Zukunftsbild und Bewegung parallel. Cosmos Policy von Nvidia kann mit derselben Architektur wahlweise als Steuerung, als Simulator oder als Bewertungsmodell arbeiten.

Vier Schemata für Joint-WAM-Architekturen, ein einzelner DiT-Backbone links und drei Multi-Stream-Varianten rechts mit Cross-Attention, Hidden-State-Kopplung und gemeinsamem Encoder.

Eine ähnliche Doppelrolle verfolgt Nvidia auch mit DreamDojo, einem Weltmodell, das Steuerbefehle entgegennimmt und daraus eine simulierte Zukunft in Bildern erzeugt. Das im Survey diskutierte Modell π0.7 wiederum nutzt das Weltmodell nicht als Ersatz, sondern als Zulieferer. Es speist imaginierte Zukunftsbilder in den Kontext einer vortrainierten Roboter-KI ein, die daraus die Bewegung erzeugt.

Der eigentliche Engpass liegt bei den Daten

Ein eigenes Kapitel widmet sich der Frage, woher das Trainingsmaterial kommt. Hier prägen vier Quellen das Feld: Teleoperationsdaten von ferngesteuerten Robotern sind präzise, aber teuer und auf wenige Umgebungen beschränkt. Datensätze wie Open X-Embodiment oder DROID versuchen das durch Bündelung vieler Labore zu lösen. Tragbare Demonstrationswerkzeuge wie das Universal Manipulation Interface umgehen die Hardwareabhängigkeit. Menschen führen dabei Aufgaben mit handgehaltenen Greifern im Alltag aus.

Streudiagramm bewertet vier Datenquellen für WAM-Training, Roboter-Teleoperation, tragbare Mensch-Demonstrationen, Simulation sowie egozentrische Mensch-Videos, entlang der Achsen Transfer Difficulty und Scaling Difficulty.

Der Datensatz RDT2 sammelt auf diese Weise rund 10.000 Stunden Material. Simulationen wie RoboCasa oder RoboTwin 2.0 liefern beliebig viele Trajektorien mit perfekter Tiefeninformation, leiden aber unter der bekannten Lücke zur Realität. Nvidia setzt mit GR00T N1 konsequent auf diesen Ansatz und trainiert humanoide Roboter überwiegend in synthetischen Umgebungen.

Egozentrische Alltagsvideos aus Ego4D bieten unbegrenzte Vielfalt, enthalten aber keine Aktionslabels. Genau hier zeigt sich der Vorteil von World Action Models. Sie könnten solche Videos zur Vorhersage von Zukunftsbildern nutzen, auch wenn keine Bewegungsdaten vorliegen.

Bewertung hinkt der Entwicklung hinterher

Besonders kritisch äußern sich die Autoren zur Frage, wie gut die Modelle eigentlich evaluiert werden. Visuelle Qualität wird mit Standardmaßen wie PSNR oder FVD geprüft, die aber wenig darüber aussagen, ob ein Video physikalisch plausibel ist.

Spezialisierte Benchmarks prüfen unterschiedliche Aspekte physikalischer Plausibilität: VideoPhy bewertet physische Interaktionsszenarien, Physics-IQ testet die Vorhersage realer physikalischer Ereignisse aus Videoframes, und WorldModelBench prüft explizit Regeln wie Gravitation, Massenerhaltung, Festkörpermechanik und Undurchdringlichkeit.

Eine besonders pointierte Beobachtung liefert der "Wow, wo, val!"-Benchmark. Er prüft, ob aus einem generierten Video überhaupt eine ausführbare Bewegung abgeleitet werden kann. Viele optisch überzeugende Modelle fallen dabei laut Survey auf nahezu null Erfolgsquote zurück.

Ein Video kann also realistisch aussehen und trotzdem keine brauchbare Information für die Steuerung enthalten. Genau diese Trennung kritisieren die Autoren als zentrales Defizit. Es fehle ein Maß dafür, ob die imaginierte Zukunft und die ausgeführte Bewegung kausal zusammenpassen.

Bestätigung für Yann LeCuns JEPA-Ansatz

Bislang gibt es laut den Autoren keine kontrollierte Studie, die die verschiedenen Architekturen unter gleichen Bedingungen vergleicht. Fast alle Modelle arbeiten ausschließlich mit Kamerabildern, obwohl Aufgaben mit feinem Kontakt Tast- und Kraftinformationen benötigen. Die Rechenzeit bleibe ein Engpass. DreamZero erreicht rund sieben Vorhersagen pro Sekunde, klassische Robotersteuerungen arbeiten dagegen mit etwa fünfzig.

Die Autoren formulieren auch eine Sicherheitsfrage: Ein Modell, das voller Überzeugung eine falsche Zukunft vorhersagt, kann längere Handlungsketten in Gang setzen, die schwer zu unterbrechen sind. Die gleiche prädiktive Fähigkeit ließe sich aber auch nutzen, um geplante Bewegungen vor der Ausführung gegen physikalische Regeln zu prüfen.

Vor wenigen Monaten hatte Meta mit V-JEPA 2 gezeigt, dass selbstüberwachte Video-Weltmodelle ganz auf die Erzeugung sichtbarer Pixel verzichten und stattdessen nur abstrakte Repräsentationen der Zukunft vorhersagen können. Die Autoren des Survey sehen darin einen der vielversprechendsten Wege, um den hohen Rechenaufwand expliziter Videogenerierung zu vermeiden, ohne die physikalische Verankerung der Vorhersagen aufzugeben.

Eine vollständige Übersicht der besprochenen Arbeiten stellt das Projekt auf GitHub bereit.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article