Das US-Start-up Physical Intelligence hat mit π0.7 ein neues Modell für Roboter vorgestellt, das im Training gelernte Fähigkeiten neu kombinieren können soll, ähnlich wie ein Sprachmodell Textbausteine aus seinen Trainingsdaten neu zusammensetzt. Die Forscher sprechen von ersten Anzeichen einer "kompositionellen Generalisierung" in der Robotik.
Das Modell basiert auf Googles offenem Sprachmodell Gemma3 mit vier Milliarden Parametern, ergänzt um ein kleineres Modul von 860 Millionen Parametern, das die eigentlichen Roboterbewegungen erzeugt. Entscheidend ist laut PI aber nicht die Architektur, sondern das Trainingsrezept.
Bisherige Robotermodelle erhalten im Training meist nur eine kurze Aufgabenbeschreibung, etwa "falte das T-Shirt". π0.7 bekommt zusätzlich eine Reihe von Begleitinformationen: Zwischenschritte in natürlicher Sprache, Angaben zur Qualität und Geschwindigkeit der Demonstration, die verwendete Steuerungsart und sogar Zielbilder, die zeigen, wie das Ergebnis eines Teilschritts aussehen soll. Diese Zielbilder werden zur Laufzeit von einem zweiten, kleineren KI-Modell erzeugt.
Dieser Ansatz erlaubt es, auch mit Daten unterschiedlicher Qualität zu trainieren. Gescheiterte Versuche oder langsame Demonstrationen lassen sich einfach mit Metadaten entsprechend kennzeichnen, statt sie wegzuwerfen.
Ein Modell statt vieler Spezialisten
PI berichtet, dass ein einziges π0.7-Modell die Leistung der zuvor mit Reinforcement Learning spezialisierten π*0.6-Modelle beim Wäschefalten, Espressozubereiten und Kartonfalten erreicht. Dabei gelingt auch der Transfer auf andere Roboter: Ein zweiarmiger Industrieroboter des Typs UR5e faltete T-Shirts mit einer Erfolgsquote von 80 Prozent, obwohl keine Faltdaten für diesen Roboter erhoben wurden. Das entspricht laut PI dem Niveau erfahrener menschlicher Fernsteuerer, die die Aufgabe zum ersten Mal mit diesem Roboter versuchten.
Neue Aufgaben lassen sich zudem per Sprach-Coaching beibringen. Ein Mensch führt den Roboter schrittweise durch die Tätigkeit, indem er einzelne Anweisungen gibt. Aus diesen Coaching-Episoden lässt sich dann ein Steuerungsmodell trainieren, das die Aufgabe autonom ausführt, ohne dass klassische Trainingsdaten per Fernsteuerung aufgenommen werden müssen.
Der Airfryer und die Frage nach echter Generalisierung
Als Paradebeispiel für kompositionelle Fähigkeit führt PI das Beladen eines Heißluftfritteuse mit einer Süßkartoffel an. Ohne Anleitung scheitert das Modell, mit schrittweisem Coaching gelingt die Aufgabe. Im technischen Bericht schreibt das Team, man habe in den Trainingsdaten nur zwei Episoden gefunden, in denen ein Roboter eine Heißluftfritteuse schließt, sowie Daten aus dem offenen Datensatz DROID mit einem Franka-Roboterarm.
Wer sich das zugehörige Demovideo genauer ansieht, erkennt allerdings: Der Franka-Arm aus dem DROID-Datensatz öffnet eine Schublade der Fritteuse und legt eine Flasche hinein. Das ist strukturell sehr nahe an der Süßkartoffel-Aufgabe, die π0.7 angeblich durch Neukombination bekannter Fähigkeiten löst. PI bezeichnet die Episoden als "ganz anders" als das, was der mobile Roboter im Experiment tut, und deutet das Ergebnis als Beleg für die These, dass das Modell Fähigkeiten neu verknüpft, so wie Sprachmodelle Textteile aus dem Internet neu kombinieren.
Video aus dem DROID-Datensatz.
Das trägt eine aus der Welt der Sprachmodelle bekannte Debatte in die Robotik: Die Frage, ob ein Modell eine neue Aufgabe wirklich durch Generalisierung löst oder ob es sich im Grunde an sehr ähnliche Trainingsdaten erinnert. Bei Sprachmodellen wird das unter dem Stichwort Daten-Kontamination seit Jahren diskutiert, wenn Testaufgaben so oder sehr ähnlich auch im Trainingsmaterial vorkommen.
PI räumt im Bericht selbst ein, dass bei der schieren Größe und Vielfalt des Datensatzes kaum mehr sicher zu klären sei, welche Aufgaben wirklich neu sind. Das Team argumentiert aber, dass genau dieses Neu-Verknüpfen bekannter Bausteine abber die Essenz "kompositioneller Generalisierung" sei. Praktisch spiele es keine Rolle, ob eine Fähigkeit neu erlernt oder aus ähnlichen Situationen übertragen werde.
Sprachmodell-Phänomene erreichen die Robotik
π0.7 deutet darauf hin, dass Robotermodelle eine Größe erreichen, bei der ähnliche Effekte sichtbar werden wie bei großen Sprachmodellen: Die Art des Prompts gewinnt erheblich an Bedeutung, die Leistung hängt stark vom mitgegebenen Kontext ab, und die Unterscheidung zwischen "echter" Generalisierung, Neukombination oder das Abrufen ähnlicher Beispiele wird zum zentralen Bewertungsproblem.
Ergänzende Tests im Bericht zeigen außerdem, wie wichtig die Metadaten für das Skalieren sind. Ohne Qualitätsangaben verschlechtert sich das Modell, wenn mehr, aber schlechtere Daten hinzukommen. Mit Metadaten profitiert es weiter von zusätzlichen Daten, auch wenn deren Durchschnittsqualität sinkt.
Nicht angeschnitten wird in der Arbeit das Thema von Reasoning-Modellen. PI deutet am Ende nur an, steuerbare Modelle wie π0.7 könnten künftig komplexere Aufgaben lösen, indem sie mögliche Lösungswege vorab "durchdenken". Einen solchen Schritt vollzieht das aktuelle Modell aber noch nicht selbst.



