Nvidia-Forscher stellen Lyra 2.0 vor, ein System, das aus einem einzelnen Foto große, zusammenhängende 3D-Umgebungen generiert. Die erzeugten Szenen lassen sich in Echtzeit erkunden und direkt in Robotersimulationen einsetzen.
Bestehende KI-Modelle zur 3D-Szenengenerierung stoßen bei langen Kamerafahrten an ihre Grenzen: Je weiter sich die virtuelle Kamera vom Ausgangspunkt entfernt, desto stärker verzerren sich Farben und Strukturen. Kehrt die Kamera zu einem bereits gesehenen Ort zurück, erfindet das Modell die Umgebung oft komplett neu. NVIDIA-Forscher wollen dieses Problem mit Lyra 2.0 lösen.
Das System erzeugt aus einem einzigen Foto kameragesteuerte Videos, die einen virtuellen Rundgang durch eine Szene simulieren. Diese Videos werden anschließend automatisch in dreidimensionale Darstellungen umgewandelt, die sich in Echtzeit betrachten und in Simulationsumgebungen nutzen lassen. Laut dem Forschungspapier können die generierten Szenen eine Ausdehnung von rund 90 Metern erreichen.
Zwei Probleme, zwei Lösungen
Bisherige Videomodelle scheitern laut den Forschern an zwei grundlegenden Schwächen: Erstens vergisst das Modell bereits gesehene Bereiche, sobald diese aus dem Blickfeld verschwinden. Zweitens sammeln sich bei der schrittweisen Videoerzeugung kleine Fehler an, die sich über die Zeit zu deutlichen Verzerrungen aufschaukeln.
Gegen das Vergessen speichert Lyra 2.0 für jedes erzeugte Bild die zugehörige 3D-Geometrie. Steuert die Kamera auf einen bereits besuchten Bereich zu, ruft das System die passenden früheren Aufnahmen ab und nutzt deren räumliche Informationen als Orientierung. Die eigentliche Bilderzeugung übernimmt weiterhin das Videomodell, wodurch Fehler in der gespeicherten Geometrie nicht direkt in die neuen Bilder einfließen.
Gegen das Abdriften konfrontieren die Forscher das Modell während des Trainings gezielt mit seinen eigenen fehlerhaften Ausgaben. So lernt es, Qualitätsverluste zu erkennen und zu korrigieren, statt sie weiterzugeben.
Besser als sechs Konkurrenten
In Vergleichstests auf zwei Benchmark-Datensätzen übertrifft Lyra 2.0 laut Nvidia sechs andere Methoden, darunter GEN3C, Yume-1.5 und CaM, bei fast allen gemessenen Kriterien wie Bildqualität, Stilkonsistenz und Kamerasteuerung. Eine beschleunigte Variante des Modells erzeugt Videos rund 13-mal schneller bei vergleichbarer Qualität.
Die erzeugten 3D-Szenen lassen sich über eine interaktive Oberfläche schrittweise erkunden und als Meshes in Physik-Engines wie Nvidia Isaac Sim exportieren. Damit könnten Roboter in vollständig generierten Umgebungen trainiert werden, ohne reale 3D-Daten erfassen zu müssen, so das Unternehmen. Bislang unterstützt Lyra 2.0 allerdings nur statische Szenen.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.



