Nvidia hat auf der GTC Taipei eine Reihe von Modellen für Roboter, autonome Fahrzeuge und Videosysteme vorgestellt. Im Zentrum stehen das neue Weltmodell Cosmos 3, ein deutlich vergrößertes Fahrmodell namens Alpamayo 2 Super sowie eine offene Referenzplattform für humanoide Roboter.
Cosmos 3 ist Nvidias nächste Version seines offenen "Omnimodells", das Text, Bilder, Videos, Umgebungston und Aktionsdaten in einem System verarbeitet. Entwicklerinnen und Entwickler von Robotern, autonomen Fahrzeugen und Videoüberwachungssystemen sollen damit synthetische Trainingsdaten erzeugen, Szenen interpretieren und zukünftige Weltzustände vorhersagen können, ohne diese Situationen mühsam in der Realität nachstellen zu müssen.
Konkret nennt Nvidia drei Einsatzfelder: Als Vision-Language-Modell analysiert Cosmos 3 Videos, etwa um Verkehrsanomalien in Smart Cities zu erkennen, wie es der Partner Linker Vision einsetzt.
Als Weltmodell erzeugt es photorealistische Videosequenzen seltener Situationen, beispielsweise Beinahe-Unfälle oder ungewöhnliche Objektkonstellationen im Lager.
Und als Grundlage für sogenannte World-Action-Modelle liefert es numerische Bewegungsdaten wie Gelenkwinkel oder Greiferpositionen, mit denen Roboter Aufgaben wie Aufnehmen und Ablegen lernen, etwa beim Industriepartner Agile Robots.
Technisch setzt das Modell auf eine Mixture-of-Transformers-Architektur: Ein Reasoning-Transformer analysiert eine Szene, ein zweiter Generation-Transformer erzeugt daraus Videos, Beschreibungen oder Bewegungsbahnen. Trainiert wurde es auf Milliarden Beispielen aus Text, Bild, Video, Audio und Aktionsdaten. Nvidia bietet drei Varianten an: Cosmos 3 Super bietet die aktuell beste Qualität, Nano schnelle Inferenz und das angekündigte Edge-Modell für Echtzeitbetrieb auf eingebetteten Systemen. Die Modelle stehen unter der OpenMDW-1.1-Lizenz auf Hugging Face und GitHub bereit.
Begleitet wird die Veröffentlichung von der "Cosmos Coalition" mit Partnern wie Black Forest Labs, Runway, LTX, Generalist, Agile Robots und Skild AI. Praktisch handelt es sich um eine Allianz, die Nvidias Trainingsinfrastruktur DGX Cloud nutzt und im Gegenzug Modelle und Daten beisteuert.
Alpamayo 2 Super als Lehrermodell für Robotaxis
Die Alpamayo-Familie ist Nvidias offene Modellreihe für autonomes Fahren auf Level 4, also Robotaxis, die in einem definierten Gebiet ohne menschlichen Fahrer auskommen sollen. Die Modelle nehmen Kamerabilder entgegen, leiten daraus eine Fahrentscheidung ab und geben eine konkrete Fahrweg aus. Bisher gab es die Varianten Alpamayo 1 Nano und 1.5 Nano mit jeweils zehn Milliarden Parametern.
Alpamayo 2 Super löst diese Generation nach oben hin ab und kommt auf 32 Milliarden Parameter. Der Sprung soll vor allem das räumliche Verständnis und die Bewältigung seltener Situationen verbessern. Neu ist die Ausgabe sogenannter Meta-Aktionen wie "Spurwechsel", "Anhalten" oder "Vorfahrt gewähren", die das Modell zusätzlich zur Trajektorie an einen nachgelagerten Planer liefert. Die Wahrnehmung erstreckt sich zudem nun über das gesamte Fahrzeug statt nur über die Frontkameras. Jede Entscheidung wird über eine "Chain-of-Causation" begründet, also eine textuelle Begründungskette, die laut Nvidia für Sicherheitsnachweise und behördliche Prüfungen gedacht ist. Damit verlagert sich die aus der Alignment-Debatte bekannte Frage, wie zuverlässig solche Reasoning-Traces tatsächlich abbilden, was im Netzwerk vorgeht, in die Diskussion um Fahrsicherheit.
Das große Modell ist nach Nvidia-Angaben dabei als Lehrermodell gedacht. Hersteller sollen es nutzen, um daraus kompaktere Modelle zu destillieren, die anschließend auf dem fahrzeugtauglichen Drive-AGX-Thor-Chip laufen. Begleitend veröffentlicht Nvidia AlpaGym, ein Open-Source-Framework für geschlossenes Reinforcement Learning in Simulation, sowie OmniDreams, ein generatives Modell für seltene Verkehrsszenarien. Belastbare externe Vergleichszahlen, etwa gegen die Stacks von Waymo oder Tesla, liefert Nvidia nicht. Code und Gewichte sollen im Sommer auf GitHub und Hugging Face erscheinen.
Offener Humanoid auf Basis eines Unitree-Roboters
Mit dem Isaac GR00T Reference Humanoid Robot veröffentlicht Nvidia außerdem im Bereich der humanoiden Robotik eine Referenzplattform für die akademische Forschung. Der knapp 1,80 Meter große Roboter basiert auf dem Chassis Unitree H2 Plus, wird mit taktilen Fünf-Finger-Händen von Sharpa kombiniert und nutzt als Rechenkern den Jetson AGX Thor T5000 mit 2.070 FP4-Teraflops. Insgesamt verfügt das System über 75 Freiheitsgrade. Auf der Softwareseite kommt der Isaac-GR00T-Stack zum Einsatz, der Teleoperation, Simulation in Isaac Sim, Foundation-Modelle und ROS-Middleware umfasst.
Nvidias Referenzdesign setzt auf Unitree. | Bild: NvidiaNvidia verkauft den Roboter nicht selbst, sondern verweist auf Unitree, das die Hardware Ende 2026 anbieten soll. Forschungspartner sind unter anderem Ai2, die ETH Zürich, das Stanford Robotics Center und das UC San Diego ARC Lab. Praktisch versucht Nvidia damit, ein Hardware-Software-Bündel zu standardisieren, das die Abhängigkeit der Robotikforschung von Jetson-Chips und Isaac-Tooling vertieft.



