Neuer Benchmark prüft KI-Videogeneratoren wie Physiklehrer – und gibt schlechte Noten

3 weeks ago 11

Moderne Videogeneratoren wie Sora 2, Seedance 2.0 oder Veo 3.1 produzieren immer überzeugendere Clips. Eine neue Benchmark der Tsinghua-Universität bestätigt jedoch erneut, dass visuelle Qualität wenig über das tatsächliche Verständnis der dargestellten Welt aussagt.

Mit WorldReasonBench hat das Team einen Test vorgestellt, der Videogeneratoren nicht primär an Bildqualität misst, sondern daran, wie plausibel sie eine begonnene Szene fortschreiben. Bekommt ein Modell ein Ausgangsbild und einen Prompt, soll es ein Video erzeugen, das physikalisch, sozial, logisch und informationell konsistent bleibt.

Ein einfaches Beispiel zeigt das Problem. Erhält ein Generator das Bild eines Apfels am Ast mit dem Prompt, ihn fallen zu lassen, kann das Resultat technisch beeindrucken, mit glatter Bewegung, realistischen Texturen und schönem Licht, und trotzdem als Weltmodell scheitern. Etwa dann, wenn der Apfel nach oben beschleunigt, in der Luft zerplatzt oder eine gerade statt einer gebogenen Bahn beschreibt. Klassische Qualitätsmetriken belohnen solche Videos trotzdem für ihren Realismus.

Vier farbig getrennte Quadranten zeigen die 22 Aufgabenkategorien von WorldReasonBench mit Beispielbildern und Prompts; die Dimensionen World Knowledge, Human Centric, Logic Reasoning und Information-Based gruppieren Aufgaben wie fallende Dominosteine, Autowäsche, Logikrätsel und Diagramminterpretation.

Vier Dimensionen prüfen das Weltverständnis

WorldReasonBench umfasst gut 400 Testfälle in vier Bereichen. Geprüft werden Weltwissen wie Physik, Wetter und kulturelle Konventionen, menschzentrierte Szenen mit Objekthandhabung und sozialer Interaktion, logisches Schlussfolgern in Mathematik, Geometrie und wissenschaftlichen Experimenten sowie informationsbasiertes Schlussfolgern beim Ablesen von Daten und Diagrammen.

innen und einer Re-Annotation bei hoher Uneinigkeit.

Die Bewertung läuft zweistufig. Ein prozessbewusstes Verfahren prüft mittels strukturierter Fragen, ob das Video den korrekten Endzustand auf einem plausiblen Weg erreicht. Eine zweite Stufe bewertet zusätzlich Reasoning-Qualität, zeitliche Konsistenz und visuelle Ästhetik. Parallel veröffentlicht das Team WorldRewardBench, einen Datensatz mit rund 6000 Videovergleichen, die geschulte Annotatoren nach Qualität sortiert haben.

Kommerzielle Modelle führen, alle scheitern bei Logik

Getestet wurden fünf kommerzielle Systeme (Sora 2, Kling, Wan 2.6, Seedance 2.0, Veo 3.1-Fast) und sechs Open-Source-Modelle (LTX 2.3, Wan 2.2-14B, UniVideo, HunyuanVideo 1.5, Cosmos-Predict 2.5, LongCat-Video). Laut der Studie liegen die kommerziellen Generatoren beim zentralen Reasoning-Wert rund doppelt so hoch wie die freien Modelle, ohne statistische Überschneidung der beiden Gruppen.

Drei Fallbeispiele untereinander; Veo-3.1 setzt eine doppelte Dominoreihe physikalisch unplausibel um, Seedance 2.0 animiert bei einem Greifautomaten den falschen Mechanismus und verfehlt bei einem Schaltbild die erwartete Drehbewegung des Kabels, rote Markierungen heben die jeweiligen Fehler hervor.

Seedance 2.0 von ByteDance führt das Feld an und landet in fast neun von zehn statistischen Wiederholungsläufen auf Platz eins. Veo 3.1-Fast dominiert beim Weltwissen, Sora 2 bei menschzentrierten Szenen. Auch in der menschlichen Bewertung schiebt sich Seedance 2.0 vor Veo 3.1-Fast, Kling und Wan 2.6.

Wichtiger als das Ranking ist jedoch ein gemeinsamer Engpass: Logisches Schlussfolgern bleibt für alle Modelle die mit Abstand schwerste Disziplin. Selbst die besten kommerziellen Systeme fallen hier weit unter ihr Gesamtniveau, nahezu alle Open-Source-Modelle scheitern weitgehend. Informationsbasiertes Schlussfolgern bildet die zweitgrößte Hürde, vor allem dort, wo physikalisch fundierte Übergänge oder die exakte Erhaltung von Text und Zahlen gefragt sind.

Tabelle mit den Hauptergebnissen über fünf Closed-Source- und sechs Open-Source-Videomodelle entlang von vier Reasoning-Dimensionen und einem Gesamtwert; Seedance2.0 führt mit 39,8 Score_PR insgesamt, Veo3.1-Fast erzielt mit 55,0 in World Knowledge den besten Einzelwert, während kein Open-Source-Modell über 17,9 Overall hinauskommt.

Eine in der Studie eingeführte Kennzahl misst, wie viel der korrekten Antworten auf dynamische, also prozesshafte Phasen entfällt. Bei kommerziellen Modellen ist dieser Anteil deutlich höher als bei Open-Source-Systemen. Das Defizit der freien Modelle liegt also bei Kausalität und Prozessverständnis, nicht am statischen Erscheinungsbild. Werden Modelle mit ausführlicheren Prompts versorgt, die den Übergang explizit beschreiben, profitieren Open-Source-Generatoren überproportional stark. Sie hängen damit stärker am Prompt als die kommerzielle Konkurrenz.

Automatische Bewertung trifft menschliches Urteil

Zur Validierung verglich das Team die eigenen Metriken mit der Rangordnung, die sich aus den menschlichen Videovergleichen ergibt. Die zentrale Kennzahl korreliert sehr stark mit dem menschlichen Urteil und schlägt damit deutlich klassische KI-Richter, die zwei Videos paarweise vergleichen.

Web-Oberfläche zur Annotation eines Logikrätsels; oben Eingabebild und Prompt, darunter ein Raster aus acht generierten Videos, die einzeln auf Reasoning Accuracy, Temporal Consistency und Visual Quality auf einer Skala von 1 bis 5 bewertet werden.

Das Fazit reiht sich in eine wachsende Zahl ähnlicher Befunde ein. Trotz spürbarer Fortschritte bei Auflösung, Länge und Kontrollierbarkeit bleibt der Sprung vom Pixelgenerator zum belastbaren Weltmodell aus.

Fortschritte in diese Richtung dürften weniger von visueller Politur abhängen als vom besseren Verständnis für Mechanismen und der Fähigkeit, Informationen über die Zeit hinweg zu erhalten. Benchmark, Daten und Code sollen auf GitHub veröffentlicht werden.

Ein Benchmark eines internationalen Forscherteams kam zuletzt zu einem ähnlichen Schluss: Sora 2 und Veo 3.1 bleiben bei Schlussfolgerungsaufgaben weit hinter menschlicher Leistung zurück. Ob Videogeneratoren überhaupt als "Weltmodelle" gelten können, ist in der KI-Forschung ohnehin umstritten. Meta-KI-Chefforscher Yann LeCun hält Systeme wie Sora für eine Sackgasse, Deepmind-CEO Demis Hassabis sieht in Googles Veo dagegen einen Schritt Richtung Weltmodell. Ein Definitionsvorschlag namens OpenWorldLib schließt reine Text-zu-Video-Modelle ausdrücklich aus dieser Kategorie aus.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren