Der Benchmark RealChart2Code testet 14 führende KI-Modelle bei der Generierung komplexer Visualisierungen aus realen Datensätzen. Selbst die besten proprietären Modelle verlieren dabei fast die Hälfte ihrer Leistung im Vergleich zu einfacheren Tests.
KI-Sprachmodelle können einfache Diagramme aus Bildern nachbauen. Doch bei komplexen, zusammengesetzten Visualisierungen auf Basis realer Daten stoßen selbst die leistungsfähigsten Modelle an ihre Grenzen. Das zeigt der neue Benchmark RealChart2Code, den ein Forscherteam mehrerer chinesischer Universitäten in einem Paper vorgestellt hat.
Ein KI-Modell soll ein komplexes Diagramm nachbauen, erzeugt aber eine fehlerhafte Struktur. | Bild: Zhang et al.Der Benchmark umfasst mehr als 2.800 Testinstanzen, die auf authentischen Datensätzen von Kaggle basieren. Im Gegensatz zu bisherigen Benchmarks wie Plot2Code oder ChartMimic, die überwiegend auf synthetische Daten und einfache Einzeldiagramme setzen, fordert RealChart2Code die Modelle mit komplexen zusammengesetzten Layouts, 50 verschiedenen Diagrammtypen und großen Rohdateien heraus. Insgesamt flossen laut den Forschern 1.036 kuratierte Datensätze mit rund 860 Millionen Datenzeilen in die Konstruktion ein.
Drei Aufgaben testen unterschiedliche Fähigkeiten
RealChart2Code evaluiert Modelle in drei Aufgabenbereichen. Bei der "Chart Replication" muss das Modell allein aus einem Bild den zugehörigen Visualisierungscode erzeugen. Die "Chart Reproduction" stellt zusätzlich die Rohdaten bereit und prüft, ob das Modell den korrekten Code auf Basis realer Datenquellen generieren kann. Die dritte Aufgabe, "Chart Refinement", simuliert einen realen Entwicklungsworkflow: Das Modell erhält fehlerhaften Code und muss diesen in einem mehrstufigen Dialog auf Basis von Nutzeranweisungen korrigieren.
RealChart2Code testet KI-Modelle in drei Aufgaben: Diagramm aus Bild nachbauen (Replication), Diagramm aus Bild und Rohdaten erzeugen (Reproduction) und fehlerhaften Code im Dialog korrigieren (Refinement). | Bild: Zhang et al.Laut dem Paper ist RealChart2Code der erste Benchmark, der systematisch die Codegenerierung aus großen Rohdaten und die iterative Verfeinerung im Gesprächsformat evaluiert.
Die Radardiagramme zeigen die Einzelbewertungen der besten Modelle über acht Genauigkeitskriterien hinweg. Claude-4.5-Opus und Gemini-3-Pro-Preview dominieren, Open-Weight-Modelle fallen in fast allen Kategorien ab. | Bild: Zhang et al.Proprietäre Modelle führen, doch auch sie verlieren massiv an Leistung
Die Forscher testeten 14 Modelle, darunter fünf proprietäre und neun Open-Weight-Modelle. Unter den proprietären Modellen erreicht Claude 4.5 Opus von Anthropic den höchsten Durchschnittsscore von 8.2 (auf einer Skala, die acht visuelle Genauigkeitskriterien umfasst). Googles Gemini 3 Pro Preview folgt mit 8.1 und erzielt beim fundamentalen Chart-Replication-Task sogar den Bestwert von 9.0. OpenAIs GPT-5.1 landet mit 5.4 deutlich dahinter.
Alle getesteten Modelle liegen weit unter der Diagonale, die gleiche Leistung auf einfachen und komplexen Benchmarks markiert. Besonders Open-Weight-Modelle brechen auf RealChart2Code drastisch ein. | Bild: Zhang et al.Die Open-Weight-Modelle schneiden erheblich schlechter ab. Die besten unter ihnen, Qwen3-VL-235B und Intern-VL-3.5-241B, kommen auf Scores von 3.6 beziehungsweise 3.4. Das ist weniger als die Hälfte der führenden proprietären Modelle. Eins der kleinsten getesteten Modelle, DeepSeek-VL-7B, erreicht bei der Chart Replication nur eine Pass Rate von 9.7 Prozent, was bedeutet, dass der generierte Code in über 90 Prozent der Fälle nicht einmal ausführbar ist.
Der entscheidende Befund des Papers ist die sogenannte "Complexity Gap": Modelle, die auf einfacheren Benchmarks exzellente Ergebnisse erzielen, brechen auf RealChart2Code dramatisch ein. Gemini 3 Pro Preview etwa erreicht auf ChartMimic normalisierte Scores von über 96 Prozent, fällt auf RealChart2Code jedoch auf rund 50 Prozent. Bei Open-Weight-Modellen ist der Einbruch noch drastischer. Qwen3-VL-235B kommt auf ChartMimic auf etwa 85 Prozent, auf dem neuen Benchmark jedoch auf unter 25 Prozent.
Open-Weight-Modelle halluzinieren Bibliotheken, proprietäre verwechseln Daten
Die Fehleranalyse der Forscher zeigt grundlegend unterschiedliche Fehlermuster bei den beiden Modellkategorien. Open-Weight-Modelle wie Qwen3-VL und InternVL scheitern oft schon bei der Codeausführung. Sie erfinden Bibliotheken, die es gar nicht gibt, oder rufen ungültige Funktionen auf.
Qwen3-VL-235B etwa generiert in rund 20 Prozent der Fälle ungültige API-Aufrufe wie einen nicht existierenden Matplotlib-Stilparameter. Wenn der Code dennoch läuft, treten häufig Layout-Fehler auf, etwa überlappende Subplots oder falsche Rasterstrukturen.
Oben das Referenzdiagramm, unten die KI-generierte Version. Das Modell baut die einzelnen Teildiagramme korrekt nach, scheitert aber an der räumlichen Anordnung: Texte und Elemente überlappen sich. | Bild: Zhang et al.Proprietäre Modelle wie Claude 4.5 und GPT-5.1 produzieren dagegen kaum Syntaxfehler. Ihre Schwächen liegen bei der Datenzuordnung: Die visuelle Struktur stimmt, aber einzelne Datenserien landen auf falschen Achsen oder visuelle Attribute entsprechen nicht den Vorgaben.
Ein weiteres Problem betrifft die iterative Verfeinerung. Die Forscher beschreiben ein Muster, das sie "Regressive Editing" nennen: Wenn Modelle einen bestimmten Fehler korrigieren sollen, führen sie dabei häufig neue Fehler in zuvor korrekte Codeteile ein. Selbst die besten Modelle haben laut dem Paper Schwierigkeiten, lokale Änderungen mit der globalen Konsistenz des Codes in Einklang zu bringen.
Automatisierte Bewertung korreliert stark mit menschlichem Urteil
Für die Bewertung setzt das Forscherteam ein Multi-Agenten-System ein, das die generierten Visualisierungen auf einer dreistufigen Skala über acht Kriterien bewertet, darunter Diagrammtyp, räumliches Layout, Textelemente, Achsenkonfiguration und Farbschema.
Die Übereinstimmung zwischen den automatisierten Bewertungen und menschlichen Experten liegt laut dem Paper bei einem Cohen's Kappa von 0.83, was eine starke Korrelation darstellt. Die Konsistenz zwischen den Agenten untereinander erreicht einen Fleiss' Kappa von 0.82.
Die Forscher räumen ein, dass der Benchmark derzeit auf Matplotlib als Visualisierungsbibliothek beschränkt ist und die automatisierte Bewertung subtile visuelle Artefakte wie minimale Elementüberlappungen oder präzise Farbnuancen möglicherweise nicht vollständig erfasst. Der Benchmark und der zugehörige Code sind auf GitHub und Hugging Face verfügbar.
Googles Forschungsprojekt PaperBanana zeigt, wie schwer sich KI-Bildgeneratoren mit anspruchsvollen Visualisierungen tun. Fünf spezialisierte KI-Agenten arbeiten dort zusammen und erzeugen aus Textbeschreibungen wissenschaftliche Diagramme. Die inhaltliche Treue der Visualisierungen liegt mit 45,8 Prozent unter dem menschlichen Referenzwert. Menschliche Gutachter bevorzugten die Ergebnisse dennoch in knapp 73 Prozent der Fälle gegenüber einfacher Bildgenerierung. Für statistische Plots setzt PaperBanana ebenfalls auf Matplotlib-Codegenerierung, um die numerische Genauigkeit zu erhöhen.



