Neuer KI-Benchmark RealChart2Code: Selbst Top-Modelle scheitern an komplexen Diagrammen

2 days ago 3

Der Benchmark RealChart2Code testet 14 führende KI-Modelle bei der Generierung komplexer Visualisierungen aus realen Datensätzen. Selbst die besten proprietären Modelle verlieren dabei fast die Hälfte ihrer Leistung im Vergleich zu einfacheren Tests.

KI-Sprachmodelle können einfache Diagramme aus Bildern nachbauen. Doch bei komplexen, zusammengesetzten Visualisierungen auf Basis realer Daten stoßen selbst die leistungsfähigsten Modelle an ihre Grenzen. Das zeigt der neue Benchmark RealChart2Code, den ein Forscherteam mehrerer chinesischer Universitäten in einem Paper vorgestellt hat.

Links zeigt eine Person auf ein komplexes mehrteiliges Diagramm und will es per KI nachbauen. In der Mitte verarbeitet ein Chatbot die Anfrage. Rechts betrachtet die Person enttäuscht das fehlerhafte Ergebnis mit falscher Struktur.

Der Benchmark umfasst mehr als 2.800 Testinstanzen, die auf authentischen Datensätzen von Kaggle basieren. Im Gegensatz zu bisherigen Benchmarks wie Plot2Code oder ChartMimic, die überwiegend auf synthetische Daten und einfache Einzeldiagramme setzen, fordert RealChart2Code die Modelle mit komplexen zusammengesetzten Layouts, 50 verschiedenen Diagrammtypen und großen Rohdateien heraus. Insgesamt flossen laut den Forschern 1.036 kuratierte Datensätze mit rund 860 Millionen Datenzeilen in die Konstruktion ein.

Drei Aufgaben testen unterschiedliche Fähigkeiten

RealChart2Code evaluiert Modelle in drei Aufgabenbereichen. Bei der "Chart Replication" muss das Modell allein aus einem Bild den zugehörigen Visualisierungscode erzeugen. Die "Chart Reproduction" stellt zusätzlich die Rohdaten bereit und prüft, ob das Modell den korrekten Code auf Basis realer Datenquellen generieren kann. Die dritte Aufgabe, "Chart Refinement", simuliert einen realen Entwicklungsworkflow: Das Modell erhält fehlerhaften Code und muss diesen in einem mehrstufigen Dialog auf Basis von Nutzeranweisungen korrigieren.

Schematische Darstellung der drei Aufgabentypen des Benchmarks. Task 1 zeigt den Weg von einem Referenzbild über ein Sprachmodell zum generierten Code und Diagramm. Task 2 ergänzt Rohdaten und Metadaten als Eingabe. Task 3 simuliert einen mehrstufigen Korrekturprozess mit Fehleranweisungen.

Laut dem Paper ist RealChart2Code der erste Benchmark, der systematisch die Codegenerierung aus großen Rohdaten und die iterative Verfeinerung im Gesprächsformat evaluiert.

Drei Radardiagramme für die Aufgaben Replication, Reproduction und Refinement. Jedes zeigt die Scores von fünf Modellen über Kriterien wie Diagrammtyp, Layout, Text, Achsen, Farbe, Stil, Vollständigkeit und Datentreue. Claude-4.5-Opus und Gemini-3-Pro-Preview haben die größten Flächen, Qwen3-VL-235B die kleinste.

Proprietäre Modelle führen, doch auch sie verlieren massiv an Leistung

Die Forscher testeten 14 Modelle, darunter fünf proprietäre und neun Open-Weight-Modelle. Unter den proprietären Modellen erreicht Claude 4.5 Opus von Anthropic den höchsten Durchschnittsscore von 8.2 (auf einer Skala, die acht visuelle Genauigkeitskriterien umfasst). Googles Gemini 3 Pro Preview folgt mit 8.1 und erzielt beim fundamentalen Chart-Replication-Task sogar den Bestwert von 9.0. OpenAIs GPT-5.1 landet mit 5.4 deutlich dahinter.

Scatterplot mit der Leistung auf bestehenden Benchmarks auf der x-Achse und der Leistung auf RealChart2Code auf der y-Achse. Eine gestrichelte Diagonale markiert gleiche Leistung. Alle Modelle liegen deutlich darunter. Proprietäre Modelle wie Claude 4.5 Opus erreichen noch rund 50 Prozent, Open-Weight-Modelle wie Qwen3-VL-235B fallen auf unter 25 Prozent.

Die Open-Weight-Modelle schneiden erheblich schlechter ab. Die besten unter ihnen, Qwen3-VL-235B und Intern-VL-3.5-241B, kommen auf Scores von 3.6 beziehungsweise 3.4. Das ist weniger als die Hälfte der führenden proprietären Modelle. Eins der kleinsten getesteten Modelle, DeepSeek-VL-7B, erreicht bei der Chart Replication nur eine Pass Rate von 9.7 Prozent, was bedeutet, dass der generierte Code in über 90 Prozent der Fälle nicht einmal ausführbar ist.

Der entscheidende Befund des Papers ist die sogenannte "Complexity Gap": Modelle, die auf einfacheren Benchmarks exzellente Ergebnisse erzielen, brechen auf RealChart2Code dramatisch ein. Gemini 3 Pro Preview etwa erreicht auf ChartMimic normalisierte Scores von über 96 Prozent, fällt auf RealChart2Code jedoch auf rund 50 Prozent. Bei Open-Weight-Modellen ist der Einbruch noch drastischer. Qwen3-VL-235B kommt auf ChartMimic auf etwa 85 Prozent, auf dem neuen Benchmark jedoch auf unter 25 Prozent.

Open-Weight-Modelle halluzinieren Bibliotheken, proprietäre verwechseln Daten

Die Fehleranalyse der Forscher zeigt grundlegend unterschiedliche Fehlermuster bei den beiden Modellkategorien. Open-Weight-Modelle wie Qwen3-VL und InternVL scheitern oft schon bei der Codeausführung. Sie erfinden Bibliotheken, die es gar nicht gibt, oder rufen ungültige Funktionen auf.

Qwen3-VL-235B etwa generiert in rund 20 Prozent der Fälle ungültige API-Aufrufe wie einen nicht existierenden Matplotlib-Stilparameter. Wenn der Code dennoch läuft, treten häufig Layout-Fehler auf, etwa überlappende Subplots oder falsche Rasterstrukturen.

Vergleich zwischen einem komplexen neunteiligen Referenzdiagramm mit medizinischen Daten und der vom Modell generierten Version. Das Original zeigt sauber angeordnete Subplots. In der generierten Version überlappen sich Beschriftungen und Diagrammelemente, besonders in der unteren Reihe.

Proprietäre Modelle wie Claude 4.5 und GPT-5.1 produzieren dagegen kaum Syntaxfehler. Ihre Schwächen liegen bei der Datenzuordnung: Die visuelle Struktur stimmt, aber einzelne Datenserien landen auf falschen Achsen oder visuelle Attribute entsprechen nicht den Vorgaben.

Ein weiteres Problem betrifft die iterative Verfeinerung. Die Forscher beschreiben ein Muster, das sie "Regressive Editing" nennen: Wenn Modelle einen bestimmten Fehler korrigieren sollen, führen sie dabei häufig neue Fehler in zuvor korrekte Codeteile ein. Selbst die besten Modelle haben laut dem Paper Schwierigkeiten, lokale Änderungen mit der globalen Konsistenz des Codes in Einklang zu bringen.

Automatisierte Bewertung korreliert stark mit menschlichem Urteil

Für die Bewertung setzt das Forscherteam ein Multi-Agenten-System ein, das die generierten Visualisierungen auf einer dreistufigen Skala über acht Kriterien bewertet, darunter Diagrammtyp, räumliches Layout, Textelemente, Achsenkonfiguration und Farbschema.

Die Übereinstimmung zwischen den automatisierten Bewertungen und menschlichen Experten liegt laut dem Paper bei einem Cohen's Kappa von 0.83, was eine starke Korrelation darstellt. Die Konsistenz zwischen den Agenten untereinander erreicht einen Fleiss' Kappa von 0.82.

Die Forscher räumen ein, dass der Benchmark derzeit auf Matplotlib als Visualisierungsbibliothek beschränkt ist und die automatisierte Bewertung subtile visuelle Artefakte wie minimale Elementüberlappungen oder präzise Farbnuancen möglicherweise nicht vollständig erfasst. Der Benchmark und der zugehörige Code sind auf GitHub und Hugging Face verfügbar.

Googles Forschungsprojekt PaperBanana zeigt, wie schwer sich KI-Bildgeneratoren mit anspruchsvollen Visualisierungen tun. Fünf spezialisierte KI-Agenten arbeiten dort zusammen und erzeugen aus Textbeschreibungen wissenschaftliche Diagramme. Die inhaltliche Treue der Visualisierungen liegt mit 45,8 Prozent unter dem menschlichen Referenzwert. Menschliche Gutachter bevorzugten die Ergebnisse dennoch in knapp 73 Prozent der Fälle gegenüber einfacher Bildgenerierung. Für statistische Plots setzt PaperBanana ebenfalls auf Matplotlib-Codegenerierung, um die numerische Genauigkeit zu erhöhen.

Read Entire Article