Antwort richtig, Quelle falsch: Ein neuer Benchmark legt offen, dass führende KI-Modelle bei Dokumentenanalysen routinemäßig auf Textstellen verweisen, die ihre Aussage gar nicht stützen.
Wenn ein Sprachmodell eine Frage zu einem PDF korrekt beantwortet, heißt das nicht, dass es die Antwort auch dort gefunden hat, wo es behauptet. Diese Diskrepanz zwischen richtiger Aussage und korrektem Quellenbeleg machen Forschende der Peking University und des Shanghai Artificial Intelligence Laboratory mit einem neuen Benchmark namens CiteVQA sichtbar. Sie nennen das Phänomen "Attribution Hallucination".
CiteVQA bewertet Antwort und Quellenbeleg gemeinsam. Eine korrekte Antwort mit falsch markierter Stelle ergibt SAA Score 0, erst die richtige Markierung zählt als Treffer. | Bild: Ma et al.Etablierte Tests zur Dokumentenanalyse wie DocVQA oder MMLongBench-Doc bewerten nur die finale Antwort. Ob ein Modell die Information aus dem Dokument gezogen oder aus seinem Vorwissen geraten hat, bleibt unsichtbar. In Recht, Finanzaudits oder Medizin entscheidet aber gerade die Nachvollziehbarkeit darüber, ob eine KI-Ausgabe überhaupt verwendbar ist, argumentiert das Paper.
Belege auf Element-Ebene statt grober Seitenangaben
CiteVQA zwingt die Modelle, jede Aussage mit einer präzisen Markierung im Dokument zu belegen. Verwiesen werden muss auf den konkreten Absatz, die Tabelle oder die Abbildung. Eine reine Seitenangabe genügt nicht.
Der Datensatz umfasst 1.897 Fragen zu 711 PDFs aus sieben Fachbereichen, verteilt auf 451 englische und 260 chinesische PDFs. Mit durchschnittlich 40,6 Seiten pro Dokument liegen die Texte deutlich über dem Umfang vieler Benchmarks.
Statt aufwendiger Handarbeit setzt das Team auf eine automatisierte Pipeline. Sie zerlegt Dokumente in einzelne Elemente, lässt Modelle wie Gemini-3.0-Flash die zusammengehörige Beweiskette identifizieren und prüft anschließend, welche Belege wirklich notwendig sind. Dazu wird jeder einzelne Beleg testweise entfernt. Verliert das Modell danach die Fähigkeit, die Frage zu beantworten, gilt der Beleg als unverzichtbar.
Die Datensätze entstehen vollautomatisch. Im letzten Schritt prüft die Pipeline per Ablation, welche Belege wirklich unverzichtbar sind, indem jeder einzeln entfernt wird. | Bild: Ma et al.Eine Antwort zählt nur, wenn der Beleg stimmt
Die zentrale Kennzahl heißt Strict Attributed Accuracy. Sie vergibt Punkte ausschließlich, wenn die Aussage stimmt und das Modell die korrekte Stelle im Dokument markiert. An diesem Maßstab müssen sich 20 aktuelle Modelle messen.
Selbst das stärkste getestete System, Gemini-3.1-Pro-Preview, erreicht nur 76 von 100 möglichen Punkten. GPT-5.4 weiß häufig die richtige Antwort, scheitert aber oft am Nachweis: Für die reine Antwortqualität erhält das Modell 87,1 von 100 Punkten, mit korrekter Quellenangabe bleiben davon nur 59 Punkte.
Bei Open-Source-Modellen klafft die Lücke weiter auf. Qwen3-VL-235B-A22B als stärkstes frei verfügbares System kommt auf 22,5 Punkte. Kleinere offene Modelle landen meist unter 10 Punkten und sind damit aus Sicht der Forschenden für regulierte Branchen "extrem riskant". Die offenen Modelle bleiben deutlich hinter den proprietären zurück.
Viele Modelle finden nicht einmal die richtige Seite
Eine genauere Auswertung verschiebt das Problem nach vorn in der Verarbeitungskette. Viele Modelle scheitern daran, überhaupt erst die richtige Seite anzusteuern. Die Gemini-3-Reihe trifft sie in mehr als 87 Prozent der Fälle, Qwen3-VL-235B-A22B schafft knapp 58 Prozent.
Mit der Komplexität der Aufgabe bricht die Belegtreue weiter ein. Fragen zu einem einzelnen Dokument funktionieren noch vergleichsweise solide. Sobald Informationen aus mehreren Dokumenten kombiniert werden müssen, sinkt der Recall bei Gemini-3.1-Pro-Preview von rund 69 auf 55 Prozent.
Akademische Texte mit standardisiertem Aufbau gelingen am besten, während Zeitungen und Magazine mit komplexem Layout selbst die stärksten Modelle bei rund 63 Punkten stoppen. | Bild: Ma et al.Inhaltlich zeichnen sich klare Muster ab: Rechenaufgaben gelingen vergleichsweise zuverlässig, weil die Logik klare Belege erzwingt. Schwierig wird es, wenn ein Modell ein Dokumentelement zunächst anhand visueller Merkmale wie Farbe, Position oder Überschrift erkennen und dann dessen Inhalt auswerten muss. Akademische Texte mit standardisiertem Aufbau schneiden am besten ab, Zeitungen und Magazine mit komplexen Layouts deckeln selbst die stärksten Modelle bei rund 63 Punkten.
Lokalisierung als heimlicher Engpass
In einer Ablationsstudie schränkten die Forschenden den Suchraum künstlich ein und reichten den Modellen nur die relevanten Seiten oder das korrekte Dokument an. Die Leistung stieg deutlich, bei Qwen3-VL-8B um mehr als 13 Punkte.
Daraus leitet das Team eine Hypothese ab: Wer weiß, wo er suchen muss, antwortet auch besser. Eine präzise Quellenangabe wäre damit nicht nur ein Transparenz-Feature, sondern eine Voraussetzung für höhere Antwortqualität. Das Ergebnis spricht auch für die Bedeutung von Context Engineering (Webinar bei KI Pro), bei dem man dem KI-Modell nur die Informationen gibt, die für die Bearbeitung einer Aufgabe benötigt werden.
Je präziser ein Modell die Quelle lokalisiert, desto höher fällt auch seine Antwortgenauigkeit aus. Saubere Quellenangabe ist damit mehr als nur ein Transparenzmerkmal. | Bild: Ma et al.Code und weitere Details haben die Forschenden auf GitHub veröffentlicht, der Datensatz steht auf Hugging Face zum Download bereit.
Bereits 2024 zeigte ein anderer Benchmark aus demselben Haus, dem Shanghai AI Laboratory, dass Sprachmodelle große Dokumente generell nicht zuverlässig verarbeiten. Der zweisprachige NeedleBench prüft, wie gut Modelle relevante Informationen in langen englischen und chinesischen Texten finden – mit ähnlich ernüchternden Ergebnissen wie nun CiteVQA.
Auch Google Deepmind verfolgt mit FACTS Grounding einen verwandten Ansatz und misst, ob Antworten ausschließlich aus dem bereitgestellten Dokument stammen oder das Modell zusätzliches Vorwissen einschmuggelt. Selbst Gemini 3 Pro und GPT-5.1 erreichen dort keine annähernd verlässlichen Werte.
Warum Modelle überhaupt raten, statt Unsicherheit einzuräumen, hat OpenAI zuletzt selbst thematisiert. In einer Analyse bezeichnete das Unternehmen Halluzinationen als systemisches Anreizproblem. Training und Evaluation belohnen selbstbewusste Antworten, während Zurückhaltung bestraft wird. Genau dieser Mechanismus dürfte auch der "Attribution Hallucination" zugrunde liegen, die CiteVQA nun bei der Quellenangabe sichtbar macht.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.



