KI-Modelle geben oft richtige Antworten aus den falschen Quellen

1 week ago 8

Antwort richtig, Quelle falsch: Ein neuer Benchmark legt offen, dass führende KI-Modelle bei Dokumentenanalysen routinemäßig auf Textstellen verweisen, die ihre Aussage gar nicht stützen.

Wenn ein Sprachmodell eine Frage zu einem PDF korrekt beantwortet, heißt das nicht, dass es die Antwort auch dort gefunden hat, wo es behauptet. Diese Diskrepanz zwischen richtiger Aussage und korrektem Quellenbeleg machen Forschende der Peking University und des Shanghai Artificial Intelligence Laboratory mit einem neuen Benchmark namens CiteVQA sichtbar. Sie nennen das Phänomen "Attribution Hallucination".

Schaubild des CiteVQA-Benchmarks mit Beispielfrage zu einer PDF, zwei Bewertungszeilen für SAA Score 0 und SAA Score 1 sowie einem Balkendiagramm, das Antwortgenauigkeit und Strict Attributed Accuracy für fünf Modelle gegenüberstellt.

Etablierte Tests zur Dokumentenanalyse wie DocVQA oder MMLongBench-Doc bewerten nur die finale Antwort. Ob ein Modell die Information aus dem Dokument gezogen oder aus seinem Vorwissen geraten hat, bleibt unsichtbar. In Recht, Finanzaudits oder Medizin entscheidet aber gerade die Nachvollziehbarkeit darüber, ob eine KI-Ausgabe überhaupt verwendbar ist, argumentiert das Paper.

Belege auf Element-Ebene statt grober Seitenangaben

CiteVQA zwingt die Modelle, jede Aussage mit einer präzisen Markierung im Dokument zu belegen. Verwiesen werden muss auf den konkreten Absatz, die Tabelle oder die Abbildung. Eine reine Seitenangabe genügt nicht.

Der Datensatz umfasst 1.897 Fragen zu 711 PDFs aus sieben Fachbereichen, verteilt auf 451 englische und 260 chinesische PDFs. Mit durchschnittlich 40,6 Seiten pro Dokument liegen die Texte deutlich über dem Umfang vieler Benchmarks.

Statt aufwendiger Handarbeit setzt das Team auf eine automatisierte Pipeline. Sie zerlegt Dokumente in einzelne Elemente, lässt Modelle wie Gemini-3.0-Flash die zusammengehörige Beweiskette identifizieren und prüft anschließend, welche Belege wirklich notwendig sind. Dazu wird jeder einzelne Beleg testweise entfernt. Verliert das Modell danach die Fähigkeit, die Frage zu beantworten, gilt der Beleg als unverzichtbar.

Vierstufige automatisierte Pipeline von CiteVQA mit den Schritten Multi-Doc-Verknüpfung, Evidence-Package-Extraktion, QA-Konstruktion und Quality Control inklusive Evidence-Ablation.

Eine Antwort zählt nur, wenn der Beleg stimmt

Die zentrale Kennzahl heißt Strict Attributed Accuracy. Sie vergibt Punkte ausschließlich, wenn die Aussage stimmt und das Modell die korrekte Stelle im Dokument markiert. An diesem Maßstab müssen sich 20 aktuelle Modelle messen.

Selbst das stärkste getestete System, Gemini-3.1-Pro-Preview, erreicht nur 76 von 100 möglichen Punkten. GPT-5.4 weiß häufig die richtige Antwort, scheitert aber oft am Nachweis: Für die reine Antwortqualität erhält das Modell 87,1 von 100 Punkten, mit korrekter Quellenangabe bleiben davon nur 59 Punkte.

Bei Open-Source-Modellen klafft die Lücke weiter auf. Qwen3-VL-235B-A22B als stärkstes frei verfügbares System kommt auf 22,5 Punkte. Kleinere offene Modelle landen meist unter 10 Punkten und sind damit aus Sicht der Forschenden für regulierte Branchen "extrem riskant". Die offenen Modelle bleiben deutlich hinter den proprietären zurück.

Viele Modelle finden nicht einmal die richtige Seite

Eine genauere Auswertung verschiebt das Problem nach vorn in der Verarbeitungskette. Viele Modelle scheitern daran, überhaupt erst die richtige Seite anzusteuern. Die Gemini-3-Reihe trifft sie in mehr als 87 Prozent der Fälle, Qwen3-VL-235B-A22B schafft knapp 58 Prozent.

Mit der Komplexität der Aufgabe bricht die Belegtreue weiter ein. Fragen zu einem einzelnen Dokument funktionieren noch vergleichsweise solide. Sobald Informationen aus mehreren Dokumenten kombiniert werden müssen, sinkt der Recall bei Gemini-3.1-Pro-Preview von rund 69 auf 55 Prozent.

Netzdiagramm der SAA-Werte von fünf Modellen über sieben Dokumenttypen, Spitzenwerte bei Academic Tech mit 85,0 Punkten und niedrigster Wert bei Publishing & Media mit 63,3 Punkten.

Inhaltlich zeichnen sich klare Muster ab: Rechenaufgaben gelingen vergleichsweise zuverlässig, weil die Logik klare Belege erzwingt. Schwierig wird es, wenn ein Modell ein Dokumentelement zunächst anhand visueller Merkmale wie Farbe, Position oder Überschrift erkennen und dann dessen Inhalt auswerten muss. Akademische Texte mit standardisiertem Aufbau schneiden am besten ab, Zeitungen und Magazine mit komplexen Layouts deckeln selbst die stärksten Modelle bei rund 63 Punkten.

Lokalisierung als heimlicher Engpass

In einer Ablationsstudie schränkten die Forschenden den Suchraum künstlich ein und reichten den Modellen nur die relevanten Seiten oder das korrekte Dokument an. Die Leistung stieg deutlich, bei Qwen3-VL-8B um mehr als 13 Punkte.

Daraus leitet das Team eine Hypothese ab: Wer weiß, wo er suchen muss, antwortet auch besser. Eine präzise Quellenangabe wäre damit nicht nur ein Transparenz-Feature, sondern eine Voraussetzung für höhere Antwortqualität. Das Ergebnis spricht auch für die Bedeutung von Context Engineering (Webinar bei KI Pro), bei dem man dem KI-Modell nur die Informationen gibt, die für die Bearbeitung einer Aufgabe benötigt werden.

Liniendiagramm mit Belegqualität auf der x-Achse und Antwortgenauigkeit auf der y-Achse für fünf Modelle, die Genauigkeit steigt tendenziell mit besserer Belegqualität.

Code und weitere Details haben die Forschenden auf GitHub veröffentlicht, der Datensatz steht auf Hugging Face zum Download bereit.

Bereits 2024 zeigte ein anderer Benchmark aus demselben Haus, dem Shanghai AI Laboratory, dass Sprachmodelle große Dokumente generell nicht zuverlässig verarbeiten. Der zweisprachige NeedleBench prüft, wie gut Modelle relevante Informationen in langen englischen und chinesischen Texten finden – mit ähnlich ernüchternden Ergebnissen wie nun CiteVQA.

Auch Google Deepmind verfolgt mit FACTS Grounding einen verwandten Ansatz und misst, ob Antworten ausschließlich aus dem bereitgestellten Dokument stammen oder das Modell zusätzliches Vorwissen einschmuggelt. Selbst Gemini 3 Pro und GPT-5.1 erreichen dort keine annähernd verlässlichen Werte.

Warum Modelle überhaupt raten, statt Unsicherheit einzuräumen, hat OpenAI zuletzt selbst thematisiert. In einer Analyse bezeichnete das Unternehmen Halluzinationen als systemisches Anreizproblem. Training und Evaluation belohnen selbstbewusste Antworten, während Zurückhaltung bestraft wird. Genau dieser Mechanismus dürfte auch der "Attribution Hallucination" zugrunde liegen, die CiteVQA nun bei der Quellenangabe sichtbar macht.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article