Mathematisch bewiesen: KI-Halluzinationen sind nicht zu verhindern

3 months ago 5
Ein Roboter guckt verträumt ins Leere und daddelt mit Platinen
  1. Mathematisch bewiesen: KI-Halluzinationen sind nicht zu verhindern
  2. „Ich weiß es nicht!“
  3. Auf einer Seite lesen

Neue mathematische Analyse zeigt: KI-Halluzinationen sind unvermeidbar – es sei denn, Systeme sagen öfter "Ich weiß es nicht".

Eine neue Untersuchung von OpenAI diagnostiziert genau, warum ChatGPT und andere große Sprachmodelle (LLMs) halluzinieren. Leider machen die Autoren des Papiers außerdem deutlich, warum das Problem möglicherweise nicht zu beheben ist – zumindest nicht für den Otto Normaluser.

Das Papier liefert die bisher strengste mathematische Erklärung dafür, warum LLMs mit großer Zuversicht falsche Aussagen vortragen. Denn dies ist mathematisch unvermeidlich und nicht einfach ein unglücklicher Nebeneffekt, der sich ausmerzen ließe.

Das Problem lässt sich zwar teilweise durch Fehler in den Daten erklären, mit denen die KIs trainiert werden. Doch anhand einer mathematischen Analyse des Lernverhaltens von KI-Systemen bewiesen die Wissenschaftler, dass es selbst bei perfekten Trainingsdaten bestehen bleibt.

Halluzinationen entstehen zwangsläufig

Denn die Art und Weise, wie Sprachmodelle auf Anfragen reagieren – indem sie Wort für Wort anhand von Wahrscheinlichkeiten vorhersagen – führt naturgemäß zu Fehlern. Die Forschenden zeigen sogar, dass die Gesamtfehlerrate beim Generieren von Sätzen mindestens doppelt so hoch ist wie die Fehlerrate derselben KI bei einer einfachen Ja-Nein-Frage.

Denn die Fehler summieren sich über mehrere Prognosen hinweg auf.

Halluzinationsraten werden im Kern also lediglich begrenzt, wenn KI-Systeme korrekte von inkorrekten Antworten unterscheiden können. Da diese Klassifikation in vielen Wissensbereichen mittels stochastischer Vorhersagen schwierig zu bewerkstelligen ist, werden Halluzinationen unvermeidlich.

Auch die Wiederholungsrate von Trainingsinhalten bedeutend

Es zeigt sich zudem: Je seltener ein Modell mit einer bestimmten Tatsache im Training konfrontiert wird, desto wahrscheinlicher halluziniert es sich etwas zusammen, wenn es danach gefragt wird.

Getestet wurde dies mit Geburtstagen bekannter Persönlichkeiten: Wenn 20 Prozent der Geburtstage solcher Personen in den Trainingsdaten nur einmal vorkommen, sollten Basismodelle im Umkehrschluss mindestens 20 Prozent der Geburtstagsanfragen falsch beantworten.

Und tatsächlich: Als die Forscher Spitzenmodelle nach dem Geburtstag von einem ihrer Kollegen fragten, nannte etwa DeepSeek-V3 in verschiedenen Versuchen selbstverständlich drei unterschiedliche, falsche Daten.

Die Bewertungsfalle

Noch beunruhigender ist die Analyse des Papiers, warum Halluzinationen trotz nachgelagerter Maßnahmen – etwa umfangreichem menschlichem Feedback auf KI-Antworten vor ihrer Veröffentlichung – hartnäckig bestehen bleiben.

Das Problem liegt auch in der Art und Weise, wie die LLMs bewertet werden. Denn neun von zehn KI-Benchmarks nutzen Bewertungssysteme, die Null Punkte vergeben, wenn eine KI ihre Unsicherheit ausdrückt.

Ehrliche Antworten werden bestraft

Das erzeugt einen Effekt, den, was die Autorinnen und Autoren eine „Epidemie“ von Bestrafung ehrlicher Antworten nennen. Sagt ein KI-System „Ich weiß es nicht“, erhält es die gleiche Punktzahl wie für eine gänzlich falsche Auskunft.

Die optimale Strategie unter solcher Bewertung ist eindeutig: immer raten.

Die Forschenden beweisen dies auch mathematisch. Unabhängig davon, wie hoch die Chance ist, dass eine bestimmte Antwort richtig ist: Der zu erwartende Punktwert fürs Raten liegt bei binärer Bewertung immer über dem für eine Enthaltung oder dem Bekenntnis, es nicht zu wissen.

Die Lösung, die alles kaputt machen würde

Die Forscher von OpenAIs schlagen denn auch vor, dass die KI vor der Ausgabe ihre eigene Sicherheit in ihren Antworten berücksichtigt und Benchmarks sie künftig auch auf dieser Grundlage bewerten.

Laut Science Alert könnte man die KI beispielsweise folgendermaßen instruieren: „Antworte nur, wenn du dir zu mehr als 75 Prozent sicher bist, da Fehler mit drei Punkten bestraft werden, während richtige Antworten einen Punkt erhalten.“

Unter einer solchen Bedingung würden LLMs bei geeigneten Konfidenzintervallen eher Unsicherheiten preisgeben, anstatt zu raten, bzw. zu halluzinieren.

Read Entire Article