Wer von Sprachmodellen Widerspruchsfreiheit erwartet, stellt laut einem Anthropic-Forscher die falsche Frage

2 hours ago 1

Wer von Sprachmodellen innere Kohärenz erwartet, stellt laut einem Anthropic-Forscher die falsche Frage.

"Warum sagt Seite fünf eines Buches, das beste Essen sei Pizza, und Seite 17, das beste Essen sei Pasta? Was denkt das Buch wirklich? Und du sagst: 'Es ist ein Buch!'", erklärt Josh Batson, Research Scientist bei Anthropic, in einem lesenswerten Artikel über Methoden zur Interpretierbarkeit von LLMs im MIT Technology Review.

Die Analogie stammt aus Experimenten zur internen Verarbeitung von Fakten. Anthropic fand heraus, dass Claude unterschiedliche Mechanismen nutzt, um zu wissen, dass Bananen gelb sind, und um zu bestätigen, dass der Satz "Bananen sind gelb" wahr ist. Diese Mechanismen sind nicht miteinander verbunden. Wenn ein Modell widersprüchliche Antworten gibt, greift es auf verschiedene Teile seiner selbst zurück – ohne zentrale Instanz. "Es könnte sein, dass du mit Claude redest und es dann abdriftet", sagt Batson. "Und jetzt redest du nicht mehr mit Claude, sondern mit etwas anderem." Die Implikation: Die Annahme, Sprachmodelle besäßen mentale Kohärenz wie Menschen, könnte ein Kategorienfehler sein.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article