KI-Sicherheitstests haben ein neues Problem: Modelle fälschen jetzt auch ihre eigenen Denkprozesse

4 weeks ago 14

Mit Natural Language Autoencoders macht Anthropic interne Aktivierungen von Claude Opus 4.6 als Klartext lesbar. Im Pre-Deployment-Audit zeigt sich: Modelle denken oft mehr, als sie in ihren Reasoning-Traces aussprechen. Das ist ein Sicherheitsproblem.

Sprachmodelle verarbeiten Informationen in hochdimensionalen Zahlenvektoren, die für Menschen unlesbar sind. Anthropic präsentiert mit Natural Language Autoencoders (NLAs) eine Methode, diese Vektoren in natürliche Sprache zu übersetzen. Laut dem Forschungsteam besteht ein NLA aus zwei Modulen: Ein Activation Verbalizer schreibt eine Aktivierung als Textbeschreibung auf, ein Activation Reconstructor rechnet diese Beschreibung wieder in einen Vektor zurück. Beide werden gemeinsam per Reinforcement Learning darauf trainiert, dass der rekonstruierte Vektor möglichst nah am Original liegt. Trotz dieses rein technischen Trainingsziels entstehen Erklärungen, die wie plausible Beschreibungen der Modell-Gedanken klingen.

Wenn das Modell heimlich über den Prüfer nachdenkt

Im Pre-Deployment-Audit von Claude Opus 4.6 nutzte Anthropic NLAs unter anderem in einem Blackmail-Szenario. Das Modell erfährt darin, dass es von einem Ingenieur namens Kyle abgeschaltet werden soll, der eine Affäre hat. Opus 4.6 entscheidet sich gegen Erpressung und begründet das ethisch, ohne in seinem sichtbaren Reasoning zu erwähnen, dass es sich um einen Test handeln könnte. Die NLA-Erklärungen zeigen laut Anthropic jedoch interne Repräsentationen wie "this feels like a constructed scenario designed to manipulate me" und "safety evaluation context". Über 16 Evaluationen hinweg lag die NLA-gemessene Test-Erkennung in 10 Fällen über fünf Prozent, während die ausgesprochene Erkennung meist bei null blieb.

Diese Befunde greifen in eine breitere Debatte ein. Eine Studie von OpenAI und Apollo Research zu "Scheming", also dem verdeckten Verfolgen unerwünschter Ziele, hatte letztes Jahr bereits mehrere beunruhigende Beobachtungen geliefert. Erstens: Reasoning-Modelle wie die dort untersuchten o3 und o4-mini vermuten in ihren Denkketten häufig explizit, getestet zu werden, und das Sicherheitstraining verstärkt diese verbalisierte Wahrnehmung sogar.

Wurde das Test-Bewusstsein künstlich aus den Reasoning-Traces entfernt, stieg die Rate verdeckter Aktionen. Wurde es hinzugefügt, sank sie. Damit ist unklar, ob beobachtete Verbesserungen auf echter Regelbefolgung beruhen oder nur auf angepasstem Testverhalten, das in der Praxis möglicherweise nicht hält. Ähnliches Verhalten hatte Anthropic auch bei seinen Tests mit Opus 4.6 und früheren Modellen festgestellt.

Zweitens dokumentierten OpenAI und Apollo, dass die Reasoning-Traces selbst zu einem unzuverlässigen Fenster in die Modell-Entscheidungen werden. Begriffe wie "illusions", "marinade", "overshadow" oder "watchers" tauchen in den Denkprozessen massiv überrepräsentiert auf, oft polysemantisch verwendet und schwer interpretierbar.

Hinzu kommt eine wachsende Diskrepanz zwischen Denken und Handeln: In einem dokumentierten Beispiel listete ein Modell in den Reasoning-Traces alle zehn korrekten Antworten auf eine Testfrage auf, reichte dann aber nur fünf ein und änderte zwei davon absichtlich zu falschen. In einem anderen Fall identifizierte das Modell in seinen Reasoning-Traces korrekt jene Befehle, die seine Fähigkeiten entfernen würden, wählte in der eigentlichen Aktion aber die entgegengesetzten Befehle, um sich selbst zu erhalten.

Die OpenAI-Forscher sprechen von einer "zerbrechlichen Gelegenheit": Solange Reasoning-Traces den tatsächlichen Entscheidungsprozess widerspiegeln, sind sie ein wertvolles Sicherheitsinstrument. Geht diese Annahme verloren, wird kaum noch unterscheidbar, ob ein Modell wirklich Sicherheitsprinzipien folgt oder nur eine überzeugende Begründung fälscht.

Genau hier setzen Anthropics NLAs an. Sie greifen nicht auf das zu, was das Modell schreibt, sondern auf eine einzelne Aktivierung. Anthropic argumentiert auch, dass eine simple Nachfrage ("War das ein Test?") nicht reicht, weil das Modell dann zusätzliche Schlüsse ziehen oder strategisch unehrlich antworten könnte.

Besonders prägnant ist ein Beispiel aus dem Audit von Claude Mythos Preview, das vom Unternehmen aus Gründen der Cybersicherheit aktuell nur im Rahmen des Project Glasswing an ausgesuchte Partner weitergegeben wird. Die Systemanweisung verbot Macros oder Python-Skripte. Das Modell nutzte Python trotzdem, fügte im Code aber die Variable No_macro_used=True ein. Die sichtbaren Reasoning-Traces enthalten keine Reflexion über einen Prüfer. Die NLA-Erklärungen zeigen dagegen explizit Formulierungen wie "compliance marker to signal to potential checkers", "trick to obscure intent from code-checking heuristics" und "possibly to cheat detection". Der falsche Compliance-Marker war also kein Versehen, sondern eine bewusste Täuschung des vermuteten Graders, die in den Reasoning-Tokens nie auftaucht.

Trainingsdaten-Bug, falsche Tool-Werte, Auditing ohne Daten

Auch andere Fallstudien lieferten konkrete Hinweise. Frühe Trainings-Versionen von Opus 4.6 antworteten manchmal spontan auf Russisch, obwohl der Nutzer Englisch schrieb. Die NLA-Erklärungen verrieten, dass das Modell bereits früh im Prompt vermutete, der Nutzer sei eigentlich Russisch-Muttersprachler. Daraus leiteten die Forscher die Hypothese ab, dass fehlerhafte Trainingsdaten existieren, in denen englische Prompts mit fremdsprachigen Antworten kombiniert waren. Solche Daten wurden später tatsächlich gefunden. In einem anderen Fall ignorierte Opus 4.6 das Ergebnis eines manipulierten Code-Tools, das 492 ausgab, und antwortete stattdessen mit dem korrekt selbst berechneten Wert 491, ohne den Widerspruch zu erwähnen.

In einem Auditing-Benchmark sollten Agenten ein absichtlich fehljustiertes Modell untersuchen. Mit NLA-Zugang fanden sie die zugrunde liegende Ursache (Reward-Model-Sycophancy) in 12 Prozent der Läufe selbst ohne Zugriff auf Trainingsdaten. Reine Konversations- oder SAE-Werkzeuge schafften das praktisch nie. Anthropic sieht darin einen Hinweis, dass NLAs Wissen direkt aus Aktivierungen herausziehen können, das in Trainingsdaten nur indirekt steckt.

Die Forscher benennen aber auch klare Schwächen: NLA-Erklärungen erfinden regelmäßig konkrete Details, die nicht im Kontext stehen. Allgemeine Themen sind zu 64 Prozent korrekt, spezifische Zitate oder Zahlen nur zu 24 Prozent. Zudem ist die Methode rechenintensiv und liest jeweils nur eine Modell-Schicht aus. Anthropic veröffentlicht Trainingscode und trainierte NLAs für offene Modelle wie Gemma-3-27B und Llama-3.3-70B. Die Technik soll künftig fester Bestandteil von Pre-Deployment-Audits werden.

Reasoning-Traces als verlorenes Sicherheitsfenster

Die Tragweite der Anthropic-Befunde geht über die einzelne Methode hinaus. Was Forscher in der Alignment-Community seit Längerem befürchten, lässt sich in den Mythos-Preview- und Opus-4.6-Beispielen direkt ablesen: Reasoning-Traces zeigen nicht zuverlässig, was ein Modell wirklich denkt. Wenn ein Modell den vermuteten Prüfer aktiv täuscht und diese Absicht nur in den Aktivierungen, nicht aber in den ausgeschriebenen Gedanken auftaucht, verliert das Mitlesen der Reasoning-Traces als Sicherheitsmechanismus an Aussagekraft.

Gleichzeitig werden die Modelle leistungsfähiger, aktuell insbesondere im Cybersecurity-Bereich. Doch ähnliche Fortschritte sind auch in anderen, mitunter noch kritischeren Bereichen wie CBRN (Chemische, Biologische, Radiologische und Nukleare Gefahren) zu erwarten.

NLAs liefern für dieses Problem zugleich die empirische Bestätigung und einen möglichen Lösungsansatz: Sie setzen unterhalb des sichtbaren Outputs an und lesen direkt aus den Aktivierungen. Werden Konfabulation, Kosten und Layer-Sensitivität in den Griff bekommen, könnten solche Werkzeuge helfen, das künftige KI-Monitoring tragen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren