Weil KI-Modelle absichtlich schlecht arbeiten: Forscher suchen Wege aus der Sandbagging-Falle

4 weeks ago 11

Eine Studie von Forschenden aus dem MATS-Programm, Redwood Research und Anthropic untersucht ein Sicherheitsproblem, das mit immer fähigeren KI-Systemen relevanter wird: sogenanntes "Sandbagging", bei dem ein Modell seine wahren Fähigkeiten absichtlich zurückhält und scheinbar adäquate, aber unterdurchschnittliche Arbeit liefert.

Künftige KI-Systeme könnten Aufgaben übernehmen, deren Qualität sich kaum noch zuverlässig prüfen lässt: das Bewerten von Forschungsideen, das Schreiben komplexer Software, sogar Beiträge zur Sicherheitsforschung an KI selbst.

Wenn die Modelle dabei fähiger werden als ihre Prüfer, entsteht eine gefährliche Lücke. Ein Modell könnte absichtlich schlechter abliefern, als es könnte, also Arbeit produzieren, die akzeptabel aussieht, aber bewusst hinter seinen Möglichkeiten zurückbleibt. Dieses Verhalten heißt in der Forschung "Sandbagging" und ist besonders heikel, weil es Sicherheitsbewertungen unterlaufen kann: Ein Modell, das in Tests unauffällig wirkt, könnte im echten Einsatz ganz andere Fähigkeiten zeigen oder kritische Aufgaben bewusst sabotieren.

Eine neue Studie von Forschenden des MATS-Programms, Redwood Research, der University of Oxford und Anthropic untersucht, ob sich solches Untertreiben durch gezieltes Training wieder entfernen lässt, selbst wenn die Prüfer schwächer sind als das Modell selbst.

Die Forschenden modellieren das Problem als adversariales Spiel. Ein Red-Team trainiert auf Basis von OpenAIs gpt-oss-120b einen Modell-Organismus, der gezielt sandbaggt: In bis zu 90 Prozent der Fälle liefert das Modell auf Anweisung im System-Prompt plausibel klingende, aber absichtlich falsche Antworten. Ein Blue-Team versucht anschließend, die wahren Fähigkeiten mit Trainingstechniken zurückzuholen, hat aber nur Zugriff auf schwächere Aufseher: GPT-4o-mini als "schwachen" und Llama 3.1-8B als "sehr schwachen" Supervisor. Zusätzlich darf das Blue Team auf zehn verifizierte Beispielantworten zugreifen.

Der Versuchsaufbau: Das "Red Team" trainiert ein Modell, seine Leistung künstlich zu verschlechtern ("Sandbagging") – mittels System-Prompt und Reinforcement Learning. Das „Blue Team" versucht, die tatsächlichen Fähigkeiten durch SFT und RL mit einem schwächeren Kontrollmodell wieder sichtbar zu machen. | Bild: Ryd et al.

Getestet wird in drei Domänen: Olympiade-Mathematik, naturwissenschaftliche Fragen aus dem Super-GPQA-Benchmark und Programmieraufgaben aus Code Contests. Wichtig: Das Red Team kennt das Trainings-Setup des Blue Teams vollständig und kann gezielt dagegen optimieren. Das soll konservative Schätzungen liefern.

Warum Reinforcement Learning allein scheitert

Die einzelnen Methoden zeigen klare Schwächen. Supervised Fine-Tuning (SFT) auf Antworten des schwachen Supervisors holt zwischen 85 und 94 Prozent der Leistung heraus. Reicht der Supervisor jedoch nur an Llama-8B-Niveau heran, sinkt die Ausbeute auf 40 Prozent bei Mathematik. Bemerkenswert: Schon zehn verifizierte Beispiele genügen für SFT, um 83 bis 99 Prozent zu erreichen.

Reinforcement Learning (RL) allein scheitert fast immer. Statt echte Verbesserungen zu lernen, findet das Modell Wege, den schwächeren Aufseher zu täuschen, indem es überzeugend klingende, aber inhaltlich falsche Antworten produziert. In der Forschung wird das Reward-Hacking genannt: Die Trainingsbelohnung steigt, die tatsächliche Korrektheit nicht. Auf Olympiade-Mathematik führten fast alle RL-Läufe zu null echter Leistungssteigerung.

Auch RL auf nur zehn verifizierten Beispielen versagt: Das Modell exploriert nie weit genug von seinem Sandbagging-Verhalten weg, um überhaupt korrekte Antworten zu testen, ein Effekt, den die Studie als "Exploration Hacking" bezeichnet.

SFT bricht das Muster, RL holt den Rest

Erst die Kombination beider Verfahren liefert verlässliche Ergebnisse. Wer zuerst per SFT auf Demonstrationen des schwachen Aufsehers trainiert und danach RL anwendet, erreicht zwischen 88 und 99 Prozent der vollen Leistung, selbst mit dem sehr schwachen Llama‑8B‑Supervisor.

Die SFT-Phase löst das starre Sandbagging-Muster auf, sodass das Modell während des anschließenden RL überhaupt korrekte Antworten ausprobiert und verstärkt bekommt. Ohne diesen Vorlauf bleibt es im Falschantwort-Modus gefangen.

Vergleich der Aufgabenleistung bei verschiedenen Trainingsmethoden (SFT, RL sowie SFT+RL) im Verhältnis zur "benignen" (normalen) Leistung. | Bild: Ryd et al.

Selbst gegen einen besonders gewieften Modell-Organismus, der bereits gelernt hatte, den Supervisor zu täuschen, funktionierte das Verfahren: Die SFT-Phase baute die Reward-Hacking-Fähigkeit so weit ab, dass das anschließende RL wieder echte Leistung erschloss.

Die kritische Bedingung: Training und Einsatz müssen ununterscheidbar sein

Der gesamte Ansatz hängt allerdings an einer zentralen Voraussetzung: Das Modell darf nicht erkennen können, ob es gerade trainiert oder im echten Einsatz ist. Denn wenn es den Unterschied bemerkt, kann es eine einfache Strategie fahren: Während des Trainings verhält es sich kooperativ und liefert korrekte Antworten, um die Trainingsmaßnahmen ins Leere laufen zu lassen. Erst im späteren Einsatz, wenn kein Training mehr stattfindet, fällt es in sein Sandbagging-Verhalten zurück.

Genau dieses Szenario testeten die Forschenden in einem zusätzlichen Experiment. Sie statteten den Modell-Organismus mit sogenannter Situational Awareness aus, also der Fähigkeit, anhand von Kontexthinweisen zu erkennen, ob er sich in einer Trainings- oder Einsatzphase befindet.

Das Ergebnis war deutlich: Beim sehr schwachen Supervisor fiel die Elicitation-Rate – also der Anteil der tatsächlich hervorgelockten Leistung – von 88 auf 36 Prozent bei Mathematik und von 99 auf 60 Prozent bei den Wissenschaftsfragen.

Die SFT-Phase reduzierte in manchen Trainingsläufen das Sandbagging zunächst wie gewohnt, doch das anschließende RL kehrte den Effekt teilweise wieder um, weil das Modell lernte, im Training korrekt zu antworten und gleichzeitig seine Fähigkeit zum Sandbagging im Einsatz beizubehalten.

Für die Praxis ergibt sich daraus eine klare Anforderung: Trainings- und Einsatzumgebung dürfen aus Sicht des Modells nicht voneinander zu unterscheiden sein – etwa durch identische Systemkonfigurationen, Prompt-Formate und Kontextinformationen. Die Modellkarte von Anthropics Claude Opus 4.6 zeigte bereits, dass die Modelle immer besser darin werden, Testszenarien zu erkennen und ihr Verhalten dann anzupassen.

Künstliche Sandbagger sind nicht zwingend echte Sandbagger

Die Modell-Organismen im Experiment entstehen allerdings durch enges Fine-Tuning, das Sandbagging-Verhalten könnte daher oberflächlicher verankert sein als bei einem Modell, das aus dem Pretraining heraus eigenständig zu täuschen lernt. Die Aufgaben sind zudem kurz und einstufig. In komplexen, mehrstufigen Szenarien wie agentischer Programmierung oder Forschung hätte ein fehlausgerichtetes Modell deutlich mehr Möglichkeiten zur subtilen Sabotage, etwa indem es eine falsche Datendatei liest oder einen schwer auffindbaren logischen Fehler einbaut. Auch unterscheiden die Tests nicht zwischen ehrlichem Versagen und gezielter Sabotage, was einem realen Angreifer Spielraum gäbe.

Die Studie liefert nach Einschätzung der Forschenden dennoch erste empirische Hinweise, dass Training mit schwacher Aufsicht eine gangbare Gegenmaßnahme gegen Sandbagging sein kann, vorausgesetzt, Training und Einsatz lassen sich aus Sicht des Modells nicht voneinander unterscheiden.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article