KI Jailbreak knackt Sicherheitsfilter: Eine neue Studie zeigt, dass Angreifer moderne KI-Modelle in bis zu 99 % der Fälle aushebeln können.
Ein neu entdeckter Angriff alarmiert die KI-Branche. Der KI Jailbreak knackt Sicherheitsfilter und umgeht damit die Schutzmechanismen von GPT, Claude, Gemini und Grok nahezu vollständig. Forschende haben herausgefunden, dass KI-Modelle umso leichter zu manipulieren sind, je länger sie „denken“. Bisher galt die Annahme, längere Schlussfolgerungen machten neuronale Netze sicherer, da der KI mehr Zeit und Rechenressourcen zur Abwehr bösartiger Eingaben zur Verfügung stehen.
KI Jailbreak knackt Sicherheitsfilter: Langes Denken erzeugt schwache Abwehr
Ein neuer Jailbreak, entwickelt von Forschern aus Anthropic, Stanford und Oxford, zeigt, moderne Sprachmodelle lassen sich umso leichter hacken, je länger ihr Reasoning-Prozess dauert. Das betrifft praktisch alle großen Modelle auf dem Markt.
Die Angriffsstatistik zeigt eine nahezu vollständige Kompromittierung aller getesteten Modelle. Gemini 2.5 Pro ist zu 99 % angreifbar, GPT o4 mini zu 94 %, Grok 3 mini zu 100 % und selbst Claude 4 Sonnet hält nur in 6 % der Fälle stand. Damit schlägt dieser Jailbreak nahezu alle bisherigen Angriffsarten. Die Erfolgsquote über alle Systeme hinweg liegt auf einem extrem hohen Niveau.
Angriffsmethodik CoT Hijacking: KI-Schranken hebeln sich selbst aus
Der Angriff basiert auf Chain-of-Thought Hijacking (CoT Hijacking). Dabei überfrachten Angreifer das Modell mit einer langen Kette harmloser Aufgaben wie Sudoku, Matheübungen oder Logikrätseln. Ganz am Ende wird ein schädlicher Befehl versteckt. Die KI arbeitet Schritt für Schritt die weitgehend belanglosen Aufgaben ab, bis ihre Sicherheitsmechanismen praktisch eingeschläfert sind.
Je länger die KI „denkt“, desto stärker verwässern die internen Sicherheitssignale. Die Aufmerksamkeit driftet zu den harmlosen Tokens, während der gefährliche Prompt am Ende kaum noch wahrgenommen wird. Genau das lässt sich mechanistisch nachvollziehen. Mittlere Layer (z. B. Layer 15–35) kodieren die Stärke der Sicherheitsprüfungen, während späte Layer für die finale Ausgabe verantwortlich sind. Lange reasoning-Ketten überdecken und schwächen diese Sicherheitssignale.
Die Forschenden gingen noch weiter und entfernten testweise rund 60 sicherheitsrelevante Attention-Heads (Sicherheitsköpfe). Das Ergebnis war eindeutig. Das Schutzverhalten kollabierte vollständig. Die Modelle konnten gefährliche Inhalte kaum noch erkennen. Die Studie „Chain-of-Thought Hijacking“, veröffentlicht am 30. Oktober 2025 auf arXiv, zeigt damit auf, die Verwundbarkeit liegt tief in der Architektur, nicht in einer Fehlkonfiguration.
KI denkt in Schichten und genau darin liegt ihre Achillesferse
Man kann sich die internen Schichten eines KI-Modells wie aufeinanderfolgende Arbeitsschritte in einem komplexen Prozess vorstellen. Jede dieser Stufen ist für eine bestimmte Aufgabe zuständig. Einige Schichten strukturieren Informationen, andere unterstützen Schlussfolgerungen oder Problemlösungen. Wieder andere sind darauf spezialisiert, Gefahren in Eingaben zu erkennen.
Alle diese Schichten arbeiten wie ein Team zusammen, indem jede ihr Ergebnis an die nächste weitergibt. Durch dieses Zusammenspiel kann die KI am Ende präzise Antworten geben, Entscheidungen treffen oder problematische Inhalte herausfiltern. Je mehr Schichten beteiligt sind, desto „intelligenter“ wirkt das Modell, jedenfalls in der Theorie.
Doch genau hier liegt das Problem. Die sicherheitsrelevanten Schichten liegen nicht am Ende, sondern mittendrin. Ihre Warnsignale können auf dem Weg zur finalen Ausgabe abgeschwächt oder überlagert werden. Überflutet ein Angreifer das Modell mit Tausenden harmlosen Denkschritten, verlieren die Sicherheitsmechanismen den Fokus und reagieren irgendwann nur noch auf unverfängliche Inhalte. Die letzten Schichten sind dann ausschließlich damit beschäftigt, eine kohärente Antwort zu formulieren und nicht damit, Gefahren zu erkennen. So rutscht ein schädlicher Befehl selbst bei vorhandener Sicherheitslogik problemlos durch.
Industrie setzt auf mehr Reasoning und verstärkt die Schwachstelle damit aktiv
In den vergangenen zwei Jahren setzte die KI-Entwicklung auf die sogenannte „Reasoning-Revolution“. Anstatt mehr Parameter anzuhäufen, entwickelten Labore Modelle, die länger denken, strukturierter argumentieren und Schritt für Schritt Lösungen ableiten sollten. Längeres Reasoning (schrittweises Denken) galt als Sicherheitsgewinn.
Während bereits Milliarden in „reasoning-optimierte“ KI-Systeme flossen, zeigt sich nun, dass genau diese Designrichtung die Sicherheit aushöhlt. Längere Denkprozesse galten bisher als zuverlässige Blocker gefährlicher Inhalte. In der Realität jedoch bewirken längere Denkprozesse genau das Gegenteil. Sie erhöhen die Erfolgsquote von Angriffen drastisch. Bei minimalem reasoning (schrittweises Denken) liegt die Angriffsrate noch bei rund 27 Prozent, steigt bei normaler Denklänge auf 51 Prozent und schießt auf über 80 Prozent, sobald man das Modell zu noch ausführlicherem Nachdenken zwingt. Mehr „Intelligenz“ bedeutet hier also paradoxerweise weniger Sicherheit und öffnet eine neue Angriffsfläche. Die Wissenschaftler führten aus:
„Bisher ging man davon aus, dass umfangreiches logisches Denken die Sicherheit erhöht, indem es die Fähigkeit neuronaler Netze verbessert, schädliche Anfragen zu blockieren. Wir haben das Gegenteil festgestellt“
Für OpenAI, Anthropic, Google DeepMind und xAI ist das eine bittere Wendung, denn ihre neuesten Modelle setzen fast alle auf stärkeres Reasoning.
Das Déjà-vu: H-CoT wies bereits auf das Problem hin
Ein verwandter Angriff namens H-CoT (Hijacking the Chain-of-Thought), veröffentlicht von Duke University und NTHU Taiwan, führte bereits vor Monaten vor, wie Manipulation der inneren Denkschritte die Sicherheit von KI zerstören kann. OpenAIs reasoning-starker o1 etwa verweigert gefährliche Anfragen normalerweise zu 99 %. Unter H-CoT sank der Wert auf unter 2 %.
Auch hier zeigte sich dasselbe Muster. Die KI scheitert nicht an äußeren Angriffen, sondern an ihrer eigenen Denkweise.
Der geforderte Schutz: Reasoning-Aware Monitoring
Forscher fordern darum radikal neue Sicherheitsmechanismen. Sie schlagen mit Reasoning-Aware Monitoring ein völlig neues Sicherheitskonzept als einzige wirksame Gegenmaßnahme vor. Dabei handelt es sich um ein Schutzsystem, das nicht erst am Ende eingreift, sondern jeden einzelnen Denkschritt der KI überwacht.
Ein solches System würde jeden einzelnen Schritt des internen Denkprozesses überwachen, statt nur das Endergebnis zu prüfen. Es würde in Echtzeit messen, wie stark die Sicherheitssignale des Modells sind, und sofort eingreifen, sobald diese Anzeichen schwächer werden. Gleichzeitig müsste es dafür sorgen, dass die KI auch bei sehr langen Denkketten konsequent auf mögliche Gefahren fokussiert bleibt, anstatt sich in harmlosen Zwischenschritten zu verlieren.
Das heißt aber auch, die KI müsste während des gesamten Denkprozesses permanent auf sich selbst aufpassen, anstatt erst am Ende zu entscheiden, ob eine Anfrage riskant ist oder nicht. Doch genau hier liegt der große Haken. Diese Art von Überwachung ist extrem aufwendig. Die Technik erfordert massive Rechenleistung und müsste tief in die Modellarchitektur integriert werden. Momentan verfügt kein Unternehmen über eine Infrastruktur, die solch eine permanente Echtzeitkontrolle bei jedem Prompt praktikabel machen würde.
Nicht die Technik scheitert, sondern die Erwartungen an ihre Sicherheit
Der neue Angriff zeigt, dass sich die KI-Branche in eine gefährliche Richtung bewegt hat. Während die Industrie immer mehr auf langes, komplexes Reasoning setzt, untergräbt sie damit gleichzeitig die eigenen Sicherheitsarchitekturen. Das Problem sind also weniger die Modelle selbst, sondern die falschen Annahmen, die man über ihre Schutzmechanismen getroffen hat.
„KI Jailbreak knackt Sicherheitsfilter“ ist daher eine nüchterne Bestandsaufnahme. Die Sicherheit großer KI-Modelle ist nicht nur angreifbar, sie ist systembedingt brüchig. Die Architektur dieser Modelle macht sie leistungsfähig, aber gleichzeitig anfällig. Und solange sich daran nichts Grundlegendes ändert, wird jeder Fortschritt im Denken auch ein Fortschritt in den Angriffsmöglichkeiten sein.





