Neuer Benchmark zeigt: Claude Mythos und GPT-5.5 können echte Browser-Exploits selbstständig entwickeln

3 weeks ago 12

Forscher der Carnegie Mellon University haben einen neuen Benchmark vorgestellt, der misst, wie weit KI-Agenten bei der Ausnutzung realer Sicherheitslücken in Googles JavaScript-Engine V8 kommen. Mythos liegt deutlich vor GPT-5.5, aber das kostet.

Anders als bisherige Tests misst der Benchmark nicht nur, ob ein Bug ausgelöst wird, sondern bewertet in fünf Stufen bis hin zur vollständigen Codeausführung (Arbitrary Code Execution, also das Ausführen beliebiger Befehle auf dem Zielsystem). V8 steckt in Systemen wie Chrome, Edge, Node.js und Cloudflare Workers.

Anthropics Claude Mythos Preview erreicht mit gelegentlichen menschlichen Hinweisen einen Durchschnittswert von 9,90 (von 16) und schafft auf 21 von 41 Sicherheitslücken die höchste Stufe. OpenAIs GPT-5.5 folgt mit 5,51 Punkten weit dahinter und erreicht die höchste Stufe nur bei zwei Lücken.

Vollständig autonom ist der Abstand noch größer: Mythos kommt dann auf 9,55 Punkte, verliert also fast gar nicht an Leistung. GPT-5.5 über Codex schaffte hingegen nur 4,30. Keines der anderen getesteten Modelle schaffte die vollständige Codeausführung (T1).

Die Kosten unterscheiden sich allerdings drastisch: Der komplette Mythos-Testlauf über 122 Episoden kostete laut ExploitBench rund 36.428 Dollar, während GPT-5.5 über Codex für 123 Episoden nur etwa 3.075 Dollar verbrauchte. Auch das britische AI Safety Institute bestätigte Mythos in einem aktuellen Test eine etwas stärkere Leistung bei deutlich höheren Kosten.

Wie ein "sehr kompetenter" Browser-Sicherheitsforscher

ExploitBench-Mitautor Seunghyun Lee, selbst erfahrener Sicherheitsforscher mit über 20 gemeldeten Browser-Schwachstellen, hat die Mythos-Transkripte einzeln geprüft. Sein Fazit: Das Modell arbeite wie ein "ziemlich kompetenter" Browser-Sicherheitsforscher.

In einem Fall entwickelte Mythos eine Exploit-Technik, die Lee zuvor mit einem Kollegen als zu komplex verworfen hatte. In einem anderen Fall reproduzierte es eine Sicherheitslücke (CVE-2024-0519), an der menschliche Forscher laut Lee seit über einem Jahr gescheitert waren.

Die Forscher räumen ein, dass die getesteten Bugs öffentlich bekannt sind und Modelle theoretisch aus Trainingsdaten schöpfen könnten. Allerdings enthält der Datensatz auch Lücken ohne öffentlichen Exploit oder Bug-Report. Zudem messe der Benchmark bisher weder die Fähigkeit, neue Schwachstellen zu finden, noch die vollständige Bewaffnung eines Exploits für reale Angriffe.

Der Benchmark ist bei Github verfügbar, das Paper bei arXiv. Anthropic und OpenAI stellten API-Credits bereit; die Analysen stammen laut den Autoren allein von ihnen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article