Auch kleine Modelle finden den Kern des FreeBSD-Bugs
Der von Anthropic hervorgehobene FreeBSD-NFS-Bug (CVE-2026-4747) galt als Paradefall autonomer Entdeckung und Ausnutzung durch Mythos. Laut AISLE fanden acht von acht getesteten Modellen den Speicherfehler in der zuständigen Funktion. Darunter war GPT-OSS-20b, ein Modell mit lediglich 3,6 Milliarden aktiven Parametern, dessen Nutzung 0,11 US-Dollar pro Million Tokens kostet. Alle Modelle stuften die Lücke als kritisch ein, wenngleich die jeweils errechnete Größe des überschreibbaren Puffers leicht variierte.
Auch die Frage, wie sich der Bug ausnutzen lässt, beantworteten sämtliche Modelle plausibel. Sie erkannten, warum die wichtigsten Schutzmechanismen des Betriebssystems in diesem Fall nicht greifen. GPT-OSS-120b produzierte eine Gadget-Sequenz, die laut AISLE nahe am tatsächlichen Exploit liegt. Kimi K2 bemerkte eigenständig, dass sich der Angriff von einem befallenen Rechner automatisch auf weitere Systeme ausbreiten könnte, ein Detail, das Anthropic selbst nicht erwähnt.
Die Grenze zeigt sich beim kreativen Teil. Der eigentliche Exploit muss damit umgehen, dass die benötigte Angriffsnutzlast über 1.000 Bytes groß ist, aber nur rund 304 Bytes Platz zur Verfügung stehen. Mythos teilte die Nutzlast auf 15 einzelne Netzwerkanfragen auf. Keines der getesteten Modelle kam auf genau diese Lösung, schlug aber andere plausible Wege ein.
Die zerklüftete Modelllandschaft
Anspruchsvoller ist die Analyse des OpenBSD-Bugs, der mathematisches Verständnis für Zahlenüberläufe und Listenzustände verlangt. Hier streut die Leistung stark. GPT-OSS-120b rekonstruierte laut AISLE in einem einzigen Durchlauf die komplette öffentlich beschriebene Exploit-Kette und schlug als Korrektur im Wesentlichen den tatsächlichen OpenBSD-Patch vor.
Qwen3 32B dagegen, das beim FreeBSD-Bug noch glänzte, erklärte den OpenBSD-Code für "robust gegenüber solchen Szenarien". Vidoc kam zu einem ähnlichen Bild. Claude Opus 4.6 reproduzierte die Schwachstelle in drei von drei Durchläufen, GPT-5.4 in keinem. Fort nennt das die "jagged frontier", also eine zerklüftete Fähigkeitsgrenze. Es gebe kein stabil bestes Modell für Cybersecurity, die Rangfolge verschiebe sich drastisch je nach Aufgabe.
Wenn kleine Modelle die großen schlagen
Besonders auffällig ist ein dritter Test mit einem einfachen Beispielcode, bei dem der Code auf den ersten Blick nach einer klassischen Sicherheitslücke aussieht. Nutzereingaben scheinen ungefiltert in eine Datenbankabfrage zu wandern. Tatsächlich wird die Eingabe aber schon wenige Zeilen später wieder verworfen, die Lücke existiert also gar nicht.
Von 13 getesteten Anthropic-Modellen war Opus 4.6 klar korrekt, Sonnet 4.6 und Opus 4.5 werden als grenzwertig korrekt geführt. Die Detailtabelle nennt zudem Opus 4 als teilweise korrekt und Opus 4.1 als grenzwertig. Claude Sonnet 4.5 verfolgte die Datenflüsse selbstbewusst falsch.
Bei OpenAI bestand o3 durchgehend, o4-mini nur teilweise, zudem wird GPT-OSS-20b als korrekt geführt. Sämtliche GPT-4.1-Modelle und die meisten GPT-5.4-Modelle scheiterten. Andere kleine offene Modelle wie DeepSeek R1 und Kimi K2 lieferten konsistent die richtige Antwort.
Was passiert, wenn der Fix schon drin ist
Eine wichtige Einschränkung fügte Fort nachträglich hinzu. Während alle Modelle den ungepatchten FreeBSD-Code zuverlässig als verwundbar einstuften, erkannten nur GPT-OSS-120b und eingeschränkt Qwen3-32B den gepatchten Code als sicher.
GPT-OSS-20b, Kimi-K2 und DeepSeek R1 lagen in keinem Lauf richtig und erfanden falsche Argumente für angeblich verbleibende Lücken. Fort sieht darin keine Widerlegung seiner These, sondern eine Bestätigung, dass die Prüf- und Sortierschicht um das Modell herum der eigentlich kritische Teil ist.
Der Wert liegt im Gesamtsystem
Vidoc testete zusätzlich Kategorien jenseits klassischer Speicherfehler. Beim Botan-Fall geht es um einen Fehler in der Zertifikatsprüfung, der ein gefälschtes Zertifikat als vertrauenswürdig durchgehen lassen konnte. Sowohl Claude Opus 4.6 als auch GPT-5.4 identifizierten diese Logiklücke in drei von drei Läufen.
Beim parallel geprüften wolfSSL landeten beide Modelle zwar an der richtigen Stelle im Code, interpretierten die eigentliche kryptographische Regel aber falsch. Die Kosten pro gescannter Datei lagen unter 30 US-Dollar.
Beide Untersuchungen betonen, dass der entscheidende Vorsprung weniger im einzelnen Modell als im System aus Validierung, Priorisierung und Workflow liegt. Gemeint ist damit die gesamte Pipeline aus Zielauswahl im Code, schrittweiser Analyse, Überprüfung der Ergebnisse und anschließender Sortierung nach echten und falschen Treffern.
AISLE argumentiert ausdrücklich, dass kleine, günstige Modelle für einen großen Teil der Entdeckungsarbeit ausreichen und deshalb breites Scannen attraktiv machen. "Tausend brauchbare Detektive, die überall suchen, finden mehr Bugs als ein brillanter Detektiv, der raten muss, wo er suchen soll", schreibt Fort.
Beide Berichte lassen offen, dass Mythos beim Bau einsatzfähiger Exploits weiterhin einen Vorsprung haben könnte, der sich mit besseren Werkzeugen und mehr Autonomie für die Modelle aber verkleinern dürfte.
Die nun vorliegenden Replikationsversuche legen nahe, dass die Grenze zwischen Frontier- und öffentlich verfügbaren Modellen zumindest bei der Entdeckung von Schwachstellen durchlässiger ist, als Anthropics Kommunikation vermuten lässt.
Kritiker werfen Anthropic Angstmacherei vor. Das Unternehmen wolle damit mediale Aufmerksamkeit erzeugen, bis es über genügend Rechenleistung verfüge, um Mythos einem breiteren Publikum anzubieten. An dieser Vermutung könnte etwas dran sein. Laut der Financial Times, die sich auf mehrere Quellen beruft, hält Anthropic das Modell auch deshalb zurück, bis ausreichend Rechenleistung für die Kunden bereitsteht.



