METR kann Claude Mythos kaum noch messen, Palo Alto Networks warnt vor autonomen KI-Angreifern

4 weeks ago 12

Die Evaluierungsorganisation METR stößt bei der Fähigkeitsmessung von Claude Mythos an die Grenzen ihrer Testmethodik. Gleichzeitig warnt Palo Alto Networks, dass Frontier-Modelle wie Mythos die Cybersicherheitslandschaft grundlegend verändern.

Anthropics jüngstes Frontier-Modell Claude-Mythos-Preview sorgt in der KI-Sicherheitsforschung für Aufsehen. Zwei unabhängige Analysen beleuchten das Risikopotenzial des Modells aus unterschiedlichen Blickwinkeln. Sie kommen zu einem gemeinsamen Schluss: Die Fähigkeiten aktueller Frontier-KI-Modelle wachsen schneller, als bestehende Bewertungsmethoden und Verteidigungsstrategien mithalten können.

METR stößt an die Grenzen der eigenen Testmethodik

Die auf KI-Risikobewertung spezialisierte Organisation METR hat eine frühe Version von Claude Mythos Preview in einem begrenzten Zeitfenster im März 2026 evaluiert. METR schätzt einen sogenannten 50-Prozent-Zeithorizont von mindestens 16 Stunden, mit einem 95-Prozent-Konfidenzintervall von 8,5 bis 55 Stunden.

Dieser Wert beschreibt die Aufgabenlänge, bei der das Modell eine 50-prozentige Erfolgswahrscheinlichkeit erreicht, eine Aufgabe zu schaffen, für die ein Mensch die angegebene Zeit benötigt. Als Referenzpunkte für die Aufgabenlängen nennt METR etwa das Trainieren eines Klassifizierers (etwa 45 Minuten) und das Trainieren eines adversarial robusten Bildmodells (etwa vier Stunden).

Bei Mythos liegt dieser Wert laut METR "am oberen Ende dessen, was wir ohne neue Aufgaben messen können". Von den 228 Aufgaben in der Test-Suite seien lediglich fünf als 16 Stunden oder länger eingestuft. Das mache Messungen in diesem Bereich "instabil und weniger aussagekräftig". METR hebt deshalb keine exakten Schätzungen für Modelle oberhalb dieser Schwelle hervor.

Die Organisation betont dennoch, dass die bestehende Test-Suite "noch ein deutlich fähigeres Modell von den derzeit bekannten State-of-the-Art-Modellen unterscheiden" könnte. Für präzise quantitative Vergleiche oder Extrapolationen seien die Messungen in diesem Bereich allerdings nicht robust genug. METR arbeite an aktualisierten Methoden mit längeren Aufgaben, diese befänden sich aber noch in der Entwicklung.

Dass die Evaluierungsmethoden langsamer wachsen als die Modelle selbst, könnte sich als das eigentliche Sicherheitsrisiko erweisen.

Palo Alto Networks sieht "Stufenänderung" in der Bedrohungslage

Aus einer reinen Sicherheitsperspektive bewertet der Cybersicherheitskonzern Palo Alto Networks die Risiken von Frontier-Modellen wie Claude Mythos. Das Unternehmen hatte nach eigenen Angaben in den vergangenen Monaten "frühen, unbegrenzten Zugang" zu den neuesten Frontier-KI-Modellen. Dazu zählten neben Mythos auch OpenAIs GPT-5.5-Cyber und Claude Opus 4.7.

Palo Alto Networks beschreibt die Beobachtungen als "Stufenänderung in den Fähigkeiten". Die Modelle zeigten ein "intuitives Verständnis von Software-Schwachstellen". Es gehe nicht mehr um schnellere Codegenerierung. Vielmehr verschiebe sich die Rolle der KI vom Assistenten zum autonomen Agenten, der Schwachstellen in einem Ausmaß entdecken und verketten könne, auf das die meisten Verteidiger nicht vorbereitet seien.

Laut dem Blogpost des Unternehmens entsprachen drei Wochen modellgestützter Analyse einem ganzen Jahr manueller Penetrationstests, bei breiterer Abdeckung. Die Modelle verknüpften teils mehrere einzeln niedrig eingestufte Sicherheitslücken zu kritischen Angriffspfaden. Die Zeit vom Erstzugang bis zur Datenexfiltration könne in KI-gestützten Szenarien auf bis zu 25 Minuten schrumpfen.

Frontier-Modelle erreichen die Schwelle zum autonomen Operator

Palo Alto Networks beziffert die Verbesserung der Coding-Effizienz aktueller Frontier-Modelle gegenüber ihren Vorgängern auf rund 50 Prozent. Diese Zahl klinge inkrementell, markiere in der Praxis aber "die Schwelle, an der KI von einem hilfreichen Assistenten zu einem autonomen Operator wird".

Ein zusätzliches Risiko sieht das Unternehmen in der rapide wachsenden, unüberwachten Angriffsfläche. Da lokale KI-Agenten immer verbreiteter würden, sei "jeder Desktop effektiv ein Server". Gleichzeitig fehle den meisten Organisationen die Sichtbarkeit über den von ihren eigenen Mitarbeitenden generierten und bereitgestellten Code.

Nach dem Launch von Mythos hatte das Unternehmen zunächst ein Sechs-Monats-Fenster prognostiziert, bevor Angreifer Zugang zu vergleichbaren Fähigkeiten erhalten würden. Diese Einschätzung habe sich laut Palo Alto Networks "deutlich beschleunigt".

Unabhängige Untersuchungen belegen gestiegene Bedrohungslage, aber das Ausmaß ist noch unklar

Anthropics Claude Mythos löste einen Cybersecurity-Hype aus, auch weil das Unternehmen bei der Vorstellung das Modell als "zu gefährlich" für die Veröffentlichung beschrieb, eine PR-Taktik, die OpenAI schon bei GPT-2 anwandte.

Zwar sind sich bisherige Studien einig, dass die Cybersecurity-Bedrohung durch fähigere KI-Modelle gestiegen ist. Das Ausmaß der Bedrohung ist jedoch noch unklar.

Das britische AI Security Institute (AISI) stellte fest, dass Claude Mythos Preview zwar mehrstufige Unternehmensangriffe vollständig simulieren konnte, geht aber davon aus, dass hiervon zunächst nur schwache, ungeschützte Netzwerke betroffen sind. Auch das bereits veröffentlichte GPT-5.5 von OpenAI soll bereits solch eine mehrstufige Simulation eines Unternehmensangriffs vollständig lösen können, sogar knapp über dem Niveau von Mythos. Zudem sollen kleinere KI-Modelle ähnliche Fähigkeiten haben.

Zudem können die Modelle auch bei der Verteidigung helfen. Mozilla nutzte Anthropics Claude-Mythos-Preview, um Sicherheitslücken im Firefox-Browser aufzudecken. Allein im April 2026 behob Mozilla insgesamt 423 Sicherheitsprobleme – ein Rekord, laut der Firma.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article