Auf Anweisung der US-Regierung: Anthropic sperrt Fable 5 und Mythos 5 weltweit

4 hours ago 1

Die US-Regierung hat Anthropic unter Berufung auf nationale Sicherheitsinteressen angewiesen, den Zugang zu seinen leistungsstärksten KI-Modellen Fable 5 und Mythos 5 weltweit abzuschalten. Anthropic befolgt die Anordnung, widerspricht ihr aber öffentlich.

Die Exportkontrolldirektive verbietet jeglichen Zugang zu Fable 5 und Mythos 5 durch ausländische Staatsangehörige, unabhängig davon, ob diese sich innerhalb oder außerhalb der USA befinden. Auch ausländische Mitarbeitende von Anthropic selbst sind betroffen.

In der Konsequenz muss Anthropic den Zugang für sämtliche Kunden weltweit abschalten, um die Vorgabe einzuhalten. Alle anderen Anthropic-Modelle bleiben laut der Erklärung des Unternehmens verfügbar. Anthropic bezeichnet den Vorgang als "Missverständnis" und arbeite daran, den Zugang so schnell wie möglich wiederherzustellen. Weitere Details will Anthropic innerhalb von 24 Stunden veröffentlichen.

Regierung sieht Jailbreak-Gefahr, Anthropic widerspricht

Laut Anthropic geht die Regierung davon aus, eine Methode entdeckt zu haben, mit der sich die Sicherheitsvorkehrungen von Fable 5 umgehen lassen. Das Unternehmen habe eine Demonstration dieser Technik überprüft: Sie identifiziere lediglich "eine kleine Anzahl bereits bekannter, geringfügiger Schwachstellen", die auch andere öffentlich verfügbare Modelle aufspüren könnten.

Der bisher von der Regierung nur verbal belegte potenzielle Jailbreak bestehe im Wesentlichen darin, das Modell aufzufordern, eine bestimmte Codebasis zu lesen und Software-Fehler zu beheben. Anthropic hat nach eigenen Angaben einen Bericht überprüft, der die Grundlage der Regierungsdirektive bildet, und kommt zu dem Schluss, dass die dort gezeigten Fähigkeiten "weithin von anderen Modellen verfügbar" seien, darunter OpenAIs GPT-5.5. Zudem würden diese Fähigkeiten täglich von Sicherheitsexperten genutzt, die Systeme schützen.

Anthropics Cybersecurity-Marketing wird dem Unternehmen zum Verhängnis

Vor dem Launch hätten US-Regierung, das britische AI Safety Institute (UK AISI), private Drittorganisationen und interne Teams das Modell insgesamt tausende Stunden lang auf Schwachstellen getestet. Die Sicherheitsvorkehrungen seien "deutlich effektiver als die jedes zuvor eingesetzten Modells". Viele Nutzer hätten sie sogar als zu restriktiv kritisiert.

Kein Tester habe bisher einen universellen Jailbreak gefunden, also eine Methode, die die Sicherheitsvorkehrungen des Modells breit umgehen und ein weites Spektrum an Cyberfähigkeiten freischalten könnte. Anthropic räumt allerdings ein, dass perfekte Jailbreak-Resistenz derzeit für keinen Modellanbieter möglich sei. Jede in der Branche verwendete Sicherheitsvorkehrung sei anfällig für nicht-universelle Jailbreaks, die in bestimmten Einzelfällen einige Informationen hervorlocken könnten.

Deshalb habe Anthropic eine "Defense in Depth"-Strategie verfolgt: Jailbreaks sollen entweder eng begrenzt oder sehr teuer in der Herstellung bleiben, kombiniert mit umfassender Überwachung zur schnellen Erkennung und Abschaltung erfolgreicher Angriffe. Teil dieser Strategie sei auch eine 30-tägige Datenspeicherung bei Kundendaten, die laut Anthropic "reale Kosten bei Kunden" verursache, aber die Erforschung und Eindämmung von Jailbreaks ermögliche.

Wer Anthropic zuvor für Angst-Marketing kritisierte, weil das Unternehmen monatelang aufmerksamkeitsstark vor den Cybersecurity-Risiken der Mythos-Klasse-Modelle warnte, erkennt die Ironie in der Sache: Erst bemühte sich Anthropic lange, zu zeigen, wie überlegen die Mythos-Klasse bei Cybersecurity ist. Jetzt muss es begründen, dass bereits am Markt vorhandene Modelle ähnliche Fähigkeiten haben.

Anthropic sieht gefährlichen Präzedenzfall für die gesamte Branche

Anthropic befolgt die Anordnung, macht aber seinen Widerspruch deutlich: "Wir sind nicht der Meinung, dass das Auffinden eines engen, potenziellen Jailbreaks ein Grund sein sollte, ein kommerzielles Modell zurückzurufen, das Hunderten Millionen Menschen zur Verfügung steht." Würde dieser Maßstab branchenweit angelegt, käme dies nach Einschätzung des Unternehmens einem Stopp aller neuen Modell-Deployments sämtlicher Frontier-Modellanbieter gleich.

In früheren öffentlichen Stellungnahmen habe Anthropic die Position vertreten, dass die Regierung die Möglichkeit haben sollte, unsichere Deployments zu blockieren, allerdings im Rahmen eines gesetzlichen Prozesses, der "transparent, fair, klar und auf technischen Fakten basiert". Die aktuelle Maßnahme entspreche diesen Prinzipien nicht. Es ist also auch ein weiteres Kapitel im Streit zwischen Anthropic und der US-Regierung.

Die US-Regierung hatte vor Kurzem eine neue Executive Order herausgegeben, laut der KI-Entwickler ihre Modelle vor der Veröffentlichung der Regierung zur Sicherheitsbewertung vorlegen können. Auch Anthropic begrüßte dieses Vorgehen, das hier offenbar noch nicht gegriffen hat. Der Fall zeigt auch die zunehmende Abhängigkeit anderer Länder von den großen KI-Nationen USA und China.

LLMs bleiben angreifbar

Jailbreaks und die verwandten Prompt Injections stellen seit den Anfängen großer Sprachmodelle ein ungelöstes Sicherheitsproblem dar, das keinen LLM-Hersteller verschont. Die Schwachstelle ist mindestens seit GPT-3 bekannt und betrifft sämtliche LLM-basierten Systeme – auch ChatGPT oder Claude lassen sich unter bestimmten Umständen noch per Prompt Injection angreifen, obwohl die Hersteller Gegenmaßnahmen ergriffen haben.

Selbst gezielte Sicherheitsinitiativen scheitern bislang: Anthropic entwickelte vor rund einem Jahr eine spezielle Schutztechnik gegen Manipulationsversuche und stellte sie in einer öffentlichen Jailbreaking-Challenge auf die Probe. Nach fünf Tagen, über 300.000 Nachrichten und rund 3.700 kollektiven Arbeitsstunden war das System vollständig geknackt, inklusive eines universellen Jailbreaks.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article