Anthropic veröffentlicht Claude Fable 5 und Mythos 5 mit großem Sprung bei Coding und Wissenschaft

1 hour ago 1

Anthropic veröffentlicht zwei neue Modelle der fünften Claude-Generation. Claude Fable 5 soll in fast allen Benchmarks führend sein, Claude Mythos 5 (ohne Preview) steht weiter zunächst nur ausgewählten Partnern zur Verfügung.

Beide Modelle basieren auf demselben Grundmodell. Fable 5 ist mit konservativen Sicherheitsmechanismen für die allgemeine Nutzung ausgestattet. Mythos 5 arbeitet in bestimmten Bereichen wie Cybersecurity ohne diese Beschränkungen und bleibt vorerst einem kleinen Kreis von Partnern vorbehalten.

Große Fortschritte beim Coding

Laut Anthropic übertrifft Fable 5 alle bisher allgemein verfügbaren Modelle des Unternehmens und soll in nahezu allen getesteten Benchmarks State-of-the-Art-Ergebnisse erzielen. Besonders bei langen und komplexen Aufgaben wachse der Vorsprung gegenüber früheren Modellen.

Auf SWE-Bench Pro, einem Benchmark für die eigenständige Lösung realer Software-Engineering-Aufgaben aus öffentlichen GitHub-Repositories, erreicht Fable 5 eine Erfolgsrate von 80,3 Prozent. Claude Opus 4.8 kommt auf 69,2 Prozent, GPT 5.5 auf 58,6 Prozent und Gemini 3.1 Pro auf 54,2 Prozent.

Auf Cognitions FrontierCode-Benchmark, der besonders anspruchsvolle Coding-Aufgaben unter Produktionsstandards prüft, kommt Fable 5 auf 29,3 Prozent. Claude Opus 4.8 erreicht dort 13,4 Prozent, GPT 5.5 lediglich 5,7 Prozent.

Auch bei der Token-Effizienz soll Fable 5 besser abschneiden als frühere Claude-Modelle. Selbst bei mittlerem Aufwand erzielt es auf FrontierCode die höchste Punktzahl unter den Frontier-Modellen.

Laut Anthropic berichtet der Zahlungsdienstleister Stripe, dass Fable 5 Monate an Engineering-Arbeit in Tage komprimiert habe. In einer Ruby-Codebasis mit 50 Millionen Zeilen habe das Modell eine Migration an einem Tag erledigt, für die ein ganzes Team sonst über zwei Monate gebraucht hätte.

Wissensarbeit, Vision und Langzeitgedächtnis auf neuem Niveau

Bei komplexen analytischen Aufgaben erzielt Fable 5 laut Anthropic ebenfalls Bestwerte. Auf dem Finance-Benchmark von Hebbia, der die Reasoning-Fähigkeiten von KI-Modellen auf dem Niveau erfahrener Finanzanalysten prüft, erreiche es die höchste Punktzahl aller Modelle, mit deutlichen Zugewinnen bei dokumentenbasiertem Reasoning sowie der Interpretation von Charts und Tabellen. Der Handelskonzern IMC habe bestätigt, dass Fable 5 ihre Trading-Analyse-Evaluierungen nahezu durchgängig bestanden habe.

m Bereich Vision soll Fable 5 das neue State-of-the-Art-Modell sein. Es kann laut Anthropic präzise Zahlen aus detaillierten wissenschaftlichen Abbildungen extrahieren und den Quellcode einer Web-App allein aus Screenshots rekonstruieren. Als Demonstration habe Fable 5 das Spiel Pokemon FireRed ausschließlich auf Basis von Spiel-Screenshots durchgespielt, ohne Karten, Navigationshilfen oder zusätzliche Spielzustandsinformationen. Frühere Claude-Modelle benötigten dafür ein komplexes Hilfsgerüst mit zusätzlichen Tools.

Auch beim Langzeitgedächtnis zeigt sich angeblich ein Fortschritt. Fable 5 bleibt laut Anthropic über Millionen von Tokens fokussiert und verbessert seine Ergebnisse durch eigene Notizen. Konkrete Benchmarks nennt Anthropic hier nicht.

Medikamentendesign und autonome Genomik-Forschung

Anthropics interne Proteindesign-Experten berichten, dass Mythos 5 Aspekte des Medikamentendesign-Prozesses um das Zehnfache beschleunigt habe. In einem Testfall habe das Modell, ausgestattet mit Proteindesign- und Bioinformatik-Tools, aber ohne menschliche Unterstützung, die Leistung erfahrener menschlicher Operatoren erreicht oder übertroffen.

Dabei habe es alle Aufgaben eines Wissenschaftlers übernommen. Es wählte Bindungsstellen aus, startete und führte Proteindesign-Tools aus und behob Fehler selbstständig. Neun von 14 Protein-Targets hätten starke Kandidaten für das Medikamentendesign geliefert, die derzeit untersucht werden.

Mythos 5 sei zudem das erste Modell, das konsistent neuartige und überzeugende wissenschaftliche Hypothesen produziere. In verblindeten Vergleichen hätten Anthropics Wissenschaftler die Hypothesen von Mythos in der Molekularbiologie in rund 80 Prozent der Fälle gegenüber denen von Opus-Klasse-Modellen bevorzugt. Eine dieser Hypothesen, ein neuartiger Mechanismus für ein E.-coli-Protein, sei durch eine unabhängige Studie gestützt worden.

In der Genomik habe Mythos 5 über eine Woche weitgehend autonom gearbeitet. Es stellte Einzelzell-Daten für Millionen von Zellen aus 138 Tierarten zusammen, entwarf und trainierte ein eigenes Machine-Learning-Modell zur Identifikation von Zellen mit gleicher Funktion in entfernt verwandten Organismen. Das Ergebnis soll ein kürzlich im Fachjournal Science publiziertes Modell übertroffen haben, obwohl es 100-mal kleiner war. Anthropic plant, diese Ergebnisse in den kommenden Monaten zu veröffentlichen.

Mythos 5 bleibt vorerst ein geschlossenes Werkzeug für Cyberverteidiger

Claude Mythos 5 wird zunächst weiter über Project Glasswing in Zusammenarbeit mit der US-Regierung bereitgestellt. Es ersetzt das bisherige Claude-Mythos-Preview. Laut Anthropic handelt es sich um das Modell mit den stärksten Cybersecurity-Fähigkeiten weltweit. Auf dem ExploitBench-Benchmark erreicht es 78 Prozent, verglichen mit 69 Prozent für Mythos Preview und 40 Prozent für Opus 4.8.

Alle bisherigen Nutzer von Mythos Preview können auf Mythos 5 upgraden. In Absprache mit der US-Regierung soll der Zugang schrittweise erweitert werden. Anthropic plant zudem ein Trusted-Access-Programm für die Biologie. Dabei erhalten ausgewählte Forscher Zugang zu Fable 5 ohne die Biologie- und Chemie-Safeguards, wobei die Cyber-Safeguards bestehen bleiben.

Preis gegenüber Opus verdoppelt sich fast

Beide Modelle kosten 10 Dollar pro Million Input-Tokens und 50 Dollar pro Million Output-Tokens. Laut Anthropic ist das weniger als die Hälfte des Preises von Claude Mythos Preview, aber deutlich teurer als die aktuellen Claude-Opus-Modelle. Wie teuer die Fable-Mythos-Modelle in der Praxis tatsächlich sind, muss sich zeigen, wenn der Tokenverbrauch pro Aufgabe in Relation zu den Kosten pro Million Tokens gestellt werden kann. In der Claude-App verwendet Fable doppelt so viel der Flatrate-Nutzungskapazität, die aber nicht zwingend den Tokenverbrauch widerspiegeln muss.

Modell Base Input Tokens 5m Cache Writes 1h Cache Writes Cache Hits & Refreshes Output Tokens

Claude Fable 5	10 Dollar / MTok	12,50 Dollar / MTok	20 Dollar / MTok	1 Dollar / MTok	50 Dollar / MTok
Claude Mythos 5 (eingeschränkte Verfügbarkeit)	10 Dollar / MTok	12,50 Dollar / MTok	20 Dollar / MTok	1 Dollar / MTok	50 Dollar / MTok
Claude Opus 4.8	5 Dollar / MTok	6,25 Dollar / MTok	10 Dollar / MTok	0,50 Dollar / MTok	25 Dollar / MTok

Fable 5 ist ab sofort über die Claude-API und verbrauchsbasierte Enterprise-Pläne verfügbar. Für Abonnement-Pläne (Pro, Max, Team, seat-basiertes Enterprise) gilt eine gestaffelte Einführung. Bis zum 22. Juni ist Fable 5 ohne Zusatzkosten enthalten, ab dem 23. Juni wird die Nutzung nur noch über sogenannte Usage-Credits möglich sein. Langfristig will Anthropic das Modell wieder regulär in die Abo-Pläne integrieren, sobald die Kapazitäten ausreichen.

Opus-Fallback-Regel bei Cybersecurity

Modelle der Mythos-Klasse sind laut Anthropic so leistungsfähig, dass sie erhebliche Risiken bergen, etwa bei Cyberangriffen oder in der Biowaffenforschung. Fable 5 nutzt daher neue KI-Klassifikatoren, die gefährliche Anfragen erkennen und automatisch an das schwächere Modell Claude Opus 4.8 weiterleiten. Mehr als 95 Prozent der Sitzungen seien davon nicht betroffen.

Die Klassifikatoren decken drei Bereiche ab. Erstens Cybersicherheit, zweitens Biologie und Chemie, drittens sogenannte Destillation, also das Abgreifen von Modellfähigkeiten durch Dritte. Bei Cyber-Tests erreichte Fable 5 eine Erfolgsrate von null Prozent bei offensiven Aufgaben. Externe Tester fanden in über 1000 Stunden keinen universellen Jailbreak.

Anthropic räumt ein, dass die Filter derzeit zu streng sind und auch harmlose Anfragen blockieren können. Zudem führt das Unternehmen eine 30-Tage-Datenspeicherung für alle Mythos-Modelle ein, um neue Angriffe zu erkennen. Weitere Details finden sich in der System Card und im Risikobericht.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article