Anthropic veröffentlicht Claude Opus 4.8 als "bescheidenes, aber spürbares Update"

1 week ago 8

Anthropic bringt mit Claude Opus 4.8 ein Upgrade seines Spitzenmodells, das in den meisten Benchmarks führt und ehrlicher mit eigenen Fehlern umgehen soll.

Laut Anthropic übertrifft Opus 4.8 sowohl seinen Vorgänger als auch OpenAIs GPT-5.5 und Googles Gemini 3.1 Pro in den meisten getesteten Kategorien. Beim agentischen Coding (SWE-Bench Pro) erreicht das Modell 69,2 Prozent, gegenüber 64,3 Prozent bei Opus 4.7 und 58,6 Prozent bei GPT-5.5. Beim multidisziplinären Reasoning (Humanity's Last Exam) erzielt Opus 4.8 ohne Tools 49,8 Prozent und mit Tools 57,9 Prozent, jeweils Bestwerte im Vergleichsfeld.

Opus 4.8 im Vergleich mit Opus 4.7, GPT-5.5 und Gemini 3.1 Pro. | Bild: Anthropic

Weniger vorgetäuschter Fortschritt, mehr Ehrlichkeit

Laut Anthropic gehört die gesteigerte Ehrlichkeit des Modells zu den auffälligsten Verbesserungen. Ein generelles Problem von KI-Modellen sei, dass sie voreilig Schlüsse ziehen und Fortschritte behaupten, die sich bei näherer Betrachtung nicht halten.

Opus 4.8 soll Unsicherheiten häufiger kennzeichnen und unbegründete Behauptungen seltener aufstellen. Laut den Evaluierungen des Unternehmens lässt das Modell Fehler im eigenen Code etwa viermal seltener unkommentiert durch als sein Vorgänger.

Das Modell erreiche zudem neue Höchstwerte bei prosozialen Eigenschaften wie der Unterstützung von Nutzerautonomie. Täuschungsversuche oder anderes Fehlverhalten sollen auf Claude-Mythos-Niveau sein.  Details finden sich in der Claude Opus 4.8 System Card.

Dynamische Workflows und Effort-Steuerung als neue Funktionen

Größer als die Modellankündigung sind womöglich die neuen Features, die Anthropic parallel veröffentlicht hat, besonders die "dynamischen Workflows": Das Modell kann eine Aufgabe planen und dann Hunderte paralleler Subagenten in einer einzigen Sitzung starten. Laut Anthropic soll Claude Code mit Opus 4.8 damit Codebase-weite Migrationen über Hunderttausende Zeilen Code durchführen können, von der Planung bis zum Merge. Die Funktion ist für Enterprise-, Team- und Max-Tarife verfügbar.

Auf claude.ai und in Cowork können Nutzer nun über eine neue Steuerung neben der Modellauswahl festlegen, wie viel Aufwand Claude in eine Antwort investiert. Höhere Effort-Stufen führen zu tieferem Nachdenken und besseren Ergebnissen, niedrigere zu schnelleren Antworten bei geringerem Verbrauch der Rate-Limits.

Opus 4.8 ist standardmäßig auf "high" eingestellt. Für schwierige Aufgaben empfiehlt Anthropic die Stufe "extra" (in Claude Code "xhigh") oder "max". Diese verbrauchen allerdings mehr Token, was laut Anthropic bei der Claude-Code-Nutzung durch höhere Rate-Limits aufgefangen wird.

API-Preise bleiben gleich, Fast Mode wird günstiger

Der Fast Mode, der Opus 4.8 mit 2,5-facher Geschwindigkeit betreibt, kostet nun ein Drittel im Vergleich zu früheren Modellen. Die Preise liegen nun bei 10 Dollar pro Million Input-Tokens und 50 Dollar pro Million Output-Tokens.

Die regulären Preise bleiben gegenüber Opus 4.7 unverändert: 5 Dollar pro Million Input-Tokens und 25 Dollar pro Million Output-Tokens. Allerdings war 4.7 durch höheren Tokenverbrauch deutlich teurer als der Vorgänger 4.6, ohne in Alltagsaufgaben merkliche Fortschritte zu bringen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article