Selbst das beste KI-Modell scheitert an realistischer Wissensarbeit: Es löst nur 3 Prozent der Aufgaben vollständig korrekt.
Im neuen AA-Briefcase-Benchmark von Artificial Analysis müssen Modelle mehrwöchige Wissensarbeitsprojekte mit tausenden fragmentierten Quelldateien bewältigen, darunter Slack-Threads, E-Mails, Meeting-Transkripte und große Datenexporte. Spitzenreiter Claude Fable 5 erreicht zwar die höchste Rubrik-Erfolgsquote, erfüllt aber nur bei 3 Prozent der Aufgaben sämtliche Kriterien. Bei 31 von 91 Aufgaben schafft kein einziges Modell mehr als 50 Prozent.
Anthropics Claude Fable 5 ist das stärkste Modell, löst aber nur 3 Prozent der Aufgaben komplett. | Bild: AAIIDie Fehlerarten verschieben sich dabei mit steigender Kompetenz: Schwächere Modelle scheitern an der reinen Ausführung, denn sie übersehen relevante Dateien oder liefern unbrauchbare Ergebnisse. Stärkere Modelle scheitern subtiler: Sie erfüllen die offensichtlichen Vorgaben, übersehen aber Detailanforderungen, die man sich erst aus verschiedenen Quellen zusammenpuzzeln muss.
Auffällig ist auch der enorme Kostenunterschied: Die Preise pro Aufgabe variieren um mehr als das 800-Fache, von rund 0,04 Dollar bei DeepSeek V4 Flash bis über 31 Dollar bei Claude Fable 5.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.



