Bestes KI-Modell löst nur 3 Prozent realistischer Wissensarbeit vollständig korrekt

1 hour ago 1

Selbst das beste KI-Modell scheitert an realistischer Wissensarbeit: Es löst nur 3 Prozent der Aufgaben vollständig korrekt.

Im neuen AA-Briefcase-Benchmark von Artificial Analysis müssen Modelle mehrwöchige Wissensarbeitsprojekte mit tausenden fragmentierten Quelldateien bewältigen, darunter Slack-Threads, E-Mails, Meeting-Transkripte und große Datenexporte. Spitzenreiter Claude Fable 5 erreicht zwar die höchste Rubrik-Erfolgsquote, erfüllt aber nur bei 3 Prozent der Aufgaben sämtliche Kriterien. Bei 31 von 91 Aufgaben schafft kein einziges Modell mehr als 50 Prozent.

Die Fehlerarten verschieben sich dabei mit steigender Kompetenz: Schwächere Modelle scheitern an der reinen Ausführung, denn sie übersehen relevante Dateien oder liefern unbrauchbare Ergebnisse. Stärkere Modelle scheitern subtiler: Sie erfüllen die offensichtlichen Vorgaben, übersehen aber Detailanforderungen, die man sich erst aus verschiedenen Quellen zusammenpuzzeln muss.

Auffällig ist auch der enorme Kostenunterschied: Die Preise pro Aufgabe variieren um mehr als das 800-Fache, von rund 0,04 Dollar bei DeepSeek V4 Flash bis über 31 Dollar bei Claude Fable 5.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article