Ein neuer Benchmark zeigt: Selbst autonome KI-Agenten scheitern an komplexen Finanzaufgaben. Trotz intensiver Tool-Nutzung und hoher Kosten bleiben die Ergebnisse hinter den Anforderungen zurück.
Laut einem neuen Benchmark von Vals.ai sind selbst die fortschrittlichsten KI-Agenten derzeit ungeeignet für den zuverlässigen Einsatz bei Finanzanalysen. Das beste getestete Modell, OpenAIs o3, erreichte lediglich 48,3 Prozent Genauigkeit – bei durchschnittlichen Kosten von 3,69 US-Dollar pro Antwort.
Die Studie wurde gemeinsam mit einem Stanford-Labor und einer global systemrelevanten Bank entwickelt. Sie basiert auf 537 Aufgaben, die typische Tätigkeiten von Finanzanalyst:innen abbilden, wie SEC-Dokumentenrecherche, Marktanalysen oder Prognosen. Insgesamt wurden 22 führende Foundation-Modelle getestet.
Der "Accuracy"-Score in der Tabelle von Vals.ai gibt an, wie viele der gestellten Aufgaben ein KI-Modell korrekt beantwortet hat – gemessen in Prozent. Es handelt sich um den durchschnittlichen Anteil korrekter Endantworten über alle getesteten Fragen im Finance Agent Benchmark. Die Bewertung umfasst dabei Faktenwissen und die Fähigkeit zur Nutzung von Recherchetools und zur Durchführung finanzanalytischer Schlussfolgerungen. | Bild: Vals.aiEinfaches funktioniert, Analyse nicht
Die Modelle konnten einfache Aufgaben wie das Extrahieren von Zahlenwerten oder das Zusammenfassen von Absätzen mit durchschnittlich 30 bis 38 Prozent Genauigkeit lösen. Anspruchsvollere Aufgaben, etwa Trendanalysen oder Finanzmodellierung, überforderten die Systeme fast vollständig. In der Kategorie "Trends" erzielten zehn Modelle null Prozent. Die beste Leistung stammte von Claude 3.7 Sonnet mit nur 28,6 Prozent.
Anzeige
THE DECODER Newsletter
Die wichtigen KI-News direkt ins E-Mail-Postfach.
✓ 1x wöchentlich
✓ kostenlos
✓ jederzeit kündbar
Die Benchmark-Umgebung stellte den KI-Agenten Tools wie EDGAR-Zugriff, Google-Suche und HTML-Parser zur Verfügung. Modelle wie o3 oder Claude 3.7 Sonnet (Thinking), die diese Tools umfangreich nutzten, schnitten besser ab. Andere Modelle, etwa Llama 4 Maverick, verzichteten weitgehend auf Tool-Nutzung und gaben Antworten ohne Recherche – mit entsprechend schwachen Resultaten.
Allerdings zeigt das Beispiel von GPT-4o Mini, dass auch intensive Tool-Nutzung nicht automatisch zu besseren Ergebnissen führt: Das Modell führte zwar die meisten Tool-Aufrufe durch, machte dabei aber systematisch Fehler in Format und Reihenfolge – und schnitt letztlich schlecht ab.
Einige komplexe Abfragen verursachten Kosten von mehr als fünf Dollar pro Abfrage. OpenAIs o1 war besonders ineffizient: teuer, aber wenig genau. Letztlich müssten diese Kosten mit den Kosten für menschliche Arbeitskraft in einem realen Szenario verglichen werden.
OpenAIs Modell o3 führt das Benchmark-Ranking bei Finanzaufgaben mit einer Genauigkeit von 48,3 Prozent an, ist mit durchschnittlich 3,69 US-Dollar pro Abfrage jedoch das teuerste getestete Modell. Claude 3.7 Sonnet liefert mit rund 43 bis 44 Prozent eine vergleichbare Leistung – zu deutlich niedrigeren Kosten von etwa einem Dollar pro Anfrage. OpenAIs Modell o1 zeigt hingegen das schlechteste Verhältnis von Preis zu Leistung: Bei rund 1,50 US-Dollar pro Abfrage erreicht es nur etwa 20 Prozent Genauigkeit. | Quelle: Vals.aiDie Modellantworten zeigen zudem eine große Bandbreite an Leistungen, obwohl die zugrunde liegende Technologie ähnlich ist. Bei einer Aufgabe zu den Aktienrückkäufen von Netflix im vierten Quartal 2024 lieferten Claude 3.7, Sonnet (Thinking) und Gemini 2.5 Pro korrekte, quellenbasierte Antworten. GPT-4o und Llama 3.3 hingegen fanden keine oder falsche Informationen.
Das wiederum deutet darauf hin, dass Prompt Engineering, die System-Implementierung und insbesondere das interne Benchmarking weiter relevante menschliche Aufgaben beim KI-Einsatz bleiben.
Empfehlung
Lücke zwischen Anspruch und Realität
Die Ergebnisse zeigen laut Vals.ai, dass heutige KI-Agenten zwar in der Lage sind, einfache, aber zeitintensive Aufgaben zu übernehmen. Für den Einsatz in stark regulierten Branchen wie dem Finanzwesen seien sie aber bisher nicht zuverlässig genug. Insbesondere bei Aufgaben mit hoher Komplexität oder Kontextsensitivität sei ein Einsatz als alleinige Entscheidungsgrundlage derzeit nicht vertretbar.
Das Urteil der KI-Bewerter fällt eindeutig aus: Trotz erheblicher Investitionen in autonome KI-Agenten für das Finanzwesen offenbare ihr Benchmark eine deutliche Lücke zwischen Marktversprechen und tatsächlicher Einsatzreife.
Die Modelle seien zwar in der Lage, einfache Daten aus Dokumenten zu extrahieren, scheitern aber an dem tiefgreifenden finanziellen Reasoning, das notwendig wäre, um Analystenarbeit wirklich zu ergänzen – oder zu ersetzen.
Vals.ai stellt das Benchmark-Framework quelloffen zur Verfügung. Die Testdaten bleiben privat, um gezieltes Training darauf zu verhindern. Eine detaillierte Auswertung der Benchmark-Resultate gibt es hier.



