Eine neue Studie zeigt, dass aktuelle Reasoning-Modelle die anspruchsvolle Finanzanalysten-Prüfung meistern. Gemini 3.0 Pro erreicht bei Level I einen Rekordwert von 97,6 Prozent.
Die CFA-Zertifizierung (Chartered Financial Analyst) gilt als eine der anspruchsvollsten Qualifikationen im Finanzbereich. Die dreistufige Prüfung testet aufeinander aufbauende Fähigkeiten: Grundlagenwissen, Anwendung und Analyse sowie komplexe Portfoliokonstruktion.
Noch vor gut zwei Jahren scheiterten die damals führenden Sprachmodelle an der Chartered Financial Analyst (CFA) Prüfung, einer der anspruchsvollsten Zertifizierungen für Finanzprofis weltweit. ChatGPT (3.5) fiel bei Level I und II durch, GPT-4 schaffte zwar Level I, versagte aber bei Level II. GPT-4o schaffte als reines Sprachmodell alle drei Level.
Eine neue Studie von Forschern der Columbia University, des Rensselaer Polytechnic Institute und der University of North Carolina zeigt nun: Die aktuelle Generation der Reasoning-Modelle besteht alle drei Prüfungsstufen mit teils nahezu perfekten Ergebnissen.
Die Forscher testeten sechs Modelle auf insgesamt 980 Prüfungsfragen: drei Level-I-Prüfungen mit 540 Multiple-Choice-Fragen, zwei Level-II-Prüfungen mit 176 fallbasierten Fragen und drei Level-III-Prüfungen mit 264 Fragen, darunter auch offene Antwortformate. Das Ergebnis: Gemini 3.0 Pro, Gemini 2.5 Pro, GPT-5, Grok 4, Claude Opus 4.1 und DeepSeek-V3.1 bestehen alle drei Levels nach den etablierten Kriterien früherer Studien.
Gemini und GPT-5 dominieren die Rangliste
Bei Level I, der Grundlagenprüfung mit unabhängigen Multiple-Choice-Fragen, erreicht laut der Studie Gemini 3.0 Pro einen Rekordwert von 97,6 Prozent. GPT-5 folgt mit 96,1 Prozent, Gemini 2.5 Pro mit 95,7 Prozent. Selbst das schwächste getestete Reasoning-Modell, DeepSeek-V3.1, kommt auf 90,9 Prozent.
Level II, das Anwendung und Analyse anhand von Fallstudien testet, führt GPT-5 mit 94,3 Prozent an. Gemini 3.0 Pro erreicht 93,2 Prozent, Gemini 2.5 Pro 92,6 Prozent. Die Forscher betonen, dass die Modelle hier "nahezu perfekte Ergebnisse" erzielen.
Die komplexeste Stufe, Level III, kombiniert Multiple-Choice-Fragen mit offenen Antwortformaten, die komplexe Synthese und Portfoliokonstruktion erfordern. Bei den Multiple-Choice-Fragen schneidet Gemini 2.5 Pro mit 86,4 Prozent am besten ab. Bei den konstruierten Antworten hingegen dominiert Gemini 3.0 Pro mit 92,0 Prozent, verglichen mit 82,8 Prozent bei seinem Vorgänger.
Am schwächsten schnitten die Modelle im Bereich Ethik ab: Die Forscher berichten von relativen Fehlerquoten von etwa 17 bis 21 Prozent bei Level II, selbst bei den leistungsstärksten Modellen.
| Level I (Multiple-Choice) | Gemini 3.0 Pro | 97,6% |
| Level II (Multiple-Choice) | GPT-5 | 94,3% |
| Level III (Multiple-Choice) | Gemini 2.5 Pro | 86,4% |
| Level III (Konstruierte Antworten) | Gemini 3.0 Pro | 92,0% |
| Gesamtranking | Gemini 3.0 Pro | Platz 1 |
Ob ein Modell ein Level besteht, hängt in der Studie an festgelegten Schwellenwerten aus früheren Arbeiten: Level I gilt als bestanden, wenn in jedem Topic mindestens 60% und insgesamt mindestens 70% erreicht werden. Für Level II liegen die Grenzen bei mindestens 50% je Topic und mindestens 60% insgesamt. Level III wird bestanden, wenn der Durchschnitt aus Multiple-Choice- und Constructed-Response-Ergebnis mindestens 63% beträgt.
Die Autoren bewerten die Modelle nicht an offiziellen CFA-Prüfungsfragen, sondern an einem „mock exam dataset“ mit insgesamt 980 Fragen über alle drei Levels. Der Datensatz wurde aus zwei Quellen zusammengestellt: dem offiziellen CFA Institute Practice Pack und AnalystPrep. Während Level I und II auf offiziellem CFA-Material basieren, stammt Level III aus Drittanbieter-Mock-Exams (AnalystPrep), um die Vergleichbarkeit mit früheren Arbeiten zu wahren.
Die Bewertung der offenen Antworten erfolgt automatisiert durch o4-mini, was laut Studie Messfehler und einen möglichen „verbosity bias“ mit sich bringt, bei dem ausführliche Antworten bevorzugt werden. Die Resultate sind daher als modellbasierte Annäherung zu verstehen.
Benchmarks sind kein Praxistest
Die Ergebnisse deuten laut den Forschern darauf hin, dass aktuelle Modelle "die Expertise übertreffen, die von Finanzanalysten auf Einstiegs- bis mittlerem Niveau erwartet wird". Sie könnten in Zukunft "Senior-Level"-Kompetenz erreichen. Die Modelle hätten das "kodifizierte Wissen" der Levels I und II weitgehend gemeistert, während die neueste Generation spezifisch Fähigkeiten in der komplexen Synthese ausbaue, die für Level III erforderlich seien.
Wie immer gilt hier die Einschränkung, dass Benchmarks, speziell Multiple-Choice-Formate, maximal ein Indiz für die Leistungsfähigkeit und mögliche wirtschaftliche Auswirkungen in einem Bereich sind. Eine bestandene Prüfung bedeutet nicht, dass ein Modell die tägliche Arbeit eines Finanzanalysten übernehmen kann, etwa das Führen von Kundengesprächen, das Einschätzen von Marktsentiment oder das Treffen von Entscheidungen unter Unsicherheit mit unvollständigen Informationen.
Die Studie selbst weist darauf hin, dass die Modelle bei ethischen Fragen, die oft Kontextverständnis und Urteilsvermögen erfordern, weiterhin die höchsten Fehlerquoten aufweisen. Zudem testet eine Prüfungssituation isoliertes Wissen und nicht die Fähigkeit, dieses Wissen in komplexen, sich verändernden Situationen anzuwenden, wie sie im Berufsalltag auftreten.
Die Forscher können zudem nicht ausschließen, dass Teile der Prüfungsfragen in den Trainingsdaten der Modelle enthalten waren. Sie verwendeten zwar aktuelle, kostenpflichtige Materialien, aber indirekte Kontamination durch paraphrasierte Inhalte in öffentlichen Korpora sei möglich.
Dennoch zeigt der Fortschritt von "durchgefallen" zu "nahezu perfekt" innerhalb von zwei Jahren, wie schnell sich die Fähigkeiten von KI-Modellen in spezialisierten Wissensdomänen entwickeln. Für die Finanzbranche dürfte die Frage weniger sein, ob KI-Systeme Fachwissen beherrschen, sondern wie sich dieses Wissen sinnvoll in bestehende Arbeitsabläufe integrieren lässt.



