Mathe-Benchmark zeigt: KI-Modelle liefern selbstbewusst Antworten auf unlösbare Aufgaben

3 weeks ago 10

Ein Konsortium von 64 Mathematikern hat einen neuen Benchmark für KI-Modelle gebaut, der zwei Schwächen sichtbar macht: forschungsnahe Mathematik und das Erkennen unlösbarer Aufgaben.

Nach dem IMO-Gold-Niveau aktueller Spitzenmodelle sucht die KI-Forschung nach neuen mathematischen Messlatten. Der Benchmark namens SOOHAK, entwickelt unter anderem an der Carnegie Mellon University, bei EleutherAI und an der Seoul National University, besteht aus 439 selbst verfassten Aufgaben.

Sie teilen sich in zwei Bereiche auf: ein "Challenge"-Set mit 340 Aufgaben auf Graduierten- und Forschungsniveau sowie ein "Refusal"-Set mit 99 absichtlich fehlerhaften Problemen, die etwa Widersprüche enthalten oder keine eindeutige Antwort zulassen.

Anders als gängige Sammlungen wurde SOOHAK nicht aus Wettbewerben oder Lehrbüchern zusammengetragen, sondern komplett neu geschrieben, darunter 38 Professoren, 25 Promovierende und Postdocs sowie fünf IMO-Medaillisten. Jeder Beitragende musste vor der Einreichung versichern, ohne KI-Hilfe gearbeitet zu haben. Wer versuchte, LLM-generierte Aufgaben einzuschmuggeln, wurde ausgeschlossen.

Ablaufdiagramm der SOOHAK-Datensammlung mit Einreichung, automatisierten LLM-Prüfungen, manueller Moderation, Nachbesserungen und finalem Datensatz.

Forschungsnahe Mathematik bleibt eine harte Mauer

Auf dem Challenge-Set erreicht laut den Autoren Googles Gemini 3 Pro mit 30 Prozent die höchste Genauigkeit, gefolgt von GPT-5 (5.1, 5.2) mit 26 Prozent. Claude Opus 4.5 fällt auf 10 Prozent zurück. Frei verfügbare Modelle wie Kimi-2.5, Qwen3-235B und GPT-OSS-120B bleiben durchgehend unter 15 Prozent. 124 der Challenge-Aufgaben konnte kein einziges getestetes Modell lösen.

Tabelle mit SOOHAK-Ergebnissen für geschlossene und offene KI-Modelle. Die Leistungen sind bei SOOHAK-Mini deutlich höher als bei forschungsnahen Aufgaben und beim Erkennen fehlerhafter Aufgaben.

Auf dem leichteren Begleit-Set SOOHAK-Mini, das von Schulolympiaden bis zum frühen Universitätsniveau reicht, liegen die Werte deutlich höher, insbesondere die Spitzenmodelle rücken dort näher zusammen. Erst beim Sprung auf forschungsnahe Mathematik bricht das Niveau ein, besonders bei den frei verfügbaren Modellen. Das deutet nach Einschätzung der Autoren darauf hin, dass Open-Weight-Systeme schlechter auf unpubliziertes Material übertragen, weil ihnen die Trainingsabdeckung in Nischenbereichen fehlt.

Wenn die Aufgabe keine Lösung hat, raten die Modelle trotzdem

Der eigentliche Bruch mit bisherigen Benchmarks liegt im Refusal-Set ("Ablehnen"). Es enthält Aufgaben, die während der Qualitätskontrolle als unlösbar verworfen wurden, weil ihnen etwa Annahmen fehlen oder sie sich widersprechen. Ein Modell gilt nur dann als korrekt, wenn es den Mangel erkennt und benennt, statt selbstbewusst eine Zahl zu liefern.

Liniendiagramm mit Modellranglisten über SOOHAK-Teilmengen und sorgfältigkeitsbereinigte Kompositwerte; einige Modelle verbessern oder verschlechtern sich deutlich durch die Refusal-Bewertung.

Kein einziges Modell überschreitet hier die 50-Prozent-Marke. Am besten schneidet das frei verfügbare GLM-5 mit knapp unter 50 Prozent ab und übertrifft damit GPT-5 und Gemini 3 Pro. Die Qwen3-Familie fällt mit unter 3 Prozent dramatisch ab und scheitert damit fast immer daran, den Mangel der Aufgabe korrekt zu diagnostizieren.

Die Autoren beschreiben das Erkennen fehlerhafter Probleme als "neues Optimierungsziel, das aktuelle Modelle nicht direkt adressieren". Während die Lösungsraten mit größerem Modell und längerem Reasoning-Budget annähernd linear steigen, gilt das für Refusal nicht. Mehr Rechenleistung macht Modelle also besser im Lösen, aber nicht zurückhaltender im Eingestehen, dass eine Aufgabe gar keine Lösung hat.

Qwen3-Skalierung nach Modellgröße, Test-Time-Scaling mit mehr Rechenbudget und Anteil ungelöster Aufgaben in Mini-, Challenge- und Refusal-Set.

Olympiade-Erfahrung schlägt Forschungstiefe

Für eine menschliche Vergleichsmessung rekrutierte das Team 25 Teilnehmende in fünf Gruppen, von IMO-Medaillisten bis zu promovierten Mathematikerinnen. Auf einer Auswahl von 79 Aufgaben lösten die Gruppen zusammen 51 Prozent. Nur Gemini-3-Pro übertraf diese kombinierte menschliche Abdeckung mit 61 Prozent.

Balkendiagramm mit Modell- und Menschenergebnissen auf 79 SOOHAK-Aufgaben; Gemini-3-Pro liegt bei 60,8 Prozent und die kombinierte menschliche Abdeckung bei 50,6 Prozent.

Die Gruppe aus promovierten Forschenden schnitt schlechter ab als Studierende mit Olympiade-Hintergrund. Die Autoren führen das auf das Format zurück: Das 4,5-Stunden-Zeitfenster belohnt kurze Lösungswege, wie sie im Mathematik-Wettkampf trainiert werden, während die thematische Breite des Benchmarks engen Forschungsspezialisierungen wenig nützt. SOOHAK misst damit primär Wettbewerbsmathematik unter Zeitdruck, nicht Forschungstiefe.

Embargo bis Ende 2026 und Grenzen des Formats

Um Kontamination der Trainingsdaten zu verhindern, bleibt der vollständige Datensatz bis Ende 2026 unter Verschluss. Bis dahin bietet das Team Modellauswertungen auf Anfrage an.

Im Rückblick räumen die Autoren ein, dass das Format mit eindeutigen Zahlenantworten an Grenzen stößt. Viele Bereiche der höheren Mathematik ließen sich natürlicher über Beweise, Konstruktionen oder Gegenbeispiele bewerten. Künftige Benchmarks müssten reichhaltigere Verfahren entwickeln, etwa über formale Beweisassistenten oder selektive Expertenbewertung.

Wie tief KI-Modelle tatsächlich in die Forschungsmathematik vordringen, ist umstritten. Der Fields-Medaillist Timothy Gowers berichtete kürzlich, dass ChatGPT 5.5 Pro in unter zwei Stunden ein Ergebnis auf Promotionsniveau in der Zahlentheorie erzielte und eine exponentielle Schranke auf eine polynomielle verbesserte. Auch GPT-5.2 Pro lieferte einen neuen Beweis zum Erdős-Problem #281, den der Mathematiker Terence Tao als "ziemlich anders" als frühere Beweise einstufte.

Tao selbst ordnet solche Erfolge jedoch zurückhaltend ein: In einer systematischen Auswertung offener Erdős-Probleme liege die tatsächliche Erfolgsquote der Modelle nur bei ein bis zwei Prozent und konzentriere sich auf die einfacheren Fälle. Genau diese Lücke zwischen einzelnen spektakulären Treffern und breiter Forschungskompetenz versucht SOOHAK systematisch messbar zu machen.

Read Entire Article