Der britische Mathematiker Timothy Gowers ließ ChatGPT 5.5 Pro an offenen Problemen der Zahlentheorie arbeiten. Das Modell verbesserte eine bestehende mathematische Schranke erheblich. Ein beteiligter Nachwuchsforscher nennt die Schlüsselidee des Modells "vollkommen originell".
Der Fields-Medaillist Timothy Gowers berichtet in seinem Blog, dass ChatGPT 5.5 Pro ein Stück mathematischer Forschung auf Promotionsniveau produziert hat. Sein eigener mathematischer Beitrag sei dabei gleich null gewesen. Das Modell habe die gesamte Arbeit in weniger als zwei Stunden erledigt.
Gowers, Inhaber des Kombinatorik-Lehrstuhls am College de France und Fellow am Trinity College Cambridge, hatte dem Modell offene Probleme aus einem Paper des Zahlentheoretikers Mel Nathanson vorgelegt. Nathanson untersucht darin, welche Größen bestimmte Summenmengen ganzer Zahlen annehmen können und wie effizient sich Mengen mit vorgeschriebenen Eigenschaften konstruieren lassen.
Bestmögliche Lösung nach 17 Minuten
Nathanson hatte für eines der Probleme eine exponentielle Schranke bewiesen und gefragt, ob sich diese verbessern lasse. ChatGPT 5.5 Pro dachte laut Gowers 17 Minuten und 5 Sekunden nach und lieferte dann eine bestmögliche Konstruktion mit einer quadratischen Schranke. Die Grundidee: Das Modell ersetzte eine Komponente in Nathansons Beweis durch eine effizientere Variante, die in der Kombinatorik zwar bekannt ist, deren Anwendung auf dieses Problem aber nicht offensichtlich war.
Auf Anfrage schrieb ChatGPT das Argument in 2 Minuten und 23 Sekunden als LaTeX-Preprint um. Gowers prüfte die Korrektheit und ließ das Modell anschließend eine verwandte Variante lösen, was ihm problemlos gelang. Beide Resultate sind als Preprint verfügbar.
Schrittweise Eskalation zum eigentlichen Durchbruch
Deutlich anspruchsvoller war eine verallgemeinerte Version des Problems. Hier existierte eine Vorarbeit von Isaac Rajagopal, einem Studenten am MIT, der eine exponentielle Abhängigkeit nachgewiesen hatte. Gowers gab ChatGPT Rajagopals Paper und bat um eine Verbesserung.
Was folgte, war eine schrittweise Eskalation: Nach 16 Minuten und 41 Sekunden lieferte das Modell eine erste Verbesserung. Rajagopal beurteilte diesen Schritt als korrekt, aber als routinemäßige Abwandlung seiner Arbeit. Gowers wurde daraufhin, wie er schreibt, "gierig" und bat ChatGPT, eine wesentlich stärkere Schranke zu versuchen.
Nach 13 Minuten und 33 Sekunden meldete das Modell Optimismus, zwei technische Aussagen mussten aber noch geprüft werden. Weitere 9 Minuten und 12 Sekunden später war die Prüfung erledigt. In 31 Minuten und 40 Sekunden entstand das fertige Preprint. Das Modell hatte die Schranke von exponentiell auf polynomiell verbessert.
Laut Gowers erklärte Rajagopal das Ergebnis für mit hoher Wahrscheinlichkeit korrekt: auf der Ebene einzelner Beweisschritte und ebenso der zugrundeliegenden Ideen.
"Die Art von Idee, auf die ich nach ein oder zwei Wochen Nachdenken sehr stolz wäre"
Rajagopal Urteil fällt differenziert aus: Die erste Verbesserung sei eine "routinemäßige Modifikation" seiner eigenen Arbeit gewesen. Die Verbesserung auf eine polynomielle Schranke hingegen sei "ziemlich beeindruckend".
Die Schlüsselidee des Modells nennt Rajagopal "ziemlich genial". Es habe einen kontraintuitiven Weg gefunden, bestimmte algebraische Strukturen so zu komprimieren, dass sie in einen wesentlich kleineren Zahlenbereich passen, ohne ihre entscheidenden kombinatorischen Eigenschaften zu verlieren.
"Es ist die Art von Idee, auf die ich nach ein oder zwei Wochen Nachdenken sehr stolz wäre, und ChatGPT brauchte weniger als eine Stunde, um sie zu finden und zu beweisen", schreibt Rajagopal. Soweit er beurteilen könne, sei die Idee "vollkommen originell".
Gowers: Mathematische Ausbildung steht vor einem Umbruch
Das Niveau des Ergebnisses stuft Gowers als "ein durchaus ordentliches Kapitel einer Kombinatorik-Dissertation" ein. Es sei kein erstaunliches Resultat, da es stark auf Rajagopals Ideen aufbaue, aber definitiv eine nicht-triviale Erweiterung. Für einen Doktoranden hätte es erhebliche Zeit erfordert, Rajagopals Paper zu durchdringen, Schwachstellen zu identifizieren und die Techniken zu adaptieren.
Daraus zieht er weitreichende Schlüsse: "Die Untergrenze für einen Beitrag zur Mathematik besteht jetzt darin, etwas zu beweisen, das LLMs nicht beweisen können, und nicht mehr einfach darin, etwas zu beweisen, das bisher niemand bewiesen hat." Er relativiert das allerdings: Doktoranden könnten LLMs als Werkzeug nutzen. Die eigentliche Aufgabe werde dann, in Zusammenarbeit mit LLMs etwas zu schaffen, das diese allein nicht bewältigen.
Gowers formuliert ein Gedankenexperiment: "Angenommen, ein Mathematiker löst ein bedeutendes Problem durch einen langen Austausch mit einem LLM, bei dem der Mathematiker eine nützliche Führungsrolle spielt, aber das LLM die gesamte technische Arbeit erledigt und die Hauptideen hat. Würden wir das als große Leistung des Mathematikers betrachten? Ich glaube nicht."
Dennoch sieht er Wert im eigenen mathematischen Ringen. Wer selbst schwierige Probleme gelöst habe, bekomme Einsichten in den Problemlösungsprozess, die durch bloßes Lesen nicht zu erreichen seien.
"Genauso wie sehr gute Programmierer besser im Vibe-Coding sind als weniger gute Programmierer", schreibt Gowers. Seine Prognose: Wer heute eine Promotion beginne und frühestens 2029 abschließe, werde erleben, dass sich mathematische Forschung bis dahin "bis zur Unkenntlichkeit" verändert habe.
Diese Schilderung erinnert an die Vision des Star-Mathematikers Terence Tao, der eine durch KI-Werkzeuge ermöglichte "Industrialisierung der Mathematik" beschrieb, in der große Teams mit KI-Unterstützung breiter angelegte Forschung betreiben, statt dass Einzelkämpfer jahrelang an engen Problemen arbeiten.
Tao verglich KI-Modelle damals allerdings noch mit "mittelmäßigen, aber nicht völlig inkompetenten" Forschungsassistenten. Gowers' Erfahrung mit ChatGPT 5.5 Pro deutet darauf hin, dass diese Einschätzung bereits überholt sein könnte; auch Taos letzte Äußerungen waren weitaus positiver.
Fortschritte generativer KI in der Mathematik
Ein frühes Beispiel für den Einsatz von KI in der Mathematik war die Nutzung von GPT-5 als Recherchetool. OpenAI-Forscher sprachen davon, ein GPT-Modell habe die Lösung für ein Erdős-Problem "gefunden". Tatsächlich hatte die KI jedoch lediglich eine bereits existierende Lösung in der Fachliteratur aufgespürt und keinen eigenen Beweis entwickelt.
Ein deutlicher Sprung zeigte sich, als GPT-5.2 Pro das Erdős-Problem #728 laut Tao "mehr oder weniger autonom" löste. Eine entsprechende Lösung ließ sich in der existierenden Literatur nicht finden.
Parallel dazu veröffentlichte ein Physiker ein Paper, dessen zentrale Idee von GPT-5 stammte. Der Autor erwartet, dass hybride Mensch-KI-Kollaborationen bald zum Standard in Mathematik, Physik und anderen formal geprägten Wissenschaften werden. Mit wachsender Präzision könnten große Sprachmodelle zunehmend als autonome Forschungsagenten arbeiten.
Warnungen vor voreiligen Schlüssen
Google DeepMind lieferte mit seinem KI-Agenten Aletheia sowohl Durchbrüche als auch eine ernüchternde Fehlerquote. Das System baut auf Gemini Deep Think auf. Es verfasste eigenständig ein Mathematik-Paper, widerlegte eine jahrzehntealte Vermutung und deckte einen Fehler in einer Kryptographie-Arbeit auf. Allerdings waren bei einer systematischen Auswertung an 700 offenen Mathematikproblemen nur 6,5 Prozent der KI-Antworten tatsächlich brauchbar.
Auch Tao versieht seine Berichte konsequent mit Warnhinweisen. Erdős-Probleme variieren um "mehrere Größenordnungen" in ihrer Schwierigkeit. Wenn ein Problem 50 Jahre alt sei und nun von einer KI gelöst werde, bedeute das nicht automatisch, dass es 50 Jahre lang allen menschlichen Bemühungen widerstanden habe. Oft habe sich schlicht niemand ernsthaft damit beschäftigt.



