Statt selbst Regeln für effizienteres KI-Reasoning zu schreiben, lassen Forscher einen Coding-Agenten in einer simulierten Umgebung nach besseren Steuerungsalgorithmen suchen. Das Ergebnis schlägt etablierte Verfahren bei deutlich geringerem Rechenaufwand.
Test-Time Scaling (TTS) soll die Leistung großer Sprachmodelle verbessern, indem das Modell während der Antwort mehr Rechenleistung investiert, etwa durch mehrere parallele Lösungswege oder längere Gedankenketten. Wann ein Modell einen neuen Lösungsweg startet, einen vielversprechenden vertieft oder abbricht, entscheiden bislang fast immer Regeln aus menschlicher Handarbeit.
Ein Forschungsteam von UMD, UVA, WUSTL, UNC, Google und Meta dreht den Spieß mit AutoTTS um: Nicht der Algorithmus selbst soll von Menschen entwickelt werden, sondern die Umgebung, in der ein KI-Agent solche Algorithmen automatisch findet.
Viele bekannte Verfahren lassen sich laut dem Paper als Sonderfälle in einem gemeinsamen Steuerungsraum aus Breite (wie viele Lösungswege parallel laufen) und Tiefe (wie weit jeder einzelne verfolgt wird) verstehen. Warum, so die Autoren, legen Forscher die Pfade durch diesen Raum dann weiterhin selbst fest, statt sie systematisch durchsuchen zu lassen?
Eine simulierte Umgebung macht die Suche bezahlbar
Den Kern von AutoTTS bildet eine Offline-Umgebung. Für jede Aufgabe erzeugt das Team vorab viele Lösungswege des Sprachmodells und speichert sie ab. Ein neuer Steuerungsalgorithmus muss das Modell anschließend nicht mehr selbst aufrufen, sondern entscheidet nur noch auf Basis dieser bereits erzeugten Daten, wie er Rechenleistung verteilen würde. So lassen sich tausende Varianten durchspielen, ohne das eigentliche Sprachmodell jedes Mal neu zu starten.
AutoTTS verlegt den menschlichen Anteil von der Algorithmus- auf die Umgebungsgestaltung: Statt Verzweigungs-, Beschneidungs- und Stoppregeln festzulegen, definieren die Forscher Zustände, Aktionen und Rückmeldungen. In dieser Umgebung sucht ein Agent dann selbst nach einer Steuerung. | Bild: Zheng et al.Die eigentliche Suche übernimmt Claude Code als Explorer. In mehreren Runden liest der Agent die bisherige Historie, analysiert die Schwächen vorheriger Vorschläge und schreibt einen neuen Steuerungsalgorithmus direkt als Code. Damit die Suche nicht in tausenden Stellschrauben versinkt, darf jeder Vorschlag nur einen einzigen, übergeordneten Regler nach außen anbieten, der intern alle weiteren Schwellenwerte bestimmt. Vollständige Protokolle der Programmläufe zeigen dem Agenten zudem, an welchen Stellen vorhergehende Versuche Rechenleistung verschwendet haben.
Viele etablierte Verfahren des Test-Time-Scaling lassen sich als unterschiedliche Pfade durch denselben Steuerungsraum aus Breite und Tiefe lesen. AutoTTS sucht in genau diesem Raum nach neuen Pfaden.| Bild: Zheng et al.Entdeckter Algorithmus schlägt etablierte Verfahren
Auf mathematischen Benchmarks wie AIME und HMMT liefert der gefundene Algorithmus ein besseres Verhältnis von Genauigkeit zu Rechenaufwand als die gängigen Vergleichsverfahren. In der sparsamen Einstellung sinkt der Tokenverbrauch laut den Autoren um rund 70 Prozent gegenüber dem Standardverfahren Self-Consistency, das einfach 64 Antworten parallel erzeugt und über Mehrheitsabstimmung das Endergebnis bestimmt. Die Genauigkeit bleibt dabei vergleichbar.
Der Algorithmus überträgt sich auch auf ein anderes Modell (DeepSeek-R1-Distill-Llama-8B) und auf einen Benchmark außerhalb der Mathematik (GPQA-Diamond). Die komplette Entdeckung kostete einmalig rund 40 US-Dollar und 160 Minuten Rechenzeit.
Auf vier Modellgrößen und zwei Mathematik-Benchmarks liefert der von AutoTTS gefundene Algorithmus eine bessere oder vergleichbare Genauigkeit bei geringerem Tokenverbrauch als die handgeschriebenen Verfahren. | Bild: Zheng et al.Eine Logik, die per Hand kaum entstanden wäre
Aufschlussreicher als die Zahlen ist die Funktionsweise des entdeckten Programms. Es beobachtet, wie sich die Sicherheit des Modells über mehrere Runden hinweg entwickelt. Andere Verfahren brechen sofort ab, sobald eine momentane Mehrheit unter den Antworten kippt.
Steigt diese Sicherheit kaum noch, öffnet der Algorithmus zusätzliche Lösungswege; wächst sie deutlich, spart er sich neue Pfade. Lösungswege, deren Zwischenergebnis zur aktuellen Mehrheit passt, erhalten zusätzliche Rechenschritte. Abweichende Pfade verwirft der Algorithmus erst, wenn sie über mehrere Runden hinweg in eine andere Richtung laufen.
Diese Verzahnung halten die Autoren für eine Koordination, die manuell kaum zu finden gewesen wäre. Eine Ablation untermauert, wie viel an den beiden Designentscheidungen hängt: Ohne den einzelnen übergeordneten Regler verfällt der Agent auf extreme Lösungen, die im Test stark Rechenleistung sparen, bei neuen Aufgaben aber an Genauigkeit verlieren. Ohne detaillierte Protokolle verbraucht der entdeckte Algorithmus mehr Rechenleistung bei schlechterer Genauigkeit, weil ein bloßes Endergebnis nicht reicht, um Fehlerursachen zu beheben.
Vom Algorithmusdesign zum Umgebungsdesign
Die Autoren reihen AutoTTS in eine Linie mit Arbeiten wie FunSearch, AlphaEvolve und ADAS ein, die Sprachmodelle als Programmsucher einsetzen. Neu ist die Anwendung auf Test-Time-Scaling, das bislang überwiegend Handarbeit war.
Die aktuelle Variante beschränkt sich auf das Spiel zwischen Breite und Tiefe; aufwendigere Strukturen wie Baumsuchen deckt sie nicht ab. Auch hängt die Qualität der Entdeckung am verwendeten Coding-Agenten. Ob Open-Source-Alternativen vergleichbare Ergebnisse liefern, lassen die Autoren offen.
Die Arbeit verschiebt, wo Menschen ansetzen: Statt Regeln zu erfinden, definieren Forscher die Spielregeln einer Suchumgebung. Die eigentliche Strategie entsteht dann in Code, den ein Sprachmodell schreibt und verfeinert.
Bereits 2024 hatten Forschende von Hugging Face gezeigt, wie sich kleine Sprachmodelle durch geschicktes Test-Time-Compute-Scaling auf das Niveau weit größerer Modelle heben lassen, allerdings mit händisch entworfenen Suchstrategien. Erst kürzlich präsentierten Meta und Partner mit Hyperagenten KI-Systeme, die ihren eigenen Verbesserungsmechanismus optimieren.



