KI-Agent optimiert, wann Sprachmodelle weiterdenken

2 weeks ago 9

Statt selbst Regeln für effizienteres KI-Reasoning zu schreiben, lassen Forscher einen Coding-Agenten in einer simulierten Umgebung nach besseren Steuerungsalgorithmen suchen. Das Ergebnis schlägt etablierte Verfahren bei deutlich geringerem Rechenaufwand.

Test-Time Scaling (TTS) soll die Leistung großer Sprachmodelle verbessern, indem das Modell während der Antwort mehr Rechenleistung investiert, etwa durch mehrere parallele Lösungswege oder längere Gedankenketten. Wann ein Modell einen neuen Lösungsweg startet, einen vielversprechenden vertieft oder abbricht, entscheiden bislang fast immer Regeln aus menschlicher Handarbeit.

Ein Forschungsteam von UMD, UVA, WUSTL, UNC, Google und Meta dreht den Spieß mit AutoTTS um: Nicht der Algorithmus selbst soll von Menschen entwickelt werden, sondern die Umgebung, in der ein KI-Agent solche Algorithmen automatisch findet.

Viele bekannte Verfahren lassen sich laut dem Paper als Sonderfälle in einem gemeinsamen Steuerungsraum aus Breite (wie viele Lösungswege parallel laufen) und Tiefe (wie weit jeder einzelne verfolgt wird) verstehen. Warum, so die Autoren, legen Forscher die Pfade durch diesen Raum dann weiterhin selbst fest, statt sie systematisch durchsuchen zu lassen?

Eine simulierte Umgebung macht die Suche bezahlbar

Den Kern von AutoTTS bildet eine Offline-Umgebung. Für jede Aufgabe erzeugt das Team vorab viele Lösungswege des Sprachmodells und speichert sie ab. Ein neuer Steuerungsalgorithmus muss das Modell anschließend nicht mehr selbst aufrufen, sondern entscheidet nur noch auf Basis dieser bereits erzeugten Daten, wie er Rechenleistung verteilen würde. So lassen sich tausende Varianten durchspielen, ohne das eigentliche Sprachmodell jedes Mal neu zu starten.

Schaubild des AutoTTS-Frameworks. Links die menschliche Seite mit der Entscheidung zwischen handgeschriebener TTS-Strategie und Umgebungsdesign, in der Mitte die agentenseitige Schleife aus Vorschlag, Evaluation in der Offline-Replay-Umgebung, Feedback aus Skalierungskurven und Ausführungs-Logs sowie Ablage in einer Historie. Rechts ein Diagramm mit dem Vergleich der Genauigkeits-Kosten-Kurven von AutoTTS und drei handgeschriebenen Verfahren auf Qwen3-1.7B/AIME25 sowie der Hinweis auf 39,9 US-Dollar Suchkosten und 160 Minuten Laufzeit.AutoTTS verlegt den menschlichen Anteil von der Algorithmus- auf die Umgebungsgestaltung: Statt Verzweigungs-, Beschneidungs- und Stoppregeln festzulegen, definieren die Forscher Zustände, Aktionen und Rückmeldungen. In dieser Umgebung sucht ein Agent dann selbst nach einer Steuerung. | Bild: Zheng et al.

Die eigentliche Suche übernimmt Claude Code als Explorer. In mehreren Runden liest der Agent die bisherige Historie, analysiert die Schwächen vorheriger Vorschläge und schreibt einen neuen Steuerungsalgorithmus direkt als Code. Damit die Suche nicht in tausenden Stellschrauben versinkt, darf jeder Vorschlag nur einen einzigen, übergeordneten Regler nach außen anbieten, der intern alle weiteren Schwellenwerte bestimmt. Vollständige Protokolle der Programmläufe zeigen dem Agenten zudem, an welchen Stellen vorhergehende Versuche Rechenleistung verschwendet haben.

 Self-Consistency mit 64 Wegen in maximaler Tiefe, ASC und ESC entlang der Width-Achse, Answer Consistency entlang der Depth-Achse auf einem einzelnen Pfad, ST-BoN als Wechsel von Breite zu Tiefe und Parallel-Probe als breiter Start mit fortschreitender Beschneidung.Viele etablierte Verfahren des Test-Time-Scaling lassen sich als unterschiedliche Pfade durch denselben Steuerungsraum aus Breite und Tiefe lesen. AutoTTS sucht in genau diesem Raum nach neuen Pfaden.| Bild: Zheng et al.

Entdeckter Algorithmus schlägt etablierte Verfahren

Auf mathematischen Benchmarks wie AIME und HMMT liefert der gefundene Algorithmus ein besseres Verhältnis von Genauigkeit zu Rechenaufwand als die gängigen Vergleichsverfahren. In der sparsamen Einstellung sinkt der Tokenverbrauch laut den Autoren um rund 70 Prozent gegenüber dem Standardverfahren Self-Consistency, das einfach 64 Antworten parallel erzeugt und über Mehrheitsabstimmung das Endergebnis bestimmt. Die Genauigkeit bleibt dabei vergleichbar.

Der Algorithmus überträgt sich auch auf ein anderes Modell (DeepSeek-R1-Distill-Llama-8B) und auf einen Benchmark außerhalb der Mathematik (GPQA-Diamond). Die komplette Entdeckung kostete einmalig rund 40 US-Dollar und 160 Minuten Rechenzeit.

Vier Liniendiagramme mit logarithmischer X-Achse (Tokenverbrauch in Tausend) und Y-Achse (Genauigkeit in Prozent). Verglichen werden ASC, ESC, Parallel-Probe und AutoTTS auf Qwen3-0.6B/AIME25, Qwen3-4B/HMMT25, Qwen3-1.7B/AIME25 und Qwen3-8B/HMMT25. In allen vier Diagrammen verläuft die rote AutoTTS-Kurve mit Sternmarkierungen oberhalb oder auf Höhe der drei Vergleichsverfahren.Auf vier Modellgrößen und zwei Mathematik-Benchmarks liefert der von AutoTTS gefundene Algorithmus eine bessere oder vergleichbare Genauigkeit bei geringerem Tokenverbrauch als die handgeschriebenen Verfahren. | Bild: Zheng et al.

Eine Logik, die per Hand kaum entstanden wäre

Aufschlussreicher als die Zahlen ist die Funktionsweise des entdeckten Programms. Es beobachtet, wie sich die Sicherheit des Modells über mehrere Runden hinweg entwickelt. Andere Verfahren brechen sofort ab, sobald eine momentane Mehrheit unter den Antworten kippt.

Steigt diese Sicherheit kaum noch, öffnet der Algorithmus zusätzliche Lösungswege; wächst sie deutlich, spart er sich neue Pfade. Lösungswege, deren Zwischenergebnis zur aktuellen Mehrheit passt, erhalten zusätzliche Rechenschritte. Abweichende Pfade verwirft der Algorithmus erst, wenn sie über mehrere Runden hinweg in eine andere Richtung laufen.

Diese Verzahnung halten die Autoren für eine Koordination, die manuell kaum zu finden gewesen wäre. Eine Ablation untermauert, wie viel an den beiden Designentscheidungen hängt: Ohne den einzelnen übergeordneten Regler verfällt der Agent auf extreme Lösungen, die im Test stark Rechenleistung sparen, bei neuen Aufgaben aber an Genauigkeit verlieren. Ohne detaillierte Protokolle verbraucht der entdeckte Algorithmus mehr Rechenleistung bei schlechterer Genauigkeit, weil ein bloßes Endergebnis nicht reicht, um Fehlerursachen zu beheben.

Vom Algorithmusdesign zum Umgebungsdesign

Die Autoren reihen AutoTTS in eine Linie mit Arbeiten wie FunSearch, AlphaEvolve und ADAS ein, die Sprachmodelle als Programmsucher einsetzen. Neu ist die Anwendung auf Test-Time-Scaling, das bislang überwiegend Handarbeit war.

Die aktuelle Variante beschränkt sich auf das Spiel zwischen Breite und Tiefe; aufwendigere Strukturen wie Baumsuchen deckt sie nicht ab. Auch hängt die Qualität der Entdeckung am verwendeten Coding-Agenten. Ob Open-Source-Alternativen vergleichbare Ergebnisse liefern, lassen die Autoren offen.

Die Arbeit verschiebt, wo Menschen ansetzen: Statt Regeln zu erfinden, definieren Forscher die Spielregeln einer Suchumgebung. Die eigentliche Strategie entsteht dann in Code, den ein Sprachmodell schreibt und verfeinert.

Bereits 2024 hatten Forschende von Hugging Face gezeigt, wie sich kleine Sprachmodelle durch geschicktes Test-Time-Compute-Scaling auf das Niveau weit größerer Modelle heben lassen, allerdings mit händisch entworfenen Suchstrategien. Erst kürzlich präsentierten Meta und Partner mit Hyperagenten KI-Systeme, die ihren eigenen Verbesserungsmechanismus optimieren.

Read Entire Article