Microsoft-Forscher trainieren KI-Agenten wie neuronale Netze, ohne Gewichte zu ändern

1 hour ago 1

Eine einfache Markdown-Datei reicht offenbar aus, um GPT-5.5 bei prozeduralen Aufgaben um mehr als 20 Punkte zu verbessern. Möglich macht das SkillOpt, eine Methode von Microsoft und drei chinesischen Universitäten, die Handlungsanleitungen für KI-Agenten ähnlich wie Modellgewichte trainiert.

Solche Anleitungen sind unter dem Namen "Skills" längst auch in kommerziellen Produkten verbreitet. Anthropic etwa hat Claude im vergangenen Jahr um ein modulares Skill-System ergänzt, das themenspezifische Anleitungen, Skripte und Ressourcen je nach Aufgabe automatisch lädt.

Skills bündeln typischerweise Vorgehensweisen, Regeln für den Werkzeugeinsatz, Ausgabeformate und bekannte Fehlerquellen und haben sich als Standard etabliert. Bisher entstehen sie laut dem Paper der Microsoft-Gruppe entweder von Hand, in einem einzigen Durchgang durch ein Sprachmodell oder durch lose Selbstüberarbeitung. Keine dieser Varianten verhalte sich wie ein echter Optimierer, und keine garantiere, dass der Skill am Ende besser sei als am Anfang.

Schematische Verlustlandschaft mit der Achse Val.Error über dem Skill Space; ein stabiler blauer Pfad aus bounded skill edits führt über held-out selection gates zum besseren task-spezifischen Skill, während graue Ad-hoc-Updates mit großen Sprüngen in einem suboptimalen Skill enden. Rechts eine Tabelle, die Deep-Learning-Begriffe wie Parameter, Gradientenrichtung und Lernrate auf Skill-Dokument, Edit-Richtung und Edit-Budget abbildet.

Das Skill-Dokument als trainierbarer Zustand

SkillOpt behandelt das Skill-Dokument als externen, trainierbaren Zustand eines eingefrorenen Ziel-Modells. Ein zweites, separates Sprachmodell übernimmt die Rolle des Optimierers. Es liest die Protokolle der Agenten-Durchläufe, erkennt wiederkehrende Fehler- und Erfolgsmuster und schlägt begrenzte Änderungen am Skill vor, also das Hinzufügen, Löschen oder Ersetzen einzelner Passagen. Jede Änderung wird nur übernommen, wenn sie auf einem separaten Validierungsdatensatz nachweislich besser abschneidet.

Die Autoren übertragen mehrere Konzepte aus dem klassischen Deep Learning auf die Sprachebene. Eine Art Lernrate begrenzt, wie viele Änderungen pro Schritt am Skill landen dürfen. Ein Scheduler verkleinert die Schrittweite über die Epochen hinweg. Verworfene Änderungen wandern in einen Pufferspeicher und dienen späteren Reflexionen als negatives Beispiel. Ein langsames Update am Ende jeder Epoche bewahrt stabile Editier-Richtungen über mehrere Trainingsrunden, ähnlich wie es im klassischen Training eine Glättung der Gradienten leistet.

Ablaufdiagramm von SkillOpt mit fixiertem Agent und Skill-Dokument S_t, einem Optimizer-Modell, das pro Minibatch Add-, Delete- und Replace-Edits vorschlägt, einem Batch-Merge mit Rangordnung nach Edit-Budget, einem Validation Gate, das Kandidaten annimmt oder in einen Rejected-Edit-Buffer verwirft, und einem epochenweisen Slow- beziehungsweise Meta-Update am unteren Rand.

Entscheidend für den praktischen Einsatz ist die Trennung zwischen Training und Betrieb. Das Optimierer-Modell läuft nur während des Trainings. Im Betrieb bleibt eine einfache Markdown-Datei von 300 bis 2.000 Token übrig, die dem Ziel-Modell als Kontext mitgegeben wird. Zusätzliche Optimierer- oder Modellaufrufe zur Laufzeit fallen nicht an.

Konsistent vor allen Vergleichsverfahren

Getestet haben die Autoren ihren Ansatz auf sechs Benchmarks aus den Bereichen Suche, Tabellenkalkulation, Dokumentenanalyse, Mathematik und körperlich verankertem Handeln. Als Ziel-Modelle dienten sieben Systeme, darunter GPT-5.5 und das deutlich kleinere Qwen3.5-4B. Ausgeführt wurden die Aufgaben im direkten Chat sowie in den Agenten-Umgebungen Codex und Claude Code.

In jeder dieser Kombinationen liegt SkillOpt vorn oder ist gleichauf mit dem besten Vergleichswert. Das gilt auch gegenüber handgeschriebenen Skills, einmalig generierten LLM-Skills und spezialisierten Verfahren wie Trace2Skill, TextGrad, GEPA und EvoSkill. Auf GPT-5.5 steigt der Durchschnitt über die sechs Benchmarks im direkten Chat auf GPT-5.5 um rund 23 Punkte.

Besonders deutlich sind die Sprünge bei Aufgaben mit strikten Formatvorgaben und Werkzeugnutzung, etwa bei der Tabellenbearbeitung. Auch kleinere Modelle profitieren spürbar, was die Autoren als Hinweis darauf werten, dass ein gut trainierter Skill prozedurales Wissen liefert, das diesen Modellen in den Gewichten fehlt.

Drei Liniendiagramme zum Hard Score über Epoch-Checkpoints für SpreadsheetBench, SearchQA und LiveMath, jeweils mit den Kurven Train rollout, Selection best und Unseen test; die per Validierung gewählten Checkpoints folgen dem Verlauf auf dem Testset.

Skills lassen sich weiterverwenden

Ein zentraler Befund betrifft die Übertragbarkeit. Ein Skill, der auf einem größeren Modell trainiert wurde, verbessert auch die kleineren Varianten derselben Familie. Ein im Codex-Loop trainierter Tabellen-Skill funktioniert unverändert in Claude Code und hebt dort die Leistung sogar so weit, wie es ein direkt in Claude Code trainierter Skill täte. Und ein auf Olympiade-Aufgaben optimierter Mathe-Skill bringt auch auf einem verwandten Benchmark noch Gewinne, ohne nachtrainiert zu werden.

Die Ablationen erklären, warum die Methode stabil läuft. Ohne begrenztes Edit-Budget driftet der Skill bei jeder Überarbeitung zu weit ab. Ohne den Puffer für verworfene Änderungen wiederholt der Optimierer dieselben Fehlversuche.

Ohne das langsame Update am Epochenende verliert SpreadsheetBench mehr als zwanzig Punkte, der größte Einbruch im gesamten Versuchsaufbau. Erst das Zusammenspiel aus begrenzter Schrittweite, Validierungs-Prüfung, negativem Feedback und langfristiger Konsolidierung lässt das Skill-Training laut den Autoren so wirken wie ein kontrolliertes Optimierungsverfahren.

Knappe, lesbare Dokumente

Auffällig ist, wie wenig sich am Skill am Ende tatsächlich ändert. Die fertigen Dokumente sind selten länger als 2.000 Token, und die Verbesserungen entstehen aus nur einer bis vier akzeptierten Änderungen über vier Trainingsepochen hinweg. Der größte Einzelgewinn auf OfficeQA geht auf eine einzige übernommene Änderung zurück.

Die gelernten Regeln lesen sich, als hätte sie eine erfahrene Fachkraft nach einem Tag mit dem Benchmark notiert. Für die Tabellenkalkulation lernt der Skill, die Struktur des Arbeitsblatts zuerst zu prüfen und statt Excel-Formeln direkt ausgewertete Werte in den gesamten Zielbereich zu schreiben.

Für ALFWorld führt er ein Logbuch über bereits besuchte Orte und vermeidet, das Ziel anzulaufen, bevor das gesuchte Objekt aufgenommen wurde. Für Dokumentenfragen bindet er die Frage zunächst an die passende Tabellenzeile, bevor die Antwort übernommen wird. Keine dieser Regeln bezieht sich auf eine konkrete Aufgabe. Sie beschreiben Vorgehensweisen.

Die Autoren räumen ein, dass die Methode auf verlässliche automatische Bewertungen angewiesen ist. Für offene Aufgaben, bei denen sich Erfolg nicht klar messen lässt, müsste die Validierungsprüfung durch menschliche oder modellbasierte Urteile ergänzt werden. Außerdem optimiert SkillOpt bewusst ein einzelnes Dokument und keine Skill-Bibliothek, was für stark heterogene Domänen knapp werden kann.

Hype um Selbstverbesserung

Während die meisten aktuellen Ansätze zur Selbstverbesserung früher oder später an den Modellgewichten schrauben, geht SkillOpt einen ungewöhnlich genügsamen Weg. Das von Princeton-Forschern vorgestellte Framework OpenClaw-RL nutzt Folgesignale aus jeder Interaktion, etwa Nutzerantworten oder Testergebnisse, als Live-Trainingsquelle.

MetaClaw leitet aus gescheiterten Aufgaben kompakte Verhaltensregeln ab und schiebt sie sofort in den Prompt, während die Gewichte nur in erkannten Leerlaufphasen per Reinforcement Learning aktualisiert werden. Auffällig ist dabei eine Parallele zu SkillOpt: Auch dort profitieren schwächere Modelle relativ am stärksten, weil ihnen prozedurales Wissen fehlt, das eine Regel oder ein Skill explizit nachliefert.

Andere Gruppen setzen noch grundsätzlicher an. AutoTTS lässt einen Coding-Agenten selbst nach besseren Steuerungsalgorithmen für das Reasoning suchen, sodass sich die Rolle des Menschen vom Entwurf der Regeln zum Entwurf der Umgebung verschiebt, und Metas Hyperagenten optimieren sogar den Mechanismus, mit dem sie sich selbst verbessern. Bei SkillOpt bleibt das Modell dagegen eingefroren, verändert wird allein ein lesbares Textdokument.

Read Entire Article