Forscher definieren KI-Agenten neu: Code wird vom Ergebnis zur Betriebsschicht

1 week ago 6

Eine neue Übersichtsarbeit von Forschern der University of Illinois Urbana-Champaign, Meta und Stanford verschiebt den Blick auf KI-Agenten. Code sei nicht länger nur das Endprodukt von Sprachmodellen, sondern die Grundlage, auf der Agenten denken, handeln und sich untereinander abstimmen.

Die Forscher argumentieren, dass der Engpass autonomer Systeme nicht mehr nur in den Fähigkeiten des Basismodells liegt: Entscheidend sei die umgebende Software-Schicht. Diese sogenannte Harness umfasst laut den Autoren Werkzeuge, Schnittstellen, abgeschottete Ausführungsumgebungen, Speicher, Prüfmechanismen, Berechtigungsgrenzen, Ausführungsschleifen und Feedback-Kanäle. Erst sie verwandele ein für sich genommen zustandsloses Sprachmodell in einen funktionsfähigen Agenten, der über lange Zeiträume Aufgaben bearbeiten kann.

Übersichtsgrafik der Taxonomie von Code als Agent-Harness mit den drei Ebenen Harness-Interface, Harness-Mechanismen und Scaling sowie den fünf Anwendungsfeldern Code Assistants, GUI/OS Agents, Scientific Discovery, Personalization und Embodied Agents.Die zentrale Übersicht des Papers fasst zusammen, wie Code als ausführbare, prüfbare und zustandsbehaftete Schicht zwischen Modell und Umgebung wirkt. | Bild: Ning et al.

Warum Code das passende Format ist

Statt Code als Endergebnis zu betrachten, fassen die Autoren ihn als laufendes Element des Agentenverhaltens auf: Code ist ausführbar, sodass aus Modellausgaben Operationen werden, deren Ergebnis sich überprüfen lässt. Er ist nachvollziehbar, weil Zwischenberechnungen als strukturierte Spuren vorliegen, die das System lesen und speichern kann. Und Code ist stabil über mehrere Schritte hinweg, weil das laufende Programm den Fortschritt einer Aufgabe in einer Form festhält, die der Agent später wieder aufgreifen kann.

Die Autoren beschreiben mehrere Bestandteile langlaufender Agentensysteme: Den Anfang bilden die internen Fähigkeiten des Modells wie Schlussfolgern und Planung. Hinzu kommt die vom System bereitgestellte Infrastruktur. Den letzten Bestandteil bilden jene Code-Stücke, die der Agent selbst während der Arbeit erzeugt, etwa Testskripte, kurzlebige Hilfswerkzeuge, wiederverwendbare Fähigkeiten oder ausführbare Arbeitsabläufe. Gerade diese vom Agenten selbst erstellten Artefakte seien bisher zu wenig untersucht.

Eine Einordnung in drei Schichten

Die Übersicht ordnet die Literatur in drei verbundene Ebenen. Auf der ersten Ebene dient Code als Brücke zwischen Modell und Umgebung. Methoden wie Program-of-Thoughts oder Chain of Code lagern die eigentliche Berechnung in ausführbare Programme aus, statt sie nur in Worten zu beschreiben. Andere Systeme wie Code as Policies übersetzen Anweisungen in natürlicher Sprache direkt in Steuerungscode für Roboter.

Diagramm der Plan-Execute-Verify-Schleife mit den vier Bausteinen Statische Analyse, abgeschottete Ausführung, deterministische Prüfung und abgestufte Berechtigungen vom Lesezugriff bis zum Vollzugriff.Verlässlichkeit entsteht nicht durch bessere Reparatur-Anweisungen, sondern durch klar geregelte Zustandsübergänge in einer kontrollierten Schleife rund um das Modell. | Bild: Ning et al.

Auf der zweiten Ebene geht es um Mechanismen, die einen Agenten über viele Schritte hinweg zuverlässig arbeiten lassen. Dazu zählen Planung, Speicher, der Einsatz von Werkzeugen und ein wiederkehrender Ablauf aus Planen, Ausführen und Prüfen. Dieser Ablauf ersetze isoliertes Fehlersuchen durch eine systematische Steuerung. Pläne legen fest, was der Agent verändern will. Die Ausführung erfolgt in abgeschotteten Umgebungen mit klar geregelten Rechten. Eine Prüfung entscheidet danach, ob das Ergebnis akzeptiert, überarbeitet oder an einen menschlichen Prüfer weitergegeben wird.

Die dritte Ebene betrifft das Zusammenspiel mehrerer Agenten. Hier werden Code-Sammlungen, Tests und Ausführungsprotokolle zum gemeinsamen Arbeitsbereich. Spezialisierte Rollen wie Manager, Planer, Programmierer, Prüfer und Tester stimmen sich darüber ab. Systeme wie ChatDev und MetaGPT setzen diese Rollenverteilung um. In der Praxis ist diese Idee bereits angekommen. Claude Code kann seit Kurzem Pull Requests von einem ganzen Team aus KI-Agenten prüfen lassen, die parallel nach Fehlern, Sicherheitslücken und Regressionen suchen, ohne Änderungen selbst zu genehmigen.

Schaubild zur Multi-Agenten-Orchestrierung mit den spezialisierten Rollen Manager, Planner, Coder, Reviewer, Tester, Executer und Verifier sowie einem gemeinsamen Code-Arbeitsbereich und verschiedenen Kollaborationstopologien.Auf der dritten Ebene teilen sich spezialisierte Agenten über einen gemeinsamen Code-Bereich die Arbeit und stimmen sich über Tests und Ausführungsprotokolle ab. | Bild: Ning et al.

Auch Produktionssysteme folgen dem Muster

Die Autoren verweisen auf kommerzielle Systeme als sichtbare Beispiele. Claude Code von Anthropic verbindet lokales Terminal, Entwicklungsumgebung und Browser zu einem Ablauf, in dem der Agent Dateien bearbeitet, Befehle ausführt und sich an Berechtigungen halten muss. OpenAIs Codex und die Coding-Agenten von GitHub Copilot verlagern ähnliche Abläufe in verwaltete Cloud-Umgebungen, in denen Änderungen über nachvollziehbare Pull-Request-Ausgaben gebündelt werden.

Welche Bedeutung diese Schicht hat, wurde unfreiwillig sichtbar, als Anthropic aus Versehen rund 500.000 Zeilen Quellcode von Claude Code veröffentlichte. Der Code enthielt unter anderem eine "Dreaming"-Funktion zur Aufgabenkonsolidierung und weitere Techniken zur Steuerung der Modelle als Coding-Agenten. Anschließend ließ Anthropic mehr als 8.000 Kopien und Anpassungen per Urheberrechtsantrag von GitHub entfernen.

Auch andere Anbieter erkennen die Bedeutung dieser Schicht. Deepseek will mit einem eigenen Produkt namens Deepseek Code gegen Claude Code und Codex antreten und baut in Peking ein eigenes "Harness"-Team auf, das alles jenseits des Modells abdeckt, von Werkzeugnutzung über Planung bis Speicher. Die Kernformel des Teams lautet: Modell plus Harness gleich KI-Agent. Sie spiegelt damit unmittelbar die These der Übersichtsarbeit.

Eine interessante Beobachtung der Autoren: Solche Produktionssysteme werden zunehmend selbst zur Datenquelle für die nächste Modellgeneration. Cursors Composer werde mit fortlaufendem Reinforcement Learning auf echten Nutzungsspuren trainiert. OpenAIs codex-1, GPT-5-Codex und GPT-5.1-Codex-Max seien gezielt auf langen, mehrstufigen Coding-Interaktionen trainiert, die genau dem Codex-Ablauf entsprechen. Die Grenze zwischen dem Agenten und seiner Umgebung werde damit selbst zu einer Schicht, die mitlernt.

Übersicht der fünf Anwendungsfelder von Code als Agent-Harness mit Beispielen, darunter Code-Assistenten wie Claude, Codex und OpenClaw sowie GUI/OS-Agenten, wissenschaftliche Entdeckung, Personalisierung und verkörperte Roboter-Agenten.Dasselbe Muster zeigt sich quer durch fünf Felder, von Coding-Assistenten über GUI-Steuerung bis zu Robotern.

Wenn der Agent seine eigene Umgebung verbessert

Mehrere Forschungssysteme behandeln die Harness selbst als Optimierungsobjekt. AutoHarness erzeugt automatisch Code, der unzulässige Aktionen ausfiltert. Meta-Harness sucht systematisch nach besseren Harness-Varianten und nutzt dabei frühere Versionen, deren Bewertungen und Ausführungsprotokolle als Suchraum. Andere Ansätze werten Telemetriedaten aus, um einzelne Komponenten gezielt zu überarbeiten. In dieselbe Richtung weisen die Hyperagents von Meta, die Aufgabenlösung und Selbstmodifikation in einem editierbaren Programm zusammenführen und damit auch den Verbesserungsmechanismus selbst optimieren.

Die Autoren benennen mehrere offene Probleme, die einer Reifung des Felds im Weg stehen. Dazu zählen aussagekräftigere Bewertungen jenseits der reinen Erfolgsquote, eine inhaltliche Prüfung von Ergebnissen auch dann, wenn Tests allein nicht ausreichen, eine Selbstverbesserung der Harness ohne Rückschritte, der gemeinsame Zustand bei mehreren Agenten, die Einbindung menschlicher Kontrolle und die Erweiterung auf Umgebungen mit Bild- oder Sensordaten, etwa bei GUI-Agenten oder Robotern.

Besonders kritisch sehen die Autoren die Frage, ob die verwendeten Prüfkriterien überhaupt ausreichen. Tests könnten unvollständig sein, Prüfprogramme für grafische Oberflächen können problematische Zwischenschritte übersehen, und Simulatoren verbergen physische Risiken. Ein Harness könne dadurch ein falsches Vertrauen erzeugen, gerade weil er sichtbare Rückmeldungen liefert. Die Autoren schlagen deshalb vor, dass jede akzeptierte Aktion ein Bündel an Belegen mitführt, das offenlegt, welche Prüfungen tatsächlich gelaufen sind, welche Bereiche ungetestet blieben und welche Risiken verbleiben.

Die Übersicht beschreibt damit eine wachsende Praxis. Verlässlichkeit bei autonomen Coding-Agenten entstehe nicht in erster Linie durch bessere Reparatur-Anweisungen an das Modell, sondern durch klar geregelte Zustandsübergänge in einer kontrollierten Schleife rund um das Modell.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article