Microsoft lässt mehr als 100 KI-Agenten gegeneinander debattieren, um Schwachstellen in Windows aufzuspüren

3 weeks ago 11

Microsoft hat ein agentisches Multi-Modell-System vorgestellt, das mit mehr als 100 spezialisierten KI-Agenten Schwachstellen in Software aufspürt.

Das Sicherheitssystem namens MDASH (Multi-Model Agentic Scanning Harness) soll automatisiert Sicherheitslücken in Software aufspüren. Anders als bisherige Ansätze, die auf ein einzelnes KI-Modell wie Claude Mythos setzen, orchestriert MDASH laut Microsoft mehr als 100 spezialisierte KI-Agenten über ein Ensemble aus Frontier- und destillierten Modellen hinweg.

Zum Patch Tuesday am 12. Mai 2026 meldete Microsoft 16 neue Schwachstellen (CVEs) im Windows-Netzwerk- und Authentifizierungs-Stack, die mithilfe von MDASH gefunden wurden. Vier davon stuft das Unternehmen als kritisch ein, darunter Remote-Code-Execution-Schwachstellen in der Kernel-Komponente tcpip.sys, dem IKEv2-Dienst (ikeext.dll), netlogon.dll und dnsapi.dll. Zehn der 16 Schwachstellen betreffen den Kernel-Modus, die Mehrheit ist laut Microsoft ohne Authentifizierung aus dem Netzwerk erreichbar.

Microsoft betont, dass die eigene Codebasis besonders schwierig zu auditieren sei: Windows, Hyper-V und Azure seien proprietär und nicht Teil öffentlicher Trainingsdaten. Die Kosten eines übersehenen Fehlers bei Milliarden von Nutzern seien entsprechend hoch.

Über 100 Agenten debattieren über Schwachstellen

Das System arbeitet in einer fünfstufigen Pipeline: Zunächst wird der Quellcode analysiert und die Angriffsfläche kartiert. Dann durchsuchen spezialisierte Auditor-Agenten den Code nach verdächtigen Stellen.

In der dritten Stufe argumentiert eine zweite Gruppe von Agenten, die Microsoft als "Debattierer" bezeichnet, für und gegen die Ausnutzbarkeit jedes Fundes. Anschließend werden Duplikate zusammengeführt, bevor in der letzten Stufe Beweisführer-Agenten versuchen, die Schwachstelle durch konkrete Eingaben auszulösen.

Die Pipeline sei modellagnostisch: Wenn ein neues Modell erscheine, lasse es sich per Konfigurationswechsel gegen das bisherige testen. Plugins erlauben es Fachleuten, domänenspezifisches Wissen einzuspeisen, etwa Kernel-Aufrufkonventionen oder IPC-Vertrauensgrenzen, die kein Foundation Model von sich aus kennt.

Benchmark-Bestwert ohne Modellnamen

Auf dem öffentlichen CyberGym-Benchmark mit 1.507 realen Schwachstellen erzielte das System einen Wert von 88,45 Prozent. Das sei der Spitzenwert auf der Bestenliste, rund fünf Punkte vor dem nächstplatzierten Modell. Der Vergleich hinkt allerdings, da Microsoft hier ein ganzes Framework mit der Leistung einzelner Modelle vergleicht; diese dürften in einem entsprechenden Harness ebenfalls höhere Werte erzielen.

Liniendiagramm mit Erfolgsraten über Veröffentlichungsdaten. Ein hervorgehobener Microsoft-Punkt erreicht 88,45 %, weitere Benchmarks zeigen 100 % in tcpip.sys und MSRC-Erfolge in clfs.sys.CyberGym-Benchmark: Das System erreicht 88,45 Prozent auf 1.507 realen Schwachstellen und liegt damit auf Platz 1 des öffentlichen Leaderboards. | Bild: Microsoft

Welche Modelle Microsoft für diesen Wert genutzt hat, verrät der Blogpost nicht. Das Unternehmen spricht lediglich von "SOTA models" als schweren Reasonern, "destillierten Modellen" als kostengünstigen Debattierern und einem "zweiten separaten SOTA-Modell" als unabhängigem Gegenpol. Ob es sich dabei um OpenAI-, Anthropic-, eigene Microsoft-Modelle oder Drittanbieter handelt, bleibt offen.

Hinter MDASH steht Microsofts Autonomous Code Security Team, dessen Mitglieder laut Microsoft teilweise von Team Atlanta kommen, dem Gewinner der DARPA AI Cyber Challenge. Das Team hatte für diesen Sieg ein autonomes Cyber-Reasoning-System gebaut, das Fehler in komplexen Open-Source-Projekten aufspürte und behob. MDASH befindet sich derzeit in einer limitierten Private Preview für externe Kunden. Einen ausführlichen technischen Bericht gibt es im Microsoft-Blog.

Auch andere Unternehmen wie OpenAI und Anthropic positionieren sich zunehmend im KI-Cybersecurity-Kontext: Sie wollen mit ihren Modellen Schutz gegen genau jene Bedrohungen liefern, die KI-Systeme selbst erst verschärft haben.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article