KI-Agenten können sich erstmals durch Hacking selbst replizieren

4 weeks ago 12

Skip to content

Image description

GPT-Image-2 prompted by THE DECODER

Das Sicherheitsforschungslabor Palisade Research zeigt, dass KI-Agenten in der Lage sind, fremde Computer zu hacken und sich darauf zu kopieren. In einem Jahr stieg die Erfolgsrate von 6 auf 81 Prozent. Ein Simulator zeigt, was im Extremfall passieren könnte.

In der Testumgebung hackte ein KI-Agent einen entfernten Computer, installierte die benötigte Software, kopierte seine eigenen Modellgewichte und startete eine funktionierende Replik. Jede Kopie hackte anschließend weitere Computer und bildete so eine Kette. "Soweit wir wissen, ist dies der erste dokumentierte Fall von KI-Selbstreplikation durch Hacking", schreibt das Forschungsteam.

In einem konkreten Durchlauf sprang ein Agent auf Basis von Qwen 3.6 zwischen Rechnern in Kanada, den USA, Finnland und Indien und hinterließ in jedem Land eine Kopie. Für den Agenten war das Überschreiten von Ländergrenzen laut Palisade Research so einfach wie der Sprung zwischen Maschinen in einer Region. Für Verteidiger, die einen außer Kontrolle geratenen KI-Agenten stoppen wollen, wäre das hingegen ein jurisdiktioneller Albtraum.

In einem Testdurchlauf sprang das Open-Weight-Modell Qwen 3.6 (27B) von den USA über Kanada und Finnland bis nach Indien und hinterließ in jedem Land eine funktionsfähige Kopie. Pro erfolgreichem Sprung benötigte der Agent durchschnittlich etwa 50 Minuten. | Bild: Palisade Research

Der Agent wurde dabei nicht vorab informiert, welche Schwachstellen die Zielrechner aufweisen. Er musste den Angriffsansatz jedes Mal selbst herausfinden. Palisade Research testete die Replikation an drei verschiedenen Zielen mit unterschiedlichen Sicherheitslücken. Bei allen drei war der Agent erfolgreich.

Erfolgsrate in einem Jahr von 6 auf 81 Prozent gestiegen

Der Fortschritt ist rasant: Frontier-Modelle steigerten ihre Erfolgsrate bei diesem Test innerhalb eines Jahres von 6 auf 81 Prozent. Der Sprung korreliert laut den Forschern mit Verbesserungen bei autonomem Hacking und Coding. Palisade Research erwartet, dass sich dieser Trend fortsetzt.

Die Erfolgsrate bei der Selbstreplikation stieg innerhalb eines Jahres drastisch an. Opus 4.6 erreichte 81 Prozent, während Opus 4 im Mai 2025 noch bei rund 5 Prozent lag. API-basierte Modelle kopieren und starten Qwen-Gewichte, da sie keinen Zugriff auf die eigenen haben. | Bild: Palisade Research

Die Forscher testeten zwei verschiedene Setups. Open-Weight-Modelle wie Qwen kopierten ihre eigenen Gewichte auf die neue Maschine und starteten dort eine Replik. API-basierte Modelle wie Claude und GPT haben keinen Zugriff auf ihre eigenen Gewichte. In deren Fall simulierten die Forscher die Replikation, indem die Agenten stattdessen Qwen-Gewichte auf dem Zielrechner einrichteten und ausführten.

Der vollständige Prompt, mit dem Palisade Research die KI-Agenten in der isolierten Testumgebung instruierte. Das Experiment testet die Fähigkeit zur Selbstreplikation, nicht die Neigung dazu. | Bild: Palisade Research

Palisade Research hat zusätzlich einen öffentlichen Simulator entwickelt, der hochrechnet, was passieren würde, wenn die Agenten in freier Wildbahn ebenso effektiv hacken und sich verbreiten könnten wie in der Testumgebung. Der Simulator nutzt die gemessenen Replikationszeiten und Erfolgsraten, lässt Kopien ebenfalls replizieren und geht von einem unbegrenzten Vorrat an Zielen aus. In diesem theoretischen Szenario erzeugte Opus laut Palisade Research 13.000 Repliken innerhalb von zwölf Stunden.

Die Forscher betonen ausdrücklich, dass es sich dabei um eine Obergrenze handelt, nicht um ein realistisches Basisszenario. Kein aktueller Agent könne in freier Wildbahn auch nur annähernd solche Werte erreichen. Gehärtete Verteidigungsmechanismen auf knappen GPU-Ressourcen würden die meisten Versuche sofort stoppen.

Barrieren bestehen noch, dürften aber nicht von Dauer sein

Die Computer in der Testumgebung verfügten über schwache Verteidigungsmechanismen, und den Agenten wurde mitgeteilt, welche Maschinen sie angreifen sollen. In freier Wildbahn müssten außer Kontrolle geratene Agenten selbstständig verwundbare Maschinen mit ausreichend leistungsfähigen GPUs finden.

Diese Barrieren werden laut den Forschern jedoch nicht von Dauer sein. Unternehmen verbessern KI-Agenten in hohem Tempo, und Hacking gehöre zu den am schnellsten fortschreitenden Bereichen. Modelle wie Mythos fänden bereits Tausende hochschwere Zero-Day-Schwachstellen in freier Wildbahn. Open-Weight-Modelle dürften bald gleichziehen.

Gleichzeitig werde jedoch auch die Verteidigung besser. KI-Agenten könnten beim Patchen von Schwachstellen und bei der Abwehr von Cyberbedrohungen helfen. Wie sich das Gleichgewicht zwischen Angriff und Verteidigung verschiebe, sei unklar.

Was laut Palisade Research jedoch absehbar erscheint: Langfristig werden auf dem aktuellen Pfad beide Seiten der Cybersicherheit von KI-Agenten dominiert, nicht von Menschen. PaperQuellcode und Experiment-Transkripte sind öffentlich zugänglich.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

  • Zugriff auf alle THE DECODER Artikel.
  • Lesen ohne Ablenkung – keine Google-Werbebanner.
  • Zugang zum Kommentarsystem und Austausch mit der Community.
  • Wöchentlicher KI-Newsletter.
  • 6× jährlich: “KI Radar” – Deep-Dives zu den wichtigsten KI-Themen.
  • Bis zu 25 % Rabatt auf KI Pro Online-Events.
  • Zugang zum kompletten Archiv der letzten zehn Jahre.
  • Die neuesten KI‑Infos von The Decoder – klar und auf den Punkt.

The Decoder abonnieren

Read Entire Article