Eine neue Studie zeigt: Erfahrene Open-Source-Entwickler arbeiten mit KI-Tools langsamer, obwohl sie selbst das Gegenteil glauben.
Eine randomisierte Studie des Forschungsinstituts METR untersucht, wie fortgeschrittene KI-Tools Anfang 2025 die Produktivität erfahrener Open-Source-Entwickler beeinflussen. Mit KI dauert es im Schnitt 19 Prozent länger, reale Entwicklungsaufgaben zu lösen – obwohl die Entwickler selbst das Gegenteil glauben.
Subjektive Beschleunigung – objektive Verlangsamung
Das Herzstück der Studie bildeten 16 erfahrene Entwickler, die 246 reale Aufgaben aus ihren eigenen, komplexen Open-Source-Projekten bearbeiteten. Noch bevor die eigentliche Arbeit begann, wurde die Erwartung der Entwickler erfasst: Sie schätzten, dass der Einsatz von KI ihre Arbeit um beachtliche 24 Prozent beschleunigen würde.
Um die realen Auswirkungen von KI-Tools auf die Produktivität zu messen, wählte das Forschungsinstitut METR eine randomisierte Kontrollstudie (RCT). Die Methode gilt als Goldstandard, um klare Ursache-Wirkungs-Beziehungen nachzuweisen. | Bild: METRAnschließend wurde jede einzelne Aufgabe per Zufallsprinzip einer von zwei Gruppen zugeteilt. In der Kontrollgruppe arbeiteten die Entwickler klassisch, ohne generative KI. In der Experimentalgruppe durften sie KI-Assistenten einsetzen, wobei hauptsächlich Cursor Pro mit den damaligen Spitzenmodellen Claude 3.5 und 3.7 Sonnet zum Einsatz kam.
Anzeige
THE DECODER Newsletter
Die wichtigen KI-News direkt ins E-Mail-Postfach.
✓ 1x wöchentlich
✓ kostenlos
✓ jederzeit kündbar
Während der Bearbeitung zeichneten die Entwickler ihre Bildschirme auf und meldeten am Ende die tatsächlich benötigte Implementierungszeit. Um Unterschiede im Schwierigkeitsgrad der Aufgaben zu berücksichtigen, nutzten die Forschenden für die Auswertung ein statistisches Verfahren, das die zuvor von den Entwicklern geschätzte Dauer jeder einzelnen Aufgabe einbezieht. Dadurch konnten sie genau herausfinden, wie stark der Einsatz von KI die Arbeitszeit beeinflusst hat – unabhängig davon, ob die Aufgabe besonders leicht oder schwer war.
Erwartung vs. Realität: Während Experten und Entwickler durchweg mit Zeitersparnis rechneten (grün), zeigte die METR-Studie, dass KI den Entwicklungsprozess tatsächlich um durchschnittlich 19 Prozent verlangsamte (rot). | Bild: METRDer entscheidende Punkt offenbarte sich beim Vergleich der Daten: Obwohl die Entwickler mit KI-Unterstützung objektiv 19 Prozent länger benötigten, war ihre subjektive Einschätzung eine vollkommen andere. Selbst nach Abschluss der Aufgaben glaubten sie weiterhin, durch die KI um 20 Prozent schneller gewesen zu sein.
Neue Messmethoden für reale KI-Auswirkungen
Laut METR zeigt die Studie, dass neue Evaluierungsmethoden notwendig sind, um die tatsächliche Leistungsfähigkeit generativer KI abzubilden. Klassische Benchmarks wie SWE-Bench oder RE-Bench testen meist in sich geschlossene Aufgaben, die keinen vorherigen Kontext erfordern und algorithmisch bewertet werden. Das kann zu einer Über- oder Unterschätzung der tatsächlichen Fähigkeiten führen.
Randomisierte Kontrollstudien (RCTs) ergänzen dieses Bild, indem sie reale Aufgaben in realistischen Umgebungen untersuchen. Sie liefern damit wichtiges Zusatzwissen über den tatsächlichen Nutzen – oder auch Schaden – von KI im Arbeitsalltag von Entwicklern.
Mit KI-Erlaubnis verbringen Entwickler weniger Zeit mit aktivem Coden und Suche und mehr Zeit mit Prompting, Review und Leerlauf. | Bild: METRIch fragte unseren KI-Entwickler, ob sich die Ergebnisse mit seinen Eindrücken aus dem Arbeitsalltag decken. Er hält sie für plausibel, insbesondere im Kontext gewachsener, komplexer Projekte mit hohen Qualitätsanforderungen und zahlreichen impliziten Regeln wie in Open-Source-Projekten. Hier könnten KI-Tools zusätzlichen Erklärungs- und Kontrollaufwand verursachen.
Empfehlung
Anders verhalte es sich bei neuen Projekten oder beim schnellen Prototyping sowie der Arbeit mit bislang unbekannten Frameworks. In solchen Szenarien könnten KI-Tools ihre Stärken ausspielen und Entwickler tatsächlich unterstützen.



