KI-Coding kann Entwickler langsamer machen – auch wenn sie sich schneller fühlen

7 months ago 9

Eine neue Studie zeigt: Erfahrene Open-Source-Entwickler arbeiten mit KI-Tools langsamer, obwohl sie selbst das Gegenteil glauben.

Eine randomisierte Studie des Forschungsinstituts METR untersucht, wie fortgeschrittene KI-Tools Anfang 2025 die Produktivität erfahrener Open-Source-Entwickler beeinflussen. Mit KI dauert es im Schnitt 19 Prozent länger, reale Entwicklungsaufgaben zu lösen – obwohl die Entwickler selbst das Gegenteil glauben.

Subjektive Beschleunigung – objektive Verlangsamung

Das Herzstück der Studie bildeten 16 erfahrene Entwickler, die 246 reale Aufgaben aus ihren eigenen, komplexen Open-Source-Projekten bearbeiteten. Noch bevor die eigentliche Arbeit begann, wurde die Erwartung der Entwickler erfasst: Sie schätzten, dass der Einsatz von KI ihre Arbeit um beachtliche 24 Prozent beschleunigen würde.

Anschließend wurde jede einzelne Aufgabe per Zufallsprinzip einer von zwei Gruppen zugeteilt. In der Kontrollgruppe arbeiteten die Entwickler klassisch, ohne generative KI. In der Experimentalgruppe durften sie KI-Assistenten einsetzen, wobei hauptsächlich Cursor Pro mit den damaligen Spitzenmodellen Claude 3.5 und 3.7 Sonnet zum Einsatz kam.

THE DECODER Newsletter

Die wichtigen KI-News direkt ins E-Mail-Postfach.

✓ 1x wöchentlich

✓ kostenlos

✓ jederzeit kündbar

Während der Bearbeitung zeichneten die Entwickler ihre Bildschirme auf und meldeten am Ende die tatsächlich benötigte Implementierungszeit. Um Unterschiede im Schwierigkeitsgrad der Aufgaben zu berücksichtigen, nutzten die Forschenden für die Auswertung ein statistisches Verfahren, das die zuvor von den Entwicklern geschätzte Dauer jeder einzelnen Aufgabe einbezieht. Dadurch konnten sie genau herausfinden, wie stark der Einsatz von KI die Arbeitszeit beeinflusst hat – unabhängig davon, ob die Aufgabe besonders leicht oder schwer war.

+19 % längere Bearbeitungszeit mit KI. Die Grafik zeigt, dass alle Prognosen zu optimistisch waren.

Der entscheidende Punkt offenbarte sich beim Vergleich der Daten: Obwohl die Entwickler mit KI-Unterstützung objektiv 19 Prozent länger benötigten, war ihre subjektive Einschätzung eine vollkommen andere. Selbst nach Abschluss der Aufgaben glaubten sie weiterhin, durch die KI um 20 Prozent schneller gewesen zu sein.

Neue Messmethoden für reale KI-Auswirkungen

Laut METR zeigt die Studie, dass neue Evaluierungsmethoden notwendig sind, um die tatsächliche Leistungsfähigkeit generativer KI abzubilden. Klassische Benchmarks wie SWE-Bench oder RE-Bench testen meist in sich geschlossene Aufgaben, die keinen vorherigen Kontext erfordern und algorithmisch bewertet werden. Das kann zu einer Über- oder Unterschätzung der tatsächlichen Fähigkeiten führen.

Randomisierte Kontrollstudien (RCTs) ergänzen dieses Bild, indem sie reale Aufgaben in realistischen Umgebungen untersuchen. Sie liefern damit wichtiges Zusatzwissen über den tatsächlichen Nutzen – oder auch Schaden – von KI im Arbeitsalltag von Entwicklern.

Vergleich der durchschnittlichen Zeitanteile für aktives Coden, AI-Prompting, Review, Idle und weitere Aktivitäten in AI-erlaubt (grün) vs AI-verboten (lila).

Ich fragte unseren KI-Entwickler, ob sich die Ergebnisse mit seinen Eindrücken aus dem Arbeitsalltag decken. Er hält sie für plausibel, insbesondere im Kontext gewachsener, komplexer Projekte mit hohen Qualitätsanforderungen und zahlreichen impliziten Regeln wie in Open-Source-Projekten. Hier könnten KI-Tools zusätzlichen Erklärungs- und Kontrollaufwand verursachen.

Empfehlung

Anders verhalte es sich bei neuen Projekten oder beim schnellen Prototyping sowie der Arbeit mit bislang unbekannten Frameworks. In solchen Szenarien könnten KI-Tools ihre Stärken ausspielen und Entwickler tatsächlich unterstützen.

Read Entire Article