Schon zehn bis 15 Minuten Arbeit mit einem KI-Assistenten reichen aus, um die Problemlösefähigkeit und die Ausdauer in nachfolgenden Aufgaben ohne KI messbar zu senken. Das zeigt eine neue Studie aus den USA und Großbritannien.
In der neuen Arbeit liefern Forschende mehrerer US-amerikanischer und britischer Universitäten Belege dafür, dass KI-Assistenz die unmittelbare Leistung verbessert, dabei aber auch unerwünschte Nebenwirkungen hat. Sobald die KI wegfällt, schneiden Nutzer schlechter ab als Personen, die die Aufgaben von Anfang an allein bearbeiten mussten. Zudem brechen sie Aufgaben häufiger ab.
Bisherige Hinweise auf solche Effekte stützten sich laut der Studie primär auf Umfragen oder kleine Stichproben. Die Forschenden legen nach eigenen Angaben erstmals großflächige kausale Belege durch kontrollierte Experimente vor.
Bruchrechnen als Testfeld: Leistung bricht ein, sobald die KI verschwindet
Im ersten Experiment bearbeiteten die Teilnehmenden 15 Bruchrechenaufgaben unterschiedlicher Schwierigkeit, von einfachen einstufigen Rechnungen bis zu komplexeren dreistufigen Aufgaben. Die eine Gruppe hatte in einer Seitenleiste Zugriff auf GPT-5, das vorab mit jeder Aufgabe samt Lösung präpariert war.
Teilnehmende konnten so mit minimalem Aufwand korrekte Antworten erhalten, etwa indem sie schlicht "Antwort?" eintippten. Die Kontrollgruppe arbeitete ohne Hilfsmittel. Nach zwölf Aufgaben wurde die KI ohne Vorwarnung entfernt, und alle Teilnehmenden lösten drei identische Testaufgaben eigenständig.
Solange die KI verfügbar ist, löst die KI-Gruppe (orange) fast alle Bruchaufgaben korrekt. Sobald sie in den letzten drei Testaufgaben entfernt wird, fällt die Lösungsquote unter die der Kontrollgruppe (grün), und die Abbruchrate steigt deutlich an. | Bild: Liu et al.In diesen Testaufgaben lösten die ehemaligen KI-Nutzer deutlich weniger Aufgaben korrekt als die Kontrollgruppe. Gleichzeitig übersprangen sie Aufgaben fast doppelt so häufig. Da es weder eine Strafe für falsche Antworten gab noch die Bezahlung an die Leistung gekoppelt war, werten die Forschenden das Überspringen als direktes Maß für Ausdauer und Motivation.
Replikation bestätigt den Effekt
Ein zweites Experiment adressierte ein methodisches Problem: Im ersten Durchlauf konnten schwächere Teilnehmende in der KI-Gruppe durch die KI korrekte Antworten einreichen und wurden daher nicht nach den gleichen Kriterien ausgeschlossen wie die Kontrollgruppe.
Dieses Mal wurde ein Vortest mit einfachen Bruchaufgaben vorgeschaltet, und die Kontrollgruppe erhielt eine Seitenleiste mit den Lösungen des Vortests, um den Unterschied in der Benutzeroberfläche auszugleichen.
Experiment 2 repliziert den Effekt mit methodischen Verbesserungen: Auch hier liegt die KI-Gruppe während der Lernphase vorne, schneidet aber in der Testphase ohne Hilfsmittel schlechter ab. Die Abbruchrate unterscheidet sich im Mittel kaum. | Bild: Liu et al.Die Ergebnisse bestätigten den Befund: Die KI-Gruppe schnitt im Test ohne Hilfsmittel schlechter ab als die Kontrollgruppe. Die höhere Abbruchrate deutete in die gleiche Richtung, verfehlte aber in der Gesamtauswertung die statistische Signifikanz. Als mögliche Erklärung nennen die Forschenden unterschiedliches Nutzungsverhalten.
Wer sich direkt Antworten geben lässt, verliert am meisten
Rund 61 Prozent der KI-Nutzer gaben an, den Assistenten primär für direkte Antworten verwendet zu haben. Etwa ein Viertel nutzte ihn für Hinweise oder Erklärungen, der Rest gar nicht. Im Vortest unterschieden sich diese Gruppen weder in Lösungs- noch in Abbruchrate. Einstiegsfähigkeit und Motivation waren also vergleichbar.
Aufgeschlüsselt nach Nutzungsart: Vor dem Experiment sind alle Gruppen vergleichbar (a). Im Test ohne KI schneiden die "Direktfrager" am schlechtesten ab und brechen am häufigsten ab, während Teilnehmende, die die KI gar nicht genutzt haben, die höchsten Lösungsraten erreichen (b). Nur die "Direktfrager" verschlechtern sich auch gegenüber ihrer eigenen Vortestleistung (c). | Bild: Liu et al.Im Test nach dem KI-Entzug kippte das Bild: Wer sich direkte Antworten geben ließ, schnitt am schlechtesten ab, während Teilnehmende, die die KI ignoriert hatten, die höchsten Lösungsraten erreichten, sogar höher als die Kontrollgruppe. Die "Direktfrager" verschlechterten sich auch gegenüber der eigenen Vortestleistung, während die anderen Gruppen stabil blieben oder sich verbesserten. Die Daten legen nahe, dass die negativen Effekte primär bei Teilnehmenden auftreten, die sich direkte Antworten geben ließen.
Gleiches Muster beim Leseverständnis
Um zu prüfen, ob der Effekt auf Mathematik beschränkt ist, wiederholten die Forschenden das Design mit Leseverständnisaufgaben aus dem US-Hochschultest SAT. Auch hier erhielt die Kontrollgruppe eine Seitenleiste, dieses Mal mit allgemeinen Prüfungstipps, um den Kontextwechsel zwischen Lern- und Testphase zu spiegeln. Als übersprungen wertete das Team auch Antworten, die in weniger als fünf Sekunden abgegeben wurden, weil das Lesen des Texts in dieser Zeit unmöglich ist.
Experiment 3 überträgt das Design auf Leseverständnisaufgaben aus dem SAT. Das Muster wiederholt sich: Nach Entzug der KI sinkt die Lösungsrate der KI-Gruppe deutlich unter die der Kontrollgruppe, und sie überspringt mehr Aufgaben. | Bild: Liu et al.Das Ergebnis deckt sich mit den Mathematik-Experimenten: Die KI-Gruppe löste im unassistierten Test weniger Aufgaben korrekt und übersprang sie deutlich häufiger. Die reduzierte Ausdauer ist laut den Forschenden damit eine generelle Folge KI-gestützter Problemlösung, auch bei Aufgaben, die eng mit kritischem Denken verknüpft sind.
Zwei Mechanismen, ein strukturelles Problem
Die Studie schlägt zwei Erklärungen für den Ausdauerverlust vor: Erstens verschiebe die KI den Referenzpunkt dafür, wie lange eine Aufgabe dauern sollte. Eigenständige Arbeit erscheine dadurch subjektiv anstrengender, vergleichbar mit dem Gewöhnungseffekt bei positiven Erlebnissen. Dieser Mechanismus sei selbstverstärkend: Jedes Auslagern erhöhe die wahrgenommenen Kosten künftiger eigener Anstrengung.
Zweitens fehle den Nutzern der produktive Kampf, durch den sie sowohl Wissen als auch eine realistische Selbsteinschätzung aufbauen.
Die Forschenden ordnen ihre Ergebnisse in die Debatte um einen schleichenden Kompetenzverlust ein: KI-Systeme, die auf unmittelbare Hilfsbereitschaft optimiert seien, könnten die langfristigen Fähigkeiten ihrer Nutzer untergraben. Sie verweisen darauf, dass Bruchrechnen und Leseverständnis zwar wie delegierbare Tätigkeiten wirken, aber Voraussetzung für höhere Kompetenzen wie Algebra oder kritisches Denken sind.
Besonders gefährdet seien Schüler mit wenig akademischen Ressourcen. Wenn bereits zehn Minuten Nutzung messbare Effekte erzeugten, warnen die Forschenden, könnten sich die Folgen über Monate und Jahre kumulieren und schwer umkehrbar werden.
Nutzerseitige Gegenmaßnahmen wie sokratische KI oder Nutzungsbegrenzungen halten sie für "Pflaster". Nötig sei ein Umbau der Systeme, weg von kurzfristiger Nutzerzufriedenheit hin zu einem Design, das Autonomie fördert und auch einmal nicht hilft.
Davor hatten bereits mehrere Studien in eine ähnliche Richtung gedeutet, allerdings methodisch schwächer. Eine Untersuchung der Swiss Business School fand eine starke negative Korrelation zwischen KI-Nutzung und kritischem Denken, besonders ausgeprägt bei jüngeren Teilnehmenden zwischen 17 und 25 Jahren. Ein höheres Bildungsniveau wirkt als Schutzfaktor: Menschen mit höheren Bildungsabschlüssen hinterfragen KI-generierte Informationen häufiger und engagieren sich stärker in tiefgehendem Denken.
Eine gemeinsame Studie von Microsoft Research und Carnegie Mellon beschrieb eine "Ironie der Automatisierung": Indem KI-Tools Routineaufgaben übernehmen, nehmen sie den Nutzern die Gelegenheit, ihre "kognitive Muskulatur" zu trainieren. Gerade bei routinemäßigen oder weniger wichtigen Aufgaben verlassen sich Nutzer einfach auf die KI.
Auch eine Studie von Anthropic mit 52 überwiegend Junior-Softwareentwicklern zeigt, dass KI-Assistenz das Lernen neuer Programmierfähigkeiten beeinträchtigen kann. Die Teilnehmer sollten mit der ihnen unbekannten Trio-Bibliothek zwei Programmieraufgaben lösen. Eine Gruppe hatte Zugang zu einem KI-Assistenten auf Basis von GPT-4o, die Kontrollgruppe arbeitete nur mit Dokumentation und Websuche.
Im anschließenden Wissenstest schnitten Teilnehmer mit KI-Zugang um 17 Prozent schlechter ab. Auch hier war der Nutzungsmodus entscheidend für den Lernerfolg: Wer KI zur Erklärung nutzte, lernte deutlich besser als jene, die stark an die KI delegierten.
Neben der Nutzungsart spielt auch die Nutzungserfahrung eine Rolle für den sinnvollen Einsatz von KI. Anthropic zeigte in einer weiteren Untersuchung, dass erfahrene Claude-Nutzer bei identischen Aufgaben rund vier Prozentpunkte höhere Erfolgsraten erzielen als Neulinge. Sie arbeiten iterativ mit dem Modell, statt ihm nur Anweisungen zu geben.
Verschiedene Studien belegen zudem, dass KI die Leistungsfähigkeit von Einzelpersonen und Teams erhöhen kann. Für manche Unternehmen ist es noch schwierig, diese inselartigen Produktivitätsgewinne in steigende Effizienz und höhere Umsätze umzuwandeln. Gründe hierfür gibt es reichlich.



