Der Turing-Preisträger Richard Sutton argumentiert, dass gewöhnlicher generativer KI eine zentrale Fähigkeit für wissenschaftliche Entdeckungen fehlt: Sie kann ihre eigenen Ergebnisse nicht bewerten und weiterentwickeln.
Große Sprachmodelle, Bildgeneratoren und Videomodelle lernen aus riesigen Mengen an Beispielen und erzeugen Ausgaben, die diesen Beispielen ähneln. Sind diese Ausgaben gut, liegt das laut Sutton meist am Quellmaterial: an den Texten, Bildern oder Daten, aus denen das Modell gelernt hat. Sind sie dagegen wirklich neuartig, gehen sie über dieses Material hinaus. Bei Faktenabfragen nennt man das Halluzination.
Sutton illustriert seine Kritik mit einem alten Forscherwitz: „Diese Arbeit ist sowohl neuartig als auch gut. Leider sind die guten Teile nicht neuartig, und die neuartigen Teile nicht gut.“ Für große Teile der heutigen generativen KI treffe diese Diagnose zu, sagt Sutton: Sie könne Nützliches nachahmen oder zufällig Neues erzeugen, aber nicht aus eigener Kraft erkennen, welche neuen Ideen tatsächlich gut sind.
Dabei bestreitet Sutton den Nutzen generativer KI nicht. Für Zusammenfassungen, Recherchen, Assistenzsysteme oder Unterhaltung könne sie enorm wertvoll sein. Oft sei Neuartigkeit dort gar nicht erwünscht. Eine Zusammenfassung soll keine neuen Fakten erfinden, eine Recherche keine zusätzlichen Behauptungen einbauen. Generative KI sei deshalb eine transformative Technologie, auch wenn sie im Kern nachahme – solange sie schneller, billiger, anpassbarer oder skalierbarer sei als das Original.
Für Wissenschaft reicht Nachahmung nicht
Für Wissenschaft und Mathematik ist diese Grenze aus Suttons Sicht entscheidend. Dort geht es nicht darum, Bekanntes plausibel zu reproduzieren, sondern Neues zu entdecken, zu prüfen und dauerhaft in Wissen zu überführen.
Echte Entdeckung beschreibt Sutton als Dreischritt: Variation, Bewertung und selektive Beibehaltung. Ein System muss verschiedene Möglichkeiten erzeugen, testen und erfolgreiche Ansätze weiterverwenden. Dieses Prinzip sieht Sutton in der Evolution, in der wissenschaftlichen Methode, im Planen, in der Suche und im Reinforcement Learning.
Reiner generativer KI fehle vor allem die Bewertung. Zwar erzeugen Sprach- oder Bildmodelle unterschiedliche Varianten. Ohne Prüfung gibt es aber keine Auswahl des Besten – und damit keine Entdeckung. Sutton formuliert es so: Neuheit flackere kurz auf, gehe aber wieder verloren, wenn ihr Wert nicht erkannt werde.
Diese Bewertung kann von Menschen kommen, etwa wenn Nutzer aus mehreren KI-Bildern das beste auswählen. Sie kann aber auch durch ein klares Ziel entstehen: ein Schachmatt, einen formal gültigen Beweis, eine erfolgreiche Programmausführung oder eine hohe Belohnung in einer simulierten Umgebung. Erst solche Rückkopplungen machen aus bloßer Generierung einen Such- und Entdeckungsprozess.
AlphaGo, AlphaFold und Claude Code zeigen den Unterschied
Dass KI-Systeme laut Sutton bereits zu "echter Kreativität und echter Entdeckung" fähig sein können, zeigen Beispiele wie AlphaGo mit seinem berühmten Zug 37, AlphaZero mit seinem eigenständigen Schachstil, AlphaFold in der Proteinvorhersage, AlphaProof in der Mathematik, Claude Code in der Programmierung oder GT-Sophy im simulierten Rennsport.
Der gemeinsame Nenner dieser Systeme ist eine Bewertungsschleife, die über reine Text- oder Bildgenerierung hinausgeht: Ein Go-Zug erhöht die Gewinnchance oder nicht. Ein mathematischer Schritt lässt sich formal prüfen oder nicht. Code besteht Tests, läuft korrekt oder scheitert. So können bessere Lösungen ausgewählt und weiterverfolgt werden.
Damit richtet sich Suttons Kritik primär gegen "gewöhnliche" generative KI, die zur Laufzeit keine eigene Bewertung ihrer Ausgaben vornimmt. Sprachmodelle, die mit Suche, Verifikatoren, Werkzeugen, Reinforcement Learning oder formalen Prüfern erweitert werden, können dagegen Teil echter Discovery-Systeme werden. Die offene Frage ist, wie weit sich diese Struktur über Programmierung, Spiele und klar evaluierbare Aufgaben hinaus ausdehnen lässt.
Ein weiteres Problem sieht Sutton beim Training neuronaler Netze selbst. Klassische Netze beginnen mit zufälligen Einstellungen und lernen anschließend aus Daten. Diese anfängliche Zufälligkeit ist eine Quelle von Variation, tritt aber vor allem zu Beginn auf. Später können Modelle an Lernfähigkeit verlieren, weil ihre internen Strukturen festgefahren sind.
Ein wirklich lernendes System dürfte deshalb laut Sutton nicht nur einmal angepasst werden. Es müsste seine Struktur dauerhaft erneuern, neue Möglichkeiten ausprobieren, erfolgreiche Veränderungen behalten und schlechte verwerfen können. Suttons Ziel ist also eine KI, die über lange Zeiträume Variation, Bewertung und selektive Beibehaltung selbst organisiert.
Sutton kritisiert seit Längerem den Kurs der KI-Industrie
Vor kurzem hatte Sutton bereits die KI-Industrie grundsätzlich kritisiert und erklärt, sie habe "in gewissem Maße ihren Weg verloren". Der unter anderem für Google Deepmind aktive Forscher meint damit vor allem den starken Fokus auf immer größere Sprachmodelle, die viel Wissen aus Trainingsdaten übernehmen, aber nicht dauerhaft aus eigener Erfahrung lernen.
Sutton fordert stattdessen KI-Agenten, die kontinuierlich mit ihrer Umgebung interagieren, daraus lernen, innere Modelle der Welt aufbauen und neue Strategien planen können. Auch Meta-Lernen spielt in seiner Vision eine Rolle: Systeme sollen nicht nur einzelne Aufgaben lernen, sondern auch lernen, wie sie besser lernen.
In seiner Oak-Architektur beschreibt Sutton einen möglichen Weg zu sehr leistungsfähigen KI-Systemen. Die Grundidee: Ein Agent beginnt ohne fest eingebautes Spezialwissen, handelt in einer Umgebung, erhält Rückmeldungen und bildet mit der Zeit immer abstraktere Konzepte. Nützliche Konzepte werden zur Grundlage für die nächste Stufe des Lernens.
Die große offene Voraussetzung dafür ist laut Sutton zuverlässiges kontinuierliches Lernen. Heutige neuronale Netze können neues Wissen oft nur schwer aufnehmen, ohne altes Wissen zu verdrängen oder an Anpassungsfähigkeit zu verlieren.



