Warum große KI-Modelle bestimmte Aufgaben lernen und kleine nicht

5 hours ago 3

Statt Modelle immer weiter aufzublasen, könnte es laut einer neuen Studie effizienter sein, gezielt die Häufigkeit bestimmter Aufgaben in den Trainingsdaten zu erhöhen, um seltene Fähigkeiten in kleinen Modellen zu verankern.

Eine neue Studie, an der unter anderem Forschende von Anthropic und Stanford beteiligt sind, erklärt, warum größere Sprachmodelle bestimmte Aufgaben lernen, an denen kleinere scheitern. Der Befund geht über die übliche Lesart hinaus, dass große Modelle einfach schneller lernen.

In bestimmten Fällen lernen kleine Modelle manche seltene Aufgaben auch dann nicht zuverlässig, wenn sie sehr lange trainiert werden. Schon die bekannten Skalierungsgesetze deuten darauf hin, dass ein kleines Modell selbst mit unendlich vielen Daten nie den Verlust eines großen erreicht.

Vier Heatmaps zeigen Trainingsverlust und Testgenauigkeit der OLMo-Modelle von 4M bis 4B Parametern bei sinkender Aufgabenfrequenz; orange Felder markieren erfolgreich gelernte Aufgaben, die fast nur bei den großen Modellen und höherer Frequenz auftreten.Erst die größeren OLMo-Modelle lernen die selten eingestreuten Aufgaben zuverlässig, sichtbar an den orange eingefärbten Feldern rechts unten in beiden Aufgaben. | Bild: Huang et al.

Häufige Aufgaben verdrängen seltene aus dem Modell

Um den Mechanismus zu isolieren, testen die Forschenden eine Mischung von Aufgaben mit unterschiedlicher Häufigkeit und Komplexität. Ein Modell mit N Neuronen belegt diese mit den N "nützlichsten" Merkmalen, wobei sich Nützlichkeit aus Häufigkeit und Wichtigkeit einer Aufgabe ergibt. Häufige und einfache Aufgaben bekommen Vorrang, seltene und komplexe fallen heraus. In den Experimenten lernten nur ausreichend große Modelle Aufgaben, die nur 0,25 Prozent der Trainingsdaten ausmachten.

Links eine Heatmap mit Aufgaben nach Häufigkeit über der Modellbreite N, rechts drei Streudiagramme, in denen der beobachtete Verlust dem vorhergesagten Verlust entlang der Diagonale folgt.Ein Modell mit N Neuronen belegt diese mit den N nützlichsten Merkmalen, breitere Modelle erfassen zusätzlich die selteneren Aufgaben unten. | Bild: Huang et al.

Kern der Arbeit ist die Erklärung, warum Größe hilft: Solange häufige Aufgaben noch nicht gut beherrscht werden, ziehen sie das Modell bei jedem Trainingsschritt stark in ihre Richtung und überschreiben dabei vieles, was zu seltenen Aufgaben gelernt wurde. Hat ein großes Modell die häufigen Aufgaben einmal weitgehend erfasst, lässt dieser Zug nach. Die freien Kapazitäten stehen seltenen Aufgaben zur Verfügung, und ein einmal gelerntes Signal bleibt eher erhalten.

Kleine Modelle erreichen diesen Zustand laut der Studie kaum und geraten in eine "Update-and-Forget"-Schleife. Eine seltene Beobachtung wird kurz gelernt, von den nächsten Trainingsschritten mit häufigen Aufgaben aber wieder weitgehend ausradiert. Bei der nächsten seltenen Beobachtung beginnt das Modell weitgehend von vorn.

Ein Experiment soll diesen Effekt sauber heraustrennen. Die Gesamthäufigkeit einer seltenen Aufgabe bleibt konstant, der Abstand zwischen den einzelnen Beobachtungen variiert. Je größer die Lücke, desto stärker zerfällt das Signal in schmalen Modellen. Breite Modelle halten es zwischen den Beobachtungen besser fest und bauen darauf auf.

Test an echten Sprachmodellen

Um die Theorie im Pretraining zu prüfen, trainierte das Team OLMo-Modelle zwischen 4 Millionen und 4 Milliarden Parametern auf bis zu 210 Milliarden Token des Dolma-Korpus. In die Daten mischten sie zwei künstliche Aufgaben ein, einen Zahlenvergleich und eine modulare Addition, mit Frequenzen zwischen etwa 1000 Instanzen pro Batch und einer Instanz alle zehn Batches.

Drei Liniendiagramme der Gradienten-Kosinusähnlichkeit für 20M-, 300M- und 1B-Modelle; beim 1B-Modell schlägt das Signal nur an den Injektionsstellen klar aus, beim 20M-Modell schwankt es durchgehend.Gemessen wird, wie stark jeder Trainingsschritt in Richtung der seltenen Aufgabe zieht. In der mittleren Reihe bekommen alle Modelle an den Stellen, an denen die Aufgabe vorkommt, dasselbe deutliche Signal (die Spitzen). In der unteren Reihe sieht man den Unterschied: Beim kleinen 20M-Modell (lila) drängt das übrige Sprachtraining ständig in zufällige Richtungen und stört dieses Signal, bei den großen Modellen (300M und 1B) bleibt die Linie nahe null, das Signal bleibt ungestört. | Bild: Huang et al.

Nur die größeren OLMo-Modelle lernten die seltenen Aufgaben, und das nicht, indem sie einzelne Beispiele auswendig lernten, sondern indem sie die dahinterliegende Regel erfassten und sie auf neue Fälle anwenden konnten.

Besonders deutlich wird das bei der modularen Addition: Hier zeigte sich das sogenannte Grokking, bei dem ein Modell eine Aufgabe zunächst nur stur auswendig beherrscht und erst nach längerem Training schlagartig das zugrunde liegende Prinzip versteht. Dieser Sprung gelang ausschließlich den größeren Modellen, und auch nur dann, wenn die Aufgabe oft genug in den Trainingsdaten vorkam.

Ein Blick ins Innere der Modelle bestätigt das Bild. Beim Eine-Milliarde-Modell steuerte jeder Trainingsschritt, in dem die seltene Aufgabe auftauchte, klar auf deren Lösung zu. Beim kleineren 20-Millionen-Modell ging dieses Signal im Rauschen des übrigen Trainings unter, sodass kaum echtes Lernen stattfand.

Memorisieren als Voraussetzung für Generalisieren

Daraus ergibt sich eine ungewohnte Schlussfolgerung. Memorisierung erscheint in der Arbeit nicht als unerwünschter Nebeneffekt, sondern als Vorstufe zur Generalisierung. Nur wenn ein Modell einzelne Beobachtungen lange genug festhält, kann sich über viele Batches hinweg eine generalisierbare Struktur herausbilden.

Praktisch folgt daraus eine Alternative zur reinen Modellvergrößerung. Wer eine bestimmte Fähigkeit gezielt verankern will, kann laut der Studie auch die Häufigkeit der Zielaufgabe in den Trainingsdaten erhöhen, statt das Modell aufzublasen.

Warum Größe hilft, dafür gibt es derzeit mehr als eine Erklärung. Ein MIT-Team führte die Skalierungsgesetze im Mai auf die Geometrie der Modelle zurück, die über sogenannte Superposition mehr Konzepte speichern, als ihre Dimensionen eigentlich zulassen. Die neue Studie setzt nicht beim fertigen Modell an, sondern bei der Frage, was sich aus einer gegebenen Datenmischung im Training überhaupt lernen lässt. Im Hintergrund läuft dabei die ältere Debatte mit, ob bestimmte Fähigkeiten ab einer gewissen Größe wirklich sprunghaft "emergieren" oder ob das teils nur ein Messartefakt ist.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article