Forscher trainieren KI-Modell, das mit 12,5 Prozent seiner Experten fast volle Leistung bringt

3 weeks ago 10

Forscher des Allen Institute for AI und der UC Berkeley haben mit EMO ein Mixture-of-Experts-Modell vorgestellt, bei dem sich modulare Strukturen bereits während des Pretrainings herausbilden. Das Modell lässt sich auf einen kleinen Bruchteil seiner Experten reduzieren, ohne nennenswert an Leistung zu verlieren.

Mixture-of-Experts-Architekturen (MoE) sind in aktuellen Sprachmodellen wie DeepSeek-V4 oder Qwen3.5 längst Standard. Sie aktivieren pro Token nur einen kleinen Teil ihrer Experten und skalieren so effizient auf hunderte Milliarden Parameter. In der Praxis muss aber trotzdem das gesamte Modell im Speicher liegen, denn verschiedene Tokens innerhalb einer Aufgabe sprechen unterschiedliche Experten an. Wer nur Mathematik oder nur Code generieren will, kommt nicht mit einem Ausschnitt des Modells aus.

Laut dem Paper liegt das daran, dass sich Experten in Standard-MoEs eher auf oberflächliche sprachliche Muster spezialisieren. Sie reagieren etwa auf Präpositionen, Satzzeichen oder bestimmte Artikel, nicht auf höherwertige Domänen wie Mathematik oder Code. Damit lässt sich kein sinnvoller Teilbereich des Modells herauslösen.

Dokumentgrenzen als Lernsignal

EMO geht das Problem mit einem einfachen Trick an. Statt die Trainingsdaten vorab in feste Domänen wie Mathematik oder Biologie zu unterteilen, wie es Projekte wie BTX oder Ai2s eigenes FlexOlmo tun, nutzen die Autoren Dokumentgrenzen. Tokens innerhalb eines Dokuments stammen meist aus derselben Domäne.

EMO zwingt deshalb alle Tokens eines Dokuments, ihre aktiven Experten aus einem gemeinsamen Pool zu wählen. Welche Experten in diesen Pool kommen, entscheidet das Modell selbst, indem es die Präferenzen seines Routers über alle Token eines Dokuments mittelt und die am häufigsten gewählten Experten übernimmt.

Schema, das zeigt, wie sich aus dem EMO-Gesamtmodell domänenspezifische Teilmengen von Experten (Mathe, Code, Biomedizin) auswählen lassen.EMO trainiert Modularität als Ziel erster Ordnung. Für eine Domäne lässt sich eine beliebig große Experten-Teilmenge auswählen, ohne dass die Leistung des Gesamtmodells nennenswert einbricht. | Bild: Allen Institute

Damit das Verfahren stabil trainiert, mussten die Autoren zwei Details anpassen. Erstens berechnen sie das sogenannte Load Balancing, das die Experten gleichmäßig auslasten soll, nicht mehr lokal über einzelne Trainingsbatches, sondern global über sehr viele Dokumente hinweg. Sonst würden sich beide Trainingsziele gegenseitig blockieren: Das eine bündelt Tokens innerhalb eines Dokuments, das andere verteilt sie auf möglichst viele Experten.

Zweitens variieren die Forscher die Größe des Dokumenten-Pools während des Trainings zufällig, statt sie fest vorzugeben. So lernt das Modell, zur Inferenzzeit mit unterschiedlich großen Experten-Untergruppen zu arbeiten.

Ein Prozent Verlust bei einem Viertel der Experten

Trainiert wurde ein MoE mit 1 Milliarde aktiven und 14 Milliarden Gesamtparametern, also 128 Experten, von denen acht pro Token aktiv sind, auf 1 Billion Tokens des OLMoE-Pretrainingkorpus. Als Vollmodell erreicht EMO die Leistung eines baugleich trainierten Standard-MoE, der laut den Autoren OLMoE trotz fünffacher Datenmenge schlägt.

Entscheidend ist, wie sich das Modell verhält, wenn man Experten wegnimmt. Behält man nur 25 Prozent (32 von 128), verliert EMO im Schnitt rund einen Prozentpunkt absolute Leistung über mehrere Benchmarks. Bei 12,5 Prozent (16 Experten) sind es etwa drei Prozentpunkte. Der Standard-MoE bricht im gleichen Setting deutlich ein und verliert 10 bis 15 Prozentpunkte. Teils fällt er unter das Niveau eines dichten Modells mit gleicher Zahl aktiver Parameter. Auf dem Mathematik-Benchmark GSM8K erreichen Teilmengen mit nur 12,5 Prozent der Experten nach einem Fine-Tuning wieder die volle Modellleistung.

Balkendiagramm-Vergleich der Benchmark-Ergebnisse von EMO und einem Standard-MoE bei voller und reduzierter Experten-Auswahl (Basismodell).Auf den Basismodellen bleibt EMO selbst bei nur 16 von 128 aktiven Experten (12,5 Prozent) nahe an der Volllast-Leistung, während der Standard-MoE deutlich einbricht. | Bild: Allen Institute
Balkendiagramm der GSM8K-Ergebnisse von EMO und einem Standard-MoE bei verschiedenen Expertenzahlen pro Layer.Auf der Mathe-Aufgabe GSM8K hält EMO die Leistung sogar bei 16 Experten (12,2) auf Höhe des vollen Modells (12,0), während der Standard-MoE schon bei halbierter Expertenmenge auf 4,9 zurückfällt und im kleinsten Setting unter zufälliges Raten rutscht. | Bild: Allen Institute

Die passenden Experten zu finden, benötigt laut den Autoren wenig Daten. Ein einziges Few-Shot-Beispiel reicht aus, um eine Untergruppe zu bestimmen, die mit einer auf vollem Validierungsdatensatz ausgewählten Gruppe vergleichbar ist. EMO funktioniert dabei sowohl mit einer einfachen Auswahl über den Router als auch mit der spezialisierteren Methode Easy-EP.

Spezialisierung auf Themen statt auf Satzzeichen

Um zu verstehen, was EMO eigentlich gelernt hat, analysierten die Forscher, wie das Modell intern Tokens an Experten verteilt. Für jedes Token notierten sie, mit welcher Wahrscheinlichkeit der Router es an die einzelnen Experten schickt. Aus diesen Mustern entsteht für jedes Token eine Art Fingerabdruck. Tokens mit ähnlichen Fingerabdrücken fassten sie anschließend zu Clustern zusammen.

 links Standard-MoE mit pro Token unabhängig gewählten Experten, rechts EMO mit dokumentweit eingeschränktem Experten-Pool.Im Standard-MoE (links) wählt jedes Token unabhängig seine Top-k-Experten, sodass im Dokumentverlauf praktisch alle Experten genutzt werden. EMO (rechts) legt pro Dokument einen gemeinsamen Pool fest, in dem alle Token routen müssen – das erzwingt konsistente Expertennutzung und fördert Domänen-Spezialisierung. | Bild: Allen Institute

Das Ergebnis fällt deutlich aus. Im Standard-MoE bilden sich Cluster, die oberflächlichen Sprachkategorien entsprechen, etwa "Präpositionen", "Eigennamen" oder "bestimmte Artikel". EMO dagegen gruppiert Tokens nach inhaltlichen Themen wie "Gesundheit, Medizin und Wellness", "US-Politik und Wahlen" oder "Film, Musik, TV und Buchrezensionen". Tokens eines Dokuments landen in EMO überwiegend in einem einzigen Cluster, im regulären MoE verteilen sie sich über viele. Eine interaktive Visualisierung der Cluster ist online verfügbar.

Visualisierung der Token-Cluster aus den Router-Aktivierungen, links EMO mit semantischen Domänen wie Gesundheit oder Politik, rechts Standard-MoE mit syntaktischen Clustern wie Präpositionen.EMO bildet Cluster zu semantisch sinnvollen Domänen (Gesundheit, Politik, Film und Musik), und Token desselben Dokuments landen meist im gleichen Cluster. Im Standard-MoE entstehen dagegen Cluster auf Wortarten-Ebene wie Präpositionen oder bestimmte Artikel, und die Token eines Dokuments verteilen sich quer über viele davon. | Bild: Allen Institute

Auf einer Stichprobe von 20 Millionen Dokumenten aus dem Datensatz WebOrganizer mit 24 menschlich vergebenen Domänenlabels prüften die Autoren, ob inhaltlich verwandte Domänen auch ähnliche Experten ansprechen. In EMO trennen sich die Muster deutlich schärfer, besonders in den tieferen Schichten des Modells. Im Standard-MoE überlappen sie sich stärker.

Anwendungen jenseits der Speicherersparnis

Die Autoren sehen mehrere Anwendungsfelder. Am naheliegendsten ist der Einsatz in speicherbeschränkten Umgebungen, in denen man nur die für eine Domäne relevanten Experten lädt. Im direkten Vergleich erreichen oder übertreffen Experten-Untergruppen von EMO sowohl einen Standard-MoE mit 32 Experten als auch ein dichtes Modell mit acht aktiven Parametern, die jeweils von Grund auf neu trainiert wurden.

Liniendiagramm der durchschnittlichen MMLU-Performance gegen das Speicherbudget für EMO, Standard-MoE und feste Baselines.Im kleineren 130-Milliarden-Token-Setting verschieben EMO-Experten-Teilmengen die Pareto-Front im Verhältnis von Speicher zu Genauigkeit: Sie schlagen sowohl Standard-MoEs als auch fest dimensionierte Modelle, die von Grund auf trainiert wurden. | Bild: Allen Institute

Daneben diskutieren die Forscher, wie sich Modelle zur Laufzeit feiner steuern ließen. In einer kinderfreundlichen Anwendung könnte man etwa Cluster abschalten, die auf Spam, Glücksspiel oder Erwachseneninhalte reagieren. In einem ersten Test trainierten die Autoren eine 32-Experten-Untergruppe von EMO nach und setzten sie zurück ins 128-Experten-Modell ein.

Das verbesserte das Vollmodell, erreichte aber nicht das Niveau der eigenständigen Untergruppe. Auch beim Monitoring könnte EMO helfen, weil sich an den Experten ablesen lässt, welche Teile des Modells eine Eingabe gerade nutzt.

Ai2 veröffentlicht das EMO-Modell, eine vergleichbar trainierte Standard-MoE-Baseline sowie den Trainingscode auf Hugging Face und GitHub. Außerdem haben die Forscher eine interaktive Demo zu den Token-Aktivierungen veröffentlicht. Offen bleibt, wie man Experten-Untergruppen am besten auswählt und kombiniert, wie sich einzelne Module gezielt nachtrainieren lassen und wie sich die modulare Struktur für mehr Interpretierbarkeit nutzen lässt.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article