Baidus Ernie 5.1 spart 94 Prozent der Vortrainingskosten und glänzt dennoch in Benchmarks

3 weeks ago 10

Baidu hat Ernie 5.1 vorgestellt, ein Sprachmodell, das laut dem Unternehmen die Vortrainings-Grundlagen seines Vorgängers Ernie 5.0 erbt, aber nur noch etwa ein Drittel der Gesamtparameter und rund die Hälfte der pro Anfrage aktiven Parameter besitzt.

Die Kosten für das Vortraining sollen nach Baidus Angaben nur etwa sechs Prozent dessen betragen, was vergleichbare Modelle benötigen. Auf dem Arena-Search-Leaderboard erreichte Ernie 5.1 am 9. Mai 1.223 Punkte. Damit belegt das Modell laut Baidu Platz 4 weltweit und Platz 1 unter den chinesischen Modellen.

Balkendiagramm des Search-Arena-Leaderboards mit 15 Modellen. Ernie 5.1 belegt mit 1.223 Punkten Platz 4, hinter Claude Opus 4.6 Search (1.255), GPT-5.5 Search (1.242) und Claude Opus 4.7 (1.236).

In weiteren Tests will Baidu mit Ernie 5.1 bei Aufgaben für autonome KI-Agenten (τ³-bench, SpreadsheetBench-Verified) DeepSeek-V4-Pro übertreffen und sich bei Wissens- und Schlussfolgerungsaufgaben (GPQA, MMLU-Pro) Googles Gemini 3.1 Pro annähern.

Bei einem schwierigen Mathematik-Benchmark (AIME26) soll das Modell mit Zugriff auf Werkzeuge knapp hinter Gemini 3.1 Pro landen. Beim kreativen Schreiben sieht sich Baidu in internen Evaluationen ebenfalls auf Augenhöhe mit kommerziellen Modellen aus dem globalen Westen.

Balkendiagramm des Text-Arena-Leaderboards mit 15 Modellen. Ernie-5.1-Preview belegt mit 1.476 Punkten Platz 13. Die Liste wird angeführt von Claude Opus 4.7 (Thinking) mit 1.503 Punkten, gefolgt von Claude Opus 4.6 (Thinking), Claude Opus 4.6 und Claude Opus 4.7.

Ein Sub-Modell aus dem Vorgänger

Technisch ist Ernie 5.1 kein von Grund auf neu trainiertes Modell. Baidu hat es als kleineres Sub-Modell aus Ernie 5.0 herausgelöst.

Möglich macht das ein Trainingsverfahren, das Baidu "Once-For-All" nennt: Statt für jede gewünschte Modellgröße einen eigenen, teuren Vortrainingslauf zu starten, optimiert das Unternehmen während eines einzigen Laufs eine ganze Familie unterschiedlich großer Modelle gleichzeitig.

Schema des Once-For-All-Trainings in drei Abschnitten. Links ein Stapel grüner Transformer-Schichten als „Elastic Depth", in der Mitte ein Raster aus Experten-Bausteinen als „Elastic Width", rechts drei Routing-Konfigurationen mit Top-K = 1, 2 und 4 als „Elastic Sparsity".

Diese Modelle teilen sich Gewichte und unterscheiden sich in ihrer Tiefe, ihrer Breite und darin, wie viele ihrer spezialisierten Experten-Bausteine bei einer Anfrage aktiv werden.

Aus dieser Familie hat Baidu für Ernie 5.1 die nach eigener Aussage beste Konfiguration ausgewählt. Das erklärt, warum die ausgewiesenen Vortrainingskosten so niedrig ausfallen: Die eigentliche Rechenarbeit wurde bereits für Ernie 5.0 erbracht.

Trennung statt Verzahnung im Reinforcement Learning

Für das Feintuning per Reinforcement Learning hat Baidu seine Infrastruktur umgebaut. Bislang sind die Bausteine eines solchen Trainings, das Modell-Update, die Generierung neuer Antworten und die Bewertung dieser Antworten, oft eng miteinander verzahnt.

Bei Baidu laufen diese Schritte jetzt als getrennte Subsysteme, die unabhängig voneinander skaliert werden können. Eine zentrale Steuerung koordiniert sie. Der Vorteil: Jeder Teil kann auf der jeweils passenden Hardware laufen, und Engpässe in einem Schritt blockieren nicht den Rest.

Ein Knackpunkt beim Reinforcement Learning großer Modelle ist, dass das Modell während des Trainings und während der Generierung neuer Beispiele leicht voneinander abweichen kann, weil unterschiedliche Recheneinstellungen verwendet werden. Diese Abweichung kann das Training destabilisieren.

Baidu nutzt eine vereinheitlichte Berechnungsbibliothek in niedriger Genauigkeit, um diese Lücke zu schließen. Zusätzlich greift bei Mixture-of-Experts-Modellen ein Korrekturmechanismus, der laut Baidu die Abweichung um die Hälfte reduziert, ohne das Training merklich zu verlangsamen.

Balkendiagramme vergleichen Ernie 5.1, DeepSeek V4 Pro, Claude Opus 4.6 und Gemini 3.1 Pro in acht Benchmarks. Im oberen Block (Agentic) liegt Ernie 5.1 bei AIME26 mit Werkzeugen bei 99,6 Punkten, knapp hinter Gemini 3.1 Pro mit 99,9; in SpreadsheetBench-Verified erreicht das Modell 72,5 Punkte und liegt damit vor DeepSeek V4 Pro, aber hinter den beiden Konkurrenten. Im unteren Block (Knowledge, Reasoning, Instruction Following) liegen die Werte näher beieinander, Ernie 5.1 schneidet hier meist als zweit- oder drittstärkstes Modell ab.

Vier Stufen gegen den Wippen-Effekt

Beim Feintuning setzt Baidu auf einen vierstufigen Prozess, der ein bekanntes Problem entschärfen soll: Werden mehrere Fähigkeiten gleichzeitig in einer Trainingsphase trainiert, geht eine Verbesserung in einem Bereich oft zulasten eines anderen. Baidu spricht von einem "Seesaw-Effekt", also einer Wippe, bei der sich Code-Fähigkeit, Logik und Kreativität gegenseitig ausbremsen.

Die Pipeline beginnt mit einem klassischen, überwachten Training auf einem breiten Datensatz. Im zweiten Schritt entstehen parallel mehrere spezialisierte Experten-Modelle, je eines für Code, Schlussfolgern und Agenten-Aufgaben, jeweils mit eigenen Bewertungssignalen.

General Online RL auf offenen Dialogdaten, am Ende steht Ernie 5.1.

Im dritten Schritt lernt ein einziges Schüler-Modell gleichzeitig von all diesen Lehrer-Modellen, indem es selbst Antworten generiert und mit den Antworten der Experten abgleicht.

Erst zum Schluss folgt eine allgemeine Reinforcement-Learning-Phase für offene Gespräche und kreative Aufgaben, weil das Lehrer-Schüler-Verfahren laut Baidu bei solchen Aufgaben dazu führt, dass das Modell zu glatte und zu wenig vielfältige Antworten produziert.

Rollout auf Kreativplattformen, keine offenen Gewichte

Ernie 5.1 ist über ernie.baidu.com sowie einen Playground im Baidu AI Studio zugänglich. Zusätzlich soll das Modell schrittweise auf über zehn Kreativ-Plattformen ausgerollt werden, darunter die Rollenspiel-Plattform Isekai Zero, der Kreativ-Agent Mulan AI, die KI-Canvas-Anwendung Diting Huanliu und der Kurzdrama-Generator Storymaster.

Wie schon bei Ernie 5.0 hat Baidu bislang keine Modellgewichte veröffentlicht. Die Benchmark-Werte und Effizienzangaben lassen sich daher bisher nicht unabhängig überprüfen.

Anfang des Jahres hatte Baidu mit Ernie 5.0 das Fundament für die nun veröffentlichte schlankere Variante gelegt. Das im Januar 2026 freigeschaltete Modell verarbeitet Text, Bilder, Audio und Video in einer einheitlichen Architektur und nutzt eine Mixture-of-Experts-Struktur mit rund 2,4 Billionen Parametern, von denen pro Anfrage weniger als drei Prozent aktiv sind.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article