Baidu hat Ernie 5.1 vorgestellt, ein Sprachmodell, das laut dem Unternehmen die Vortrainings-Grundlagen seines Vorgängers Ernie 5.0 erbt, aber nur noch etwa ein Drittel der Gesamtparameter und rund die Hälfte der pro Anfrage aktiven Parameter besitzt.
Die Kosten für das Vortraining sollen nach Baidus Angaben nur etwa sechs Prozent dessen betragen, was vergleichbare Modelle benötigen. Auf dem Arena-Search-Leaderboard erreichte Ernie 5.1 am 9. Mai 1.223 Punkte. Damit belegt das Modell laut Baidu Platz 4 weltweit und Platz 1 unter den chinesischen Modellen.
Auf dem Search-Arena-Leaderboard landet Ernie 5.1 mit 1.223 Punkten auf Platz 4, hinter zwei Claude-Opus-Varianten und GPT-5.5 Search. | Bild: BaiduIn weiteren Tests will Baidu mit Ernie 5.1 bei Aufgaben für autonome KI-Agenten (τ³-bench, SpreadsheetBench-Verified) DeepSeek-V4-Pro übertreffen und sich bei Wissens- und Schlussfolgerungsaufgaben (GPQA, MMLU-Pro) Googles Gemini 3.1 Pro annähern.
Bei einem schwierigen Mathematik-Benchmark (AIME26) soll das Modell mit Zugriff auf Werkzeuge knapp hinter Gemini 3.1 Pro landen. Beim kreativen Schreiben sieht sich Baidu in internen Evaluationen ebenfalls auf Augenhöhe mit kommerziellen Modellen aus dem globalen Westen.
Im Text-Arena-Leaderboard landet die Vorabversion Ernie-5.1-Preview mit 1.476 Punkten auf Platz 13. Die obersten Plätze belegen Claude-Opus-Varianten und Gemini 3.1 Pro. | Bild: BaiduEin Sub-Modell aus dem Vorgänger
Technisch ist Ernie 5.1 kein von Grund auf neu trainiertes Modell. Baidu hat es als kleineres Sub-Modell aus Ernie 5.0 herausgelöst.
Möglich macht das ein Trainingsverfahren, das Baidu "Once-For-All" nennt: Statt für jede gewünschte Modellgröße einen eigenen, teuren Vortrainingslauf zu starten, optimiert das Unternehmen während eines einzigen Laufs eine ganze Familie unterschiedlich großer Modelle gleichzeitig.
Das Once-For-All-Framework variiert in einem einzigen Trainingslauf gleichzeitig die Tiefe des Modells, die Anzahl verfügbarer Experten und die Anzahl pro Anfrage aktivierter Experten. Aus dieser Modell-Familie hat Baidu Ernie 5.1 als kleineres Sub-Modell extrahiert. | Bild: BaiduDiese Modelle teilen sich Gewichte und unterscheiden sich in ihrer Tiefe, ihrer Breite und darin, wie viele ihrer spezialisierten Experten-Bausteine bei einer Anfrage aktiv werden.
Aus dieser Familie hat Baidu für Ernie 5.1 die nach eigener Aussage beste Konfiguration ausgewählt. Das erklärt, warum die ausgewiesenen Vortrainingskosten so niedrig ausfallen: Die eigentliche Rechenarbeit wurde bereits für Ernie 5.0 erbracht.
Trennung statt Verzahnung im Reinforcement Learning
Für das Feintuning per Reinforcement Learning hat Baidu seine Infrastruktur umgebaut. Bislang sind die Bausteine eines solchen Trainings, das Modell-Update, die Generierung neuer Antworten und die Bewertung dieser Antworten, oft eng miteinander verzahnt.
Bei Baidu laufen diese Schritte jetzt als getrennte Subsysteme, die unabhängig voneinander skaliert werden können. Eine zentrale Steuerung koordiniert sie. Der Vorteil: Jeder Teil kann auf der jeweils passenden Hardware laufen, und Engpässe in einem Schritt blockieren nicht den Rest.
Ein Knackpunkt beim Reinforcement Learning großer Modelle ist, dass das Modell während des Trainings und während der Generierung neuer Beispiele leicht voneinander abweichen kann, weil unterschiedliche Recheneinstellungen verwendet werden. Diese Abweichung kann das Training destabilisieren.
Baidu nutzt eine vereinheitlichte Berechnungsbibliothek in niedriger Genauigkeit, um diese Lücke zu schließen. Zusätzlich greift bei Mixture-of-Experts-Modellen ein Korrekturmechanismus, der laut Baidu die Abweichung um die Hälfte reduziert, ohne das Training merklich zu verlangsamen.
Baidus Benchmark-Vergleich gegen DeepSeek V4 Pro, Claude Opus 4.6 und Gemini 3.1 Pro. Oben die agentischen Aufgaben, unten Wissen, Schlussfolgern und Instruction Following. Ernie 5.1 führt in einigen, aber längst nicht allen Disziplinen. | Bild: BaiduVier Stufen gegen den Wippen-Effekt
Beim Feintuning setzt Baidu auf einen vierstufigen Prozess, der ein bekanntes Problem entschärfen soll: Werden mehrere Fähigkeiten gleichzeitig in einer Trainingsphase trainiert, geht eine Verbesserung in einem Bereich oft zulasten eines anderen. Baidu spricht von einem "Seesaw-Effekt", also einer Wippe, bei der sich Code-Fähigkeit, Logik und Kreativität gegenseitig ausbremsen.
Die Pipeline beginnt mit einem klassischen, überwachten Training auf einem breiten Datensatz. Im zweiten Schritt entstehen parallel mehrere spezialisierte Experten-Modelle, je eines für Code, Schlussfolgern und Agenten-Aufgaben, jeweils mit eigenen Bewertungssignalen.
Baidus vierstufige Post-Training-Pipeline. Erst ein gemeinsames Fine-Tuning, dann parallel trainierte Experten für Code, Logik und Agenten-Aufgaben, anschließend deren Destillation in ein Schüler-Modell und zum Schluss eine offene Reinforcement-Learning-Phase für Dialog und Kreatives. | Bild: BaiduIm dritten Schritt lernt ein einziges Schüler-Modell gleichzeitig von all diesen Lehrer-Modellen, indem es selbst Antworten generiert und mit den Antworten der Experten abgleicht.
Erst zum Schluss folgt eine allgemeine Reinforcement-Learning-Phase für offene Gespräche und kreative Aufgaben, weil das Lehrer-Schüler-Verfahren laut Baidu bei solchen Aufgaben dazu führt, dass das Modell zu glatte und zu wenig vielfältige Antworten produziert.
Rollout auf Kreativplattformen, keine offenen Gewichte
Ernie 5.1 ist über ernie.baidu.com sowie einen Playground im Baidu AI Studio zugänglich. Zusätzlich soll das Modell schrittweise auf über zehn Kreativ-Plattformen ausgerollt werden, darunter die Rollenspiel-Plattform Isekai Zero, der Kreativ-Agent Mulan AI, die KI-Canvas-Anwendung Diting Huanliu und der Kurzdrama-Generator Storymaster.
Wie schon bei Ernie 5.0 hat Baidu bislang keine Modellgewichte veröffentlicht. Die Benchmark-Werte und Effizienzangaben lassen sich daher bisher nicht unabhängig überprüfen.
Anfang des Jahres hatte Baidu mit Ernie 5.0 das Fundament für die nun veröffentlichte schlankere Variante gelegt. Das im Januar 2026 freigeschaltete Modell verarbeitet Text, Bilder, Audio und Video in einer einheitlichen Architektur und nutzt eine Mixture-of-Experts-Struktur mit rund 2,4 Billionen Parametern, von denen pro Anfrage weniger als drei Prozent aktiv sind.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.



