Deepseek-R1 löst Boom bei Reasoning-fähigen Sprachmodellen aus

9 months ago 12

Eine neue Übersichtsstudie zeigt, dass die Veröffentlichung von Deepseek‑R1 die Forschung zu schlussfolgernden Sprachmodellen beschleunigt und wesentliche Fortschritte bei Training, Multimodalität und Sicherheit angestoßen hat.

Vor rund vier Monaten sorgte die Veröffentlichung von Deepseek-R1 für Wirbel in der KI-Landschaft. Das Modell zeigte beeindruckende Fähigkeiten im logischen Schlussfolgern, soll dafür aber wesentlich weniger Trainingsressourcen benötigt haben. Zahlreiche Unternehmen versuchten, R1 nachzubauen. Meta soll sogar eigens spezielle Gruppen eingerichtet haben, um das Modell zu analysieren und zu replizieren.

Forschende einer SEO-Agentur sowie verschiedener Universitäten aus China und Singapur haben jetzt untersucht, welche Auswirkungen das auf die generelle Weiterentwicklung von Sprachmodellen hatte. Ihnen zufolge hat R1 zu einem regelrechten Boom von Reasoning-fähigen Sprachmodellen geführt.

Bessere Daten, bessere Ergebnisse

Ein zentraler Hebel war das Supervised Finetuning (SFT), bei dem Grundmodelle mit Schritt-für-Schritt-Erklärungen nachtrainiert werden. Die Meta‑Analyse zeigt, dass nicht die Datenmenge, sondern deren Auswahl entscheidet: Bereits wenige Tausend streng geprüfte Beispiele heben selbst 7B‑ oder sogar 1,5B‑Modelle auf hohes Niveau, während schlecht gefilterte Datensätze mit Millionen Einträgen kaum Fortschritt bringen.

THE DECODER Newsletter

Die wichtigen KI-News direkt ins E-Mail-Postfach.

✓ 1x wöchentlich

✓ kostenlos

✓ jederzeit kündbar

Die frühere Annahme, dass tiefes Reasoning notwendigerweise große Modelle erfordert, ist damit hinfällig. Die zugrundeliegenden Basismodelle bestimmen jedoch die verfügbaren Kapazitäten. Reasoning-Modelle können diese in Teilbereichen nur effizienter nutzen.

Besonders erfolgreich erwies sich der Einsatz von Reinforcement Learning, um die Reasoning‑Fähigkeiten weiter zu steigern. Dabei kamen primär zwei RL-Algorithmen zum Einsatz: PPO und GRPO. Beide existierten schon vor Deepseek-R1, scheinen durch den Erfolg bei R1 jedoch breitere Anwendung zu finden.

PPO (Proximal Policy Optimization) passt die Modellgewichte nach jedem Lernschritt nur so weit an, dass die neue Antwortstrategie nicht zu stark von der bisherigen abweicht; ein eingebauter Clip‑Mechanismus bremst zu große Sprünge und sorgt für stabiles Training.

GRPO (Group Relative Policy Optimization) greift diesen Gedanken auf, erzeugt pro Frage mehrere Antwortvorschläge, vergleicht deren Belohnungen innerhalb dieser kleinen Gruppe und lernt aus den relativen Unterschieden; durch diese Gruppennormalisierung kann es auf ein zusätzliches Wertnetz verzichten und bleibe bei langen Chain‑of‑Thought‑Antworten effizient.

Vielversprechende Trainingsstrategien

Die Forschungsgemeinschaft experimentierte auch mit verschiedenen Trainingsstrategien. So erwies sich ein schrittweises Vorgehen mit zunächst kürzeren und dann immer längeren Antworten als vorteilhaft. Auch Curriculum Learning, bei dem die Schwierigkeit der Aufgaben allmählich gesteigert wird, zeigte positive Effekte. Laut der Studie könnte dies darauf hindeuten, dass der Lernprozess von KI-Modellen dem menschlichen Lernen in mancher Hinsicht ähnelt.

Empfehlung

Ein weiterer wichtiger Trend war die Erweiterung der Reasoning-Fähigkeiten auf multimodale Aufgaben. Erste Ansätze zur Übertragung auf Bild- und Audioanalyse wurden erforscht, wobei sich zeigte, dass die in unimodalen Modellen entwickelten Fähigkeiten oft gut auf multimodale Kontexte übertragen werden können. Die Forscherinnen und Forscher betonen, dass in diesem Bereich noch viel Potenzial für weitere Fortschritte besteht.

Reasoning bringt neue KI-Phänomene

Die verbesserten Schlussfolgerungsfähigkeiten bringen jedoch auch neue Herausforderungen für die Sicherheit und Effizienz der KI mit sich. So wurden Methoden entwickelt, um unerwünschtes Verhalten wie exzessives "Overthinking" zu vermeiden.

Ein anekdotisches Beispiel zum Overthinking: Das Phi-4-Reasoning-Modell von Microsoft generiert mehr als 50 „Gedankengänge“, um auf ein einfaches „Hi“ zu antworten. Laut einer Analyse von Artificial Analysis erhöht Reasoning den Tokenverbrauch beim neuen Flash-2.5-Modell von Google um das 17-Fache – und damit auch die Kosten.

Der Einsatz von Reasoning kann zwar die Qualität und Sicherheit von KI-Ausgaben verbessern, jedoch auch zu erheblichem Rechenaufwand, Kostensteigerungen und potenziell ineffizientem Verhalten führen.

Umso wichtiger ist es, zu entscheiden, wann man ein herkömmliches LLM und wann ein Reasoning-Modell verwendet. Abseits von komplexen Aufgaben aus Logik, Naturwissenschaft und auch Code gibt es hierfür noch keinen Konsens.

OpenAI hat kürzlich für die eigenen Modelle einen Guide veröffentlicht, der zwar Orientierung bietet, die Frage nach dem sinnvollen Einsatz von Reasoning aber ebenfalls nicht abschließend klärt. Die Auswahl bleibt kontextabhängig – und erfordert ein Abwägen zwischen Effizienz, Kosten und gewünschter Antworttiefe.

ModellHauptstärkeIdeal geeignet fürZu beachtenHoch-/Herunterstufung möglich bei

GPT‑4o	Echtzeit-Sprach-/Bild-Interaktion	Live-Multimodal-Agenten	Etwas hinter GPT-4.1 bei Textqualität (SOTA)	Bedarf an tiefem Reasoning → o4-mini
GPT‑4.1	König der Textgenauigkeit mit 1 Mio. Token Kontext	Analyse langer Dokumente, Code-Reviews	Kein natives Reasoning; höhere Kosten als Minis	Enges Budget → 4.1-mini / nano
o3	Agent mit tiefem Tool-Einsatz	Hochkomplexe, mehrstufige Reasoning-Aufgaben	Latenz und Preis	Preis/Latenz zu hoch → o4-mini
o4‑mini	Günstiges, schnelles Reasoning	Hohe Mengen an „gut genug“-Logikaufgaben	Begrenzte Tiefe im Vergleich zu o3	Genauigkeit entscheidend → o3

Auch die Robustheit gegen sogenanntes Jailbreaking rückt in den Fokus. Reasoning-Modelle können durch ihren strukturierten Denkprozess zwar die Widerstandsfähigkeit gegen solche Angriffe erhöhen, aber gleichzeitig auch neue Sicherheitsrisiken schaffen: Wird die Argumentationslogik gezielt manipuliert, besteht die Gefahr, dass das Modell trotz Schutzmechanismen zu problematischen oder schädlichen Ausgaben verleitet werden kann.

Insgesamt habe Deepseek-R1 die Entwicklung schlussfolgernder Sprachmodelle deutlich beschleunigt, so das Fazit der Untersuchung. Die Autor:innen betonen, dass "diese Entwicklungen lediglich den Auftakt einer vielversprechenden Forschungsrichtung markieren". Zukünftige Arbeiten sollten darauf abzielen, die Reasoning-Fähigkeiten auf weitere Anwendungsfelder zu übertragen, die Modellsicherheit zu erhöhen und noch effizientere Trainingsverfahren zu entwickeln.

Read Entire Article