DeepSeek: Blick hinter die Kulissen des Reasoning-Modells R1

11 months ago 9
  1. DeepSeek: Blick hinter die Kulissen des Reasoning-Modells R1
    • Die Vorgeschichte
    • Das Modell DeepSeek R1
    • Transparente Antworten
    • Die Abkömmlinge
  2. Teilweise offen

ist Data Scientist und Machine Learning Architect. Er promovierte in theoretischer Physik und arbeitet seit 20 Jahren im Bereich großer Datenmengen und Künstliche Intelligenz, insbesondere mit Fokus auf skalierbaren Systemen und intelligenten Algorithmen zur Massentextverarbeitung. Als Professor an der TH Nürnberg konzentriert sich seine Forschung auf die Optimierung von User Experience mithilfe moderner Verfahren. Er ist Gründer der datanizing GmbH, Referent auf Konferenzen und Autor von Artikeln zu Machine Learning und Text Analytics.

OpenAI ist der etablierte Marktführer für Sprachmodelle, die ganze (Gen)AI-Welt hängt von Nvidia ab, weil sich nur mit Unmengen dieser sehr teuren GPUs noch bessere Modelle trainieren lassen. Meta plant ein Rechenzentrum in der halben Größe von Manhattan, will eine Million GPUs kaufen und braucht dafür (mehrere) Gigawatt an Leistung – in der Größenordnung eines Atomkraftwerks.

Und da kommt plötzlich ein nicht extern finanziertes Startup aus China und präsentiert ein Modell, das es mit den größten OpenAI-Modellen aufnehmen kann und sie teilweise sogar schlägt. Der dafür notwendige Trainingsaufwand betrug "nur" 2,9 Millionen GPU-Stunden. Eine GPU-Stunde kostet auf einer H200 etwa zwei Dollar, also konnte mit weniger als sechs Millionen Dollar ein solches Modell trainiert werden. Angeblich ist das Jahresgehalt jedes der 13 Meta-Manager höher, die für Lllama zuständig sind.

Große Tech-Unternehmen bilden Krisenstäbe, weil DeepSeek sein Modell veröffentlicht und für einen Bruchteil der Kosten von GPT-4o{1,2,3} als API zur Verfügung stellt. Der Nvidia-Aktienkurs fällt um 20 Prozent und die Marktkapitalisierung um 600 Milliarden Dollar, was Nvidia vom Spitzenplatz der wertvollsten Unternehmen auf Platz drei zurückwirft. Wie können solche Verwerfungen innerhalb einer Woche passieren? DeepSeek kannte bisher praktisch niemand. Wie konnte die ganze Branche so kalt erwischt werden?

Das war die Leseprobe unseres heise-Plus-Artikels "DeepSeek: Blick hinter die Kulissen des Reasoning-Modells R1". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.

Read Entire Article