Auf chinesische Hardware optimiert: DeepSeek stellt neues KI-Modell vor

4 months ago 6
Logo von Deepseek

DeepSeek hat eine neue Version seines Reasoning-Modells veröffentlicht

(Bild: Nick Livyi/Shutterstock.com)

Das chinesische Start-up präsentiert eine verbesserte Version seines Flaggschiff-Modells. Die Entwicklung erfolgt vor dem Hintergrund verschärfter US-Exportbeschränkungen.

Das chinesische KI-Start-up DeepSeek hat am Donnerstag eine Weiterentwicklung seines Flaggschiff-Modells V3 vorgestellt, die nach Unternehmensangaben speziell für chinesische Computerchips optimiert wurde und schnellere Verarbeitungsgeschwindigkeiten bietet.

Die Fokussierung auf heimische Chip-Kompatibilität könnte signalisieren, dass DeepSeeks KI-Modelle für Chinas aufkommende Halbleiter-Infrastruktur positioniert werden, während Beijing darauf drängt, US-Technologie angesichts der Exportbeschränkungen aus Washington zu ersetzen.

Optimierung für chinesische Halbleiter

DeepSeek erklärte in einem WeChat-Beitrag, das neue V3.1-Modell verwende ein UE8M0 FP8-Präzisionsformat, das für "bald erscheinende Chips der nächsten Generation aus heimischer Produktion" optimiert sei. Das Unternehmen nannte jedoch keine spezifischen Chip-Modelle oder Hersteller.

FP8, ein 8-Bit-Gleitkomma-Format, ist ein Datenverarbeitungsverfahren, das KI-Modellen ermöglicht, effizienter zu arbeiten und weniger Speicher zu verbrauchen. Die Entwicklung erfolgt vor dem Hintergrund einer chinesischen Regierungskampagne zur Einschränkung der Nutzung von US-Chips.

Beijing hat bereits Sicherheitsbedenken gegen Nvidias H20-Chip geäußert, Nvidia-Vertreter zu Gesprächen vorgeladen und chinesische Unternehmen aufgefordert, ihre Bestellungen des Chips zu reduzieren. Stattdessen sollen Unternehmen auf chinesische Halbleiterbausteine setzen. China investiert Milliardenbeträge in den Aufbau einer eigenen KI-Chip-Fertigung.

Hybride Inferenz-Struktur

DeepSeek-V3.1 verfügt über eine hybride Inferenz-Struktur, die es dem Modell ermöglicht, sowohl im Reasoning- als auch im Nicht-Reasoning-Modus zu arbeiten, teilte das Unternehmen mit. Nutzer können zwischen diesen Modi über eine "Deep Thinking"-Schaltfläche in der offiziellen App und Webplattform des Unternehmens wechseln, die beide nun die V3.1-Version verwenden.

Das V3.1-Modell kombiniert zwei bisherige Modelle des Unternehmens: V3 ist ein universelles Sprachmodell, R1 ein auf logische Denkschritte ausgerichtetes Reasoning-Modell. Nach Angaben von DeepSeek übertrifft V3.1 die beiden Vorgängermodelle in allen wesentlichen Tests und steigert im Vergleich zu R1 die Effizienz um 20 bis 50 Prozent.

Gemischte Reaktionen in China

In China fiel die Reaktion auf das neue DeepSeek-Modell vorerst zurückhaltend aus. In sozialen Medien äußerten sich einige Nutzer positiv, andere schrieben, sie sähen keine Verbesserung gegenüber bisherigen DeepSeek-Diensten.

Auch innberhalb Chinas hat die Konkurrenz zu DeepSeek zugenommen. Fachmedien berichteten, das neue Modell schneide in Tests ähnlich gut wie K2 des chinesischen Konkurrenten Moonshot AI ab, aber schlechter als Qwen von Alibaba. Parallel zur Modell-Veröffentlichung änderte DeepSeek seine Preispolitik.

Das DeepSeek-Reasoning-Modell für intensive Nutzer wurde tendenziell günstiger, im DeepSeek-Chat steigen die Preise hingegen. Ein Nachtrabatt wurde abgeschafft.

Das Unternehmen wird auch die Kosten für die Nutzung der Modell-API anpassen, einer Plattform, die es Entwicklern anderer Apps und Webprodukte ermöglicht, die KI-Modelle zu integrieren, wie ab dem 6. September geplant.

DeepSeek hatte Anfang des Jahres die Technologiewelt überrascht, als es KI-Modelle veröffentlichte, die mit westlichen Modellen wie OpenAIs ChatGPT konkurrieren können, dabei aber deutlich niedrigere Betriebskosten bieten.

Read Entire Article