heise+ | Wie man riesige Sprachmodelle auf praxistaugliche Maße schrumpft

11 months ago 10

Für den Betrieb von Modellen wie DeepSeek braucht man teure Grafikkarten. Komprimierte Versionen schaffen Abhilfe.

07.03.2025, 15:00 Uhr

Lesezeit: 13 Min.

  1. Wie man riesige Sprachmodelle auf praxistaugliche Maße schrumpft
    • Bedingt betriebsbereit
    • Quantisierung: Genauigkeit verringern
  2. Trickreiches Training
  3. 1,58-Bit-quantisiertes DeepSeek
  4. Netze ausdünnen, Wissen transplantieren
  5. Wem es nützt

DeepSeek gilt als besonders effizientes Large Language Model (LLM), das nicht nur ressourcenschonend trainiert wurde, sondern dem Spitzenreiter von OpenAI in bestimmten Disziplinen ebenbürtig oder überlegen ist. Weil sogar die größte Modellversion als Open-Weights-Modell zum Download steht, kann es theoretisch jeder selbst auf seinen Servern betreiben. Das ist deshalb interessant, weil man damit den Zugriff via Web-Interface und Mobil-App umgeht, der recht strengen chinesischen Inhaltsfiltern unterliegt und vor allem für Firmen datenschutzrechtlich heikel ist.

Mittlerweile kursieren zahlreiche DeepSeek-Ableger, die deutlich weniger Ressourcen benötigen als das große Basismodell – und teils verwirrende Namen tragen. Sie entstanden mithilfe unterschiedlicher Komprimierungstechniken aus der recht unhandlichen und ressourcenintensiven Ursprungsversion. Bei näherem Hinsehen stellt man fest: Viele dieser vermeintlichen DeepSeek-Varianten sind eigentlich Llama- oder Qwen-Architekturen, denen quasi ein Teil des DeepSeek-Gehirns transplantiert wurde.

  • Mit dem chinesischen Open-Weights-Modell DeepSeek rückt das selbstbetriebene Sprachmodell in greifbare Nähe. Doch mit 671 Milliarden Parametern ist es zu groß für den durchschnittlichen Firmenserver.
  • Damit künstliche neuronale Netze auch auf schwächerer Hardware oder gar Mobilgeräten betrieben werden können, wurden unterschiedliche Kompressionstechniken entwickelt, die die Modelle schrumpfen beziehungsweise den Rechenaufwand reduzieren: Quantisierung, Pruning und Wissensdestillation.
  • Sie dünnen die Netze aus, verkleinern sie oder rechnen an manchen Stellen weniger exakt, wodurch die Modelle weniger Speicher belegen und mitunter sogar auf schwächeren CPUs laufen.

Wir geben einen Überblick über die gängigen Verfahren und wie sie sich auswirken.

Das war die Leseprobe unseres heise-Plus-Artikels "Wie man riesige Sprachmodelle auf praxistaugliche Maße schrumpft". Mit einem heise-Plus-Abo können sie den ganzen Artikel lesen und anhören.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Pflanzen überwachen mit Home Assistant: Push-Nachricht bei Wassermangel

Smarte Sensoren können Pflanzen überwachen und Werte an Home Assistant übertragen. Wir zeigen ausführlich, wie das geht.


Lautloser Komplett-PC zur Montage unter der Schreibtischplatte

Unscheinbar verrichtet der Arctic senza unter der Tischplatte seinen Dienst. Er ist im Büro und überall, wo es auf Stille ankommt, ein spannender Kandidat.


Webentwicklung: Drei API-Gateways im Vergleich

API-Gateways sortieren Anfragen, behandeln die Authentifizierung, begrenzen die Zugriffsrate und bereiten die Antworten für die Clients auf.


iPad Air mit 11 Zoll und neuem M3-SoC

iPad Air M3 im Test: Das kann Apples neues Mittelklasse-Tablet

Erst im Frühjahr 2024 hatte das iPad Air ein großes Update erhalten, nun folgte ein weiteres. Ob sich das iPad Air M3 lohnt, zeigt unser Test.


Home Assistant: Dashboard für Smart Home auf altem Amazon Kindle anzeigen

Alte Kindles lassen sich als Anzeige für Smart-Home-Daten verwenden: etwa Raumtemperaturen, Geräteinformationen oder Solardaten. Wir zeigen, wie das geht.


Wie Behörden und ihre Auftragnehmer Open-Source-Software ausbeuten

Wenn Behörden auf freie Software umsteigen, beauftragen sie oft Trittbrettfahrer – zum Schaden etablierter Anbieter und des Steuerzahlers.

Read Entire Article