IBM startet Granite 4.0: Hybride Open-Source-Sprachmodelle mit weniger Speicherbedarf

5 months ago 7

IBM startet die vierte Generation seiner Granite-Sprachmodelle. Granite 4.0 setzt auf eine hybride Mamba/Transformer-Architektur, die den Speicherbedarf in der Inferenz stark reduzieren soll, ohne die Leistung zu beeinträchtigen.

IBM positioniert Granite 4.0 als Bausteine für agentische Workflows und als eigenständige Modelle für typische Unternehmensaufgaben wie Kundenservice oder RAG-Systeme, mit Fokus auf niedrige Latenz und geringere Betriebskosten, laut IBM. Die Thinking-Varianten sollen im Herbst folgen.

Vertikales Säulendiagramm der MTRAG‑Mean‑Accuracy, das Leistung bei Retrieval‑gestützten Multi‑Turn‑Aufgaben darstellt; zwei hervorgehobene Säulen zeigen Granite‑4.0‑H‑Small (73) und Granite‑4.0‑Micro (72) vor GPT‑OSS‑20B (68) und anderen Modellen.

Die Modelle erscheinen als Open Source unter Apache 2.0, sind kryptografisch signiert und wurden als erste offene Sprachmodellfamilie nach ISO/IEC 42001:2023 akkreditiert. Die Trainingsdaten seien kuratiert, ethisch beschafft und unternehmensgeeignet, so IBM.

Alle Granite-4.0-Modelle wurden aus demselben 22T-Token-Korpus gespeist, der laut IBM aus DataComp-LM (DCLM), GneissWeb, TxT360-Subsets, Wikipedia und weiteren unternehmensrelevanten Quellen zusammengestellt ist. Für Inhalte, die Granite auf IBM watsonx.ai generiert, gewährt IBM eine unbegrenzte Freistellung bei Drittanbieter-IP-Ansprüchen.

THE DECODER Newsletter

Die wichtigen KI-News direkt ins E-Mail-Postfach.

✓ 1x wöchentlich

✓ kostenlos

✓ jederzeit kündbar

Granite 4.0 umfasst vier Modellvarianten:

Granite-4.0-H-Small: hybrides Mixture-of-Experts-Modell (32B Parameter, 9B aktiv)
Granite-4.0-H-Tiny: hybrides MoE (7B Parameter, 1B aktiv)
Granite-4.0-H-Micro: dichtes Hybridmodell mit 3B Parametern
Granite-4.0-Micro: klassisches Transformer-Modell mit 3B Parametern

Das H-Small-Modell ist laut IBM als leistungsfähiger Allrounder für produktive Workflows konzipiert. Tiny und Micro richten sich an Low-Latency- oder Edge-Szenarien und können als schnelle Module in größeren agentischen Prozessen eingesetzt werden – etwa für Function Calling.

Scatterplot "Tool calling accuracy vs. Cost" mit BFCLv3‑Accuracy auf der Y‑Achse und gehostetem API‑Preis (USD pro 1M Tokens) auf der X‑Achse; ein hervorgehobener blauer Punkt markiert Granite‑4.0‑H‑Small in der günstigen oberen linken/mittele Zone des Diagramms, weitere graue Punkte zeigen teurere oder weniger genaue Modelle.

Horizontales Balkendiagramm des Stanford HELM IFEval‑Leaderboards, das Instruktionsbefolgung evaluiert; oben Llama 4 Maverick (0,91), gefolgt von Granite 4.0‑H‑Small (0,89) und Granite 4.0‑Micro (0,85); darunter weitere Modelle mit niedrigeren Werten.

Architektur

Technisch kombiniert Granite 4.0 Mamba-2- und Transformer-Schichten im Verhältnis 9:1. Während Transformer-Modelle bei langen Kontexten schnell an Speichergrenzen stoßen, skaliert Mamba linear mit der Sequenzlänge und benötigt konstanten Speicher. Positionskodierung wird nicht mehr benötigt: Mamba verarbeitet Eingaben sequenziell und erhält dabei die Reihenfolge automatisch.

Transformer bleiben laut IBM beim In‑Context‑Learning (z. B. Few‑Shot-Prompting) zwar im Vorteil. Doch durch die Hybridarchitektur sollen beide Ansätze bestmöglich kombiniert werden. Tiny und Small nutzen zudem Mixture‑of‑Experts‑Blöcke mit "shared experts", die permanent aktiviert sind, um die Parametereffizienz zu erhöhen.

Für reale Workloads nennt IBM bis zu 70 Prozent weniger RAM-Verbrauch im Vergleich zu reinen Transformer-Modellen, insbesondere bei langen Eingaben oder parallelen Sessions.

Empfehlung

Granite 4.0 ist zudem kompatibel mit AMD Instinct MI-300X und durch die Zusammenarbeit mit Qualcomm und Nexa AI auch optimiert für den Einsatz auf Hexagon-NPUs, etwa auf Smartphones oder PCs.

Verfügbarkeit

Granite 4.0 Instruct ist in IBM watsonx.ai und bei Partnern verfügbar (Dell Pro AI Studio, Dell Enterprise Hub, Docker Hub, Hugging Face, Kaggle, LM Studio, NVIDIA NIM, Ollama, OPAQUE, Replicate). Base-Modelle stehen auf Hugging Face bereit. Der Zugang über Amazon SageMaker JumpStart und Microsoft Azure AI Foundry soll bald folgen.

Zum Einstieg verweist IBM auf den Granite Playground sowie die technischen Anleitungen in den Granite Docs. Außerdem werden Granite 4.0-Modelle von Tools wie Unsloth für effizientes Finetuning und Continue für Coding-Assistenten unterstützt.

Read Entire Article