Googles Gemma 4 12B bringt multimodale KI mit Text, Bild und Audio auf handelsübliche Laptops

3 days ago 7

Skip to content

Google Deepmind hat mit Gemma 4 12B ein neues offenes KI-Modell veröffentlicht, das multimodale Fähigkeiten auf handelsübliche Laptops bringt. Das Modell verarbeitet Text, Bild und Audio ohne separate Encoder direkt im Sprachmodell. Bilder und Audio werden direkt in das Sprachmodell eingespeist, was die Verarbeitungszeit verkürzt. Dadurch sinken Speicherverbrauch und Latenz. Gemma 4 12B läuft lokal mit nur 16 GB RAM und erreicht laut Google in Benchmarks fast die Leistung des doppelt so großen 26B-Modells. Es ist zudem das erste mittelgroße Gemma-Modell mit nativer Audioverarbeitung.

Das Modell beherrscht unter anderem Spracherkennung, Codegenerierung und Videoanalyse. Laut Developer Guide kann es etwa mehrminütige Videoclips verarbeiten, indem es Einzelbilder und Audiospur gemeinsam analysiert. In einem Beispiel wertete das Modell einen fünfminütigen Ausschnitt der Google-IO-Keynote mit 313 Frames bei einem Bild pro Sekunde plus Audio aus.

Gemma 4 12B kommt in Benchmarks wie GPQA Diamond, MMLU Pro oder DocVQA nah an das doppelt so große 26B-Modell heran und übertrifft das ältere Gemma 3 27B deutlich. | Bild: Google DeepMind

Das Modell ist über Hugging Face, Ollama, LM Studio und weitere Plattformen verfügbar. Die Lizenz ist Apache 2.0, damit ist das Modell auch kommerziell nutzbar.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article