Googles Gemma 4 12B bringt multimodale KI mit Text, Bild und Audio auf handelsübliche Laptops

3 days ago 7

Google Deepmind hat mit Gemma 4 12B ein neues offenes KI-Modell veröffentlicht, das multimodale Fähigkeiten auf handelsübliche Laptops bringt. Das Modell verarbeitet Text, Bild und Audio ohne separate Encoder direkt im Sprachmodell. Bilder und Audio werden direkt in das Sprachmodell eingespeist, was die Verarbeitungszeit verkürzt. Dadurch sinken Speicherverbrauch und Latenz. Gemma 4 12B läuft lokal mit nur 16 GB RAM und erreicht laut Google in Benchmarks fast die Leistung des doppelt so großen 26B-Modells. Es ist zudem das erste mittelgroße Gemma-Modell mit nativer Audioverarbeitung.

Das Modell beherrscht unter anderem Spracherkennung, Codegenerierung und Videoanalyse. Laut Developer Guide kann es etwa mehrminütige Videoclips verarbeiten, indem es Einzelbilder und Audiospur gemeinsam analysiert. In einem Beispiel wertete das Modell einen fünfminütigen Ausschnitt der Google-IO-Keynote mit 313 Frames bei einem Bild pro Sekunde plus Audio aus.

Das Modell ist über Hugging Face, Ollama, LM Studio und weitere Plattformen verfügbar. Die Lizenz ist Apache 2.0, damit ist das Modell auch kommerziell nutzbar.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article

Googles Gemma 4 12B bringt multimodale KI mit Text, Bild und Audio auf handelsübliche Laptops

KI-News ohne Hype – von Menschen kuratiert

Related

KI-Revolution oder Jobkiller: Haben wir demnächst mehr Freiz...

"Chat ist tot": OpenAI will ChatGPT vom Chatbot zum persönli...

Perplexity lässt KI-Agenten ihre eigene Websuche programmier...