Googles I/O KI-News: Neue Modelle, ein Cloud-Agent, der nie schläft, und eine runderneuerte Gemini-App

2 weeks ago 7

Google hat auf seiner Entwicklerkonferenz I/O eine ganze Reihe neuer KI-Produkte angekündigt. Im Mittelpunkt stehen das neue Modell Gemini 3.5 Flash, das neue multimodale Modell Gemini Omni und ein persönlicher Agent namens Gemini Spark, der dauerhaft in der Cloud läuft. Die Gemini-App bekommt zudem einige neue Funktionen.

Laut Google-CEO Sundar Pichai liegt Gemini 3.5 Flash in fast allen Benchmarks über dem rund vier Monate alten Gemini 3.1 Pro. Besonders deutlich sei der Sprung bei GDP Val, einem Benchmark für ökonomisch relevante Aufgaben. In einer Auswertung von Artificial Analysis sei Flash das einzige Modell im oberen rechten Quadranten von Intelligenz gegen Geschwindigkeit, viermal schneller als andere Frontier-Modelle.

In der hauseigenen Agentenplattform Antigravity sei eine optimierte Version sogar zwölfmal schneller. Die Kosten lägen bei rund einem Drittel bis der Hälfte vergleichbarer Modelle. Pichai rechnet vor, dass Unternehmen, die 80 Prozent ihrer Workloads auf eine Mischung aus 3.5 Flash und Pro umstellen, jährlich über eine Milliarde US-Dollar einsparen könnten. Gemini 3.5 Pro soll im kommenden Monat folgen.

Chief AI Architect Koray Kavukcuoglu betont, dass die 3.5-Serie für Agentenarbeit entwickelt wurde. Das Modell könne autonome Sitzungen über mehrere Stunden durchhalten und komplexe Coding-Pipelines selbstständig ausführen. Intern habe Google damit testweise ein funktionierendes Betriebssystem von Grund auf bauen lassen.

Gemini Omni: ein World Model als Nachfolger von Veo

Mit Gemini Omni stellt Google ein Modell vor, das beliebige Outputs aus beliebigen Inputs erzeugen soll. Zum Start gibt es Video, später folgen Bild und Text. Im Unterschied zum reinen Text-zu-Video-Modell Veo basiert Omni laut Kavukcuoglu auf der Gemini-Architektur und ist von Grund auf multimodal trainiert. Das Modell könne generiertes Material erneut als Input verarbeiten und so iterativ bearbeitet werden.

Nutzer können eigene Videos hochladen, Charaktere austauschen oder den Stil ändern. Auf die Frage, ob Omni Veo ersetze, sagt Kavukcuoglu, Omni sei eine Generalisierung von Veo, der Weg gehe nun konsequent in Richtung echter Multimodalität.

Die erste, schnellere Variante Omni Flash startet ab Dienstag für Abonnenten von Google AI+, Pro und Ultra in der Gemini-App, in Flow und in YouTube Shorts. Eine API-Version folgt, ein leistungsfähigeres Omni Pro ebenfalls. Alle generierten Inhalte tragen das unsichtbare SynthID-Wasserzeichen.

Gemini Spark: ein Agent, der auch bei geschlossenem Laptop weiterarbeitet

Gemini Spark ist Googles persönlicher Agent für Endnutzer. Er läuft laut Josh Woodward, der die Gemini-App und AI-Studio-Teams leitet, auf dedizierten virtuellen Maschinen in der Google Cloud, ist rund um die Uhr verfügbar und arbeitet im Hintergrund weiter, auch wenn das Gerät des Nutzers ausgeschaltet ist. Spark nutzt Gemini 3.5 mit der vollen Antigravity-Pipeline für Coding-Aufgaben.

Die Anbindung an Gmail, Docs und andere Workspace-Produkte ist Teil des Starts. In den kommenden Wochen sollen MCP-Verbindungen zu Drittanbietern dazukommen. Später folgen Chrome-Integration und auf Android eine neue UI-Fläche namens Android Halo. Sie zeigt am oberen Bildschirmrand jederzeit an, was der Agent gerade tut, ob er zuhört, spricht, im Leerlauf ist oder eine Nachricht schickt. Android Halo soll später in diesem Jahr erscheinen und nicht nur mit Spark, sondern auch mit anderen unterstützten Agenten funktionieren. Auf Geräten mit Gemini Nano sind zusätzliche Funktionen vorgesehen.

Spark startet diese Woche bei ausgewählten Testern und nächste Woche als Beta für Ultra-Abonnenten in den USA. Google führt einen neuen Ultra-Plan für 100 US-Dollar im Monat ein und senkt den bisherigen Top-Tier-Ultra-Plan von 250 auf 200 US-Dollar.

Parallel kommt mit Daily Brief ein einfacherer Agent in die App, der nachts E-Mails, Kalender und Aufgaben analysiert und priorisiert. Die Funktion basiert auf dem Labs-Experiment "CC" vom Dezember.

Neues Design und neue Modelle für die Gemini-App

Die Gemini-App selbst bekommt das wohl sichtbarste Update für Endnutzer. Google hat die App nach Angaben von Woodward "von Grund auf" neu gestaltet. Die neue Designsprache heißt "Neural Expressive" und setzt auf flüssige Animationen, neue Typografie und haptisches Feedback. Antworten werden nicht mehr als reine Textwand dargestellt, stattdessen stehen die wichtigsten Informationen fett und oben, beim Scrollen folgen eingebettete Bilder, Zeitleisten oder Visualisierungen. Gemini Live öffnet sich künftig direkt inline, ein Wechsel zwischen Modi entfällt. Der Rollout startet heute global auf Android, iOS und im Web.

Mit dem Update ziehen auch Gemini 3.5 Flash und Gemini Omni in die App ein. Über Omni können Nutzer eigene Fotos und Videos aus der Galerie hochladen, vorgefertigte Templates anwenden oder sich per KI-Avatar selbst in generierte Szenen einbauen. Die App ist nach Angaben von Pichai inzwischen in über 230 Ländern und mehr als 70 Sprachen verfügbar. Die Zahl der monatlichen Nutzer sei von 400 Millionen vor einem Jahr auf über 900 Millionen gestiegen, die täglichen Anfragen hätten sich versiebenfacht.

Zusätzlich plant Google neue Funktionen für die Gemini-Desktop-App für macOS. Im Sommer soll Spark in die Desktop-App einziehen und dort lokale Dateien einbeziehen sowie Workflows auf dem Rechner automatisieren können. Ebenfalls für den Sommer sind neue Sprachfunktionen geplant, mit denen freies Diktieren direkt in saubere Textentwürfe umgewandelt wird.

Antigravity 2.0 und Codemender

Die Entwicklerplattform Antigravity bekommt ein größeres Update. Antigravity 2.0 ist eine eigenständige Desktop-Anwendung, in der Nutzer mehrere autonome Agenten parallel orchestrieren können. Hinzu kommen ein CLI für Terminal-Nutzer und ein SDK, das denselben Agent-Harness bereitstellt, mit dem Google seine eigenen Produkte baut.

Das Wachstum sei intern enorm: Im März habe Google täglich 500 Milliarden Tokens verarbeitet, inzwischen seien es über drei Billionen pro Tag, so Pichai. Mit Codemender stellt das Unternehmen außerdem ein Werkzeug vor, das mit Gemini-Reasoning Schwachstellen im Code findet und automatisch patcht. Ausgewählte Experten erhalten Zugang zu einer API, eine breite Veröffentlichung soll folgen.

Suche, Shopping und Wasserzeichen

Search-Chefin Liz Reid kündigt an, dass AI Mode auf Gemini 3.5 Flash umgestellt wird. Die Funktion habe in einem Jahr über eine Milliarde monatliche Nutzer erreicht, AI Overviews liegt bei 2,5 Milliarden. Die Suchbox wird neu gestaltet und nimmt längere, multimodale Anfragen entgegen. In den kommenden Monaten sollen Nutzer eigene Mini-Apps in der Suche bauen können, zunächst für AI-Pro- und Ultra-Abonnenten in den USA.

Im Shopping-Bereich erweitert Google das Universal Commerce Protocol (UCP) um Hotels und Lieferdienste. Amazon, Meta, Microsoft, Salesforce und Stripe sind dem UCP Tech Council beigetreten. Das Agent Payments Protocol (AP2) soll dafür sorgen, dass Agenten Käufe nur innerhalb klar definierter Grenzen ausführen.

Auf der Transparenzseite weitet Google SynthID auf Search und Chrome aus. Per Rechtsklick im Browser lässt sich künftig prüfen, ob ein Bild KI-generiert oder bearbeitet wurde. Mit OpenAI, Kakao und Levin Labs treten drei weitere Partner dem Wasserzeichen-Standard bei, nachdem NVIDIA bereits im vergangenen Jahr unterzeichnet hatte.

Auf die Frage, ob das Aufschließen von Konkurrenten wie Anthropic zuletzt mit Caude Mythos an die Spitze der Modellentwicklung Googles Selbstverständnis verändert habe, antwortet Pichai ausweichend: Das Frontier sei kein statischer Punkt, an dem ein Anbieter dauerhaft führe, sondern verschiebe sich ständig. Mal liege ein Labor in bestimmten Benchmarks vorn, mal ein anderes. Google sei in vielen Dimensionen führend und konzentriere sich darauf, die Frontier-Fähigkeiten zu möglichst vielen Nutzern zu bringen. Dass ein günstigeres Flash-Modell ein älteres Pro schlage, sei dafür entscheidend.

Read Entire Article