
Google DeepMind hat heute ein Update der Gemini Live API vorgestellt, das die Entwicklung von Sprachassistenten verbessern soll. Das native Audio-Modell bringt zwei Verbesserungen mit sich: Eine zuverlässigere Funktionsausführung und natürlichere Gesprächsführung. Die Zuverlässigkeit beim Aufruf externer Dienste wurde laut Google gesteigert. In Tests mit einzelnen Funktionsaufrufen verdoppelte sich die Erfolgsrate. Bei komplexeren Szenarien mit 5 bis 10 Aufrufen stieg sie um 50 Prozent. Das ist wichtig, weil Sprachassistenten in Echtzeit arbeiten und keine Zeit für wiederholte Versuche haben.
Auch bei der Gesprächsführung gibt es Fortschritte, erklärt man weiter. Das System erkennt jetzt besser, wenn Nutzer eine Pause machen oder unterbrochen werden. Nebengespräche werden intelligent ausgefiltert. Wenn zum Beispiel während der Nutzung jemand den Raum betritt und eine Frage stellt, pausiert der Assistent automatisch und macht genau dort weiter, wo das Gespräch unterbrochen wurde. Wer sich dafür interessiert, findet hier mal Demos.
In der nächsten Woche kommt noch eine „Thinking“-Funktion dazu, ähnlich wie bei Gemini 2.5 Flash und Pro. Entwickler können dann festlegen, wie viel Zeit sich das System für komplexe Anfragen nehmen darf. Das System liefert dabei eine textliche Zusammenfassung seiner Überlegungen. Die Preview-Version der aktualisierten Live API steht ab sofort zur Verfügung. Entwickler können die verbesserten Funktionen in Google AI Studio ausprobieren.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

3 months ago
5

