OpenAI: Realtime API startet offiziell mit deutlich besserem Voice-Agent und mehr

4 months ago 6

OpenAI macht die Realtime API jetzt für alle Entwickler verfügbar und packt ordentlich neue Features obendrauf. Mit gpt-realtime kommt das bisher leistungsfähigste Speech-to-Speech-Modell, das komplexeren Anweisungen besser folgt, natürlicher klingt und sogar zwischen Sprachen in Echtzeit wechseln kann. Die Latenz ist damit außerdem deutlich geringer, was für schnellere Antworten sorgt. Man kann mit Cedar und Marin jetzt auch zwei neue Stimmen auswählen.

Neben klassischem Voice-Chat unterstützt die Realtime API jetzt auch Bild-Inputs und das Session Initiation Protocol (SIP). Man kann also direkte Telefonate via API auslösen. Wer eigene Tools (MCP-Server) einbinden will, kann das ebenfalls direkt per Session-Konfiguration regeln.

Das Modell ist günstiger als vorherige Versionen, Sessions sind jetzt „smarter“ beim Kontext-Management und für Unternehmen gibt es volle EU-Datenresidenz und zahlreiche Sicherheitsschichten.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Read Entire Article