Streaming-Sprachmodell hört dauerhaft mit und entscheidet selbst, wann es spricht

1 day ago 3

Forschende wollen die Lücke zwischen heutigen Audio-Sprachmodellen und echten Mithörern schließen. Ihr System soll Dialog, Übersetzung und Geräuscherkennung gleichzeitig beherrschen.

Heutige Audio-Sprachmodelle wie GPT-4o oder Qwen3.5-Omni funktionieren im Kern wie ein Diktiergerät mit Knopf: Sie antworten erst, wenn die Aufnahme endet. Streaming-Systeme wie Moshi für Dialoge oder Paraformer für Live-Untertitel hören zwar mit, beherrschen aber jeweils nur eine einzige Aufgabe und behandeln Geräusche wie Husten als Hintergrundrauschen.

Forschende aus China, Hongkong und Singapur wollen mit "Audio-Interaction" beides verbinden. Das Modell hört einen Audiostream durchgehend mit, zerlegt ihn in Häppchen, auch Chunks genannt, von 0,4 Sekunden, und entscheidet nach jedem Häppchen neu, ob es schweigt oder spricht. Übersetzen, Transkribieren, Plaudern und Reagieren auf Alltagsgeräusche laufen so in einem einzigen Modell mit drei Milliarden Parametern zusammen.

Ein Spezialtoken pro 0,4 Sekunden

Nach jedem Audio-Häppchen gibt das Modell entweder <silent> oder <response> aus. Wählt es <silent>, hört es weiter zu. Erst bei <response> beginnt es zu sprechen. Klassische Aufgaben wie "Übersetze ins Englische" werden so zu Instruktionen innerhalb desselben fortlaufenden Streams.

Überblicksgrafik von AUDIO-INTERACTION mit Spektrogramm eines kontinuierlichen Audiostreams und vier Anwendungsboxen für Online-Instruktionsbefolgung, Echtzeit-Transkription, Voice Chatting und proaktives Eingreifen, in denen das Modell zwischen Schweigen und Antworten entscheidet.

Auf dem Audio-Benchmark MMAU erreicht Audio-Interaction laut Paper 58,15 Punkte und schlägt damit knapp seine Basis Qwen2.5-Omni-3B. Auch deutlich größere 7B-Modelle liegen in Reichweite. Beim Übersetzen zwischen Englisch und Chinesisch verbessert sich das Modell gegenüber der Basis deutlich.

Schemavergleich, links spezialisierte Einzelmodelle für ASR, Übersetzung und Sprachdialog, rechts das einheitliche Modell Audio-Interaction, das mit Audio-Encoder, Adapter und Sprachmodell mehrere Aufgaben über einen einzigen Stream abwickelt.

Trainingsdaten mussten künstlich entstehen

Damit das Modell lernt, wann es eingreifen soll, benötigte das Team ein passendes Korpus. Bestehende Audio-Datensätze bestehen den Forschern nach aus kurzen, isolierten Clips und enthalten weniger lange Sequenzen mit sparsamen Antwortsignalen.

Die Forschenden bauen ihre Szenen daher in drei Stufen selbst. Ein Sprachmodell entwarf zunächst ein plausibles Setting, etwa eine Küche am Morgen, mit drei bis 15 Teilereignissen. Dann suchte das System passende Clips in einer Datenbank oder ließ fehlende Geräusche wie zerbrechendes Glas durch generative Audio-Modelle wie AudioX oder ElevenLabs erzeugen. Ein Vorverarbeitungsmodul glättete anschließend die Schnittkanten, damit die Mitschnitte natürlich klingen.

Der so entstandene Datensatz StreamAudio-2M umfasst 2,6 Millionen Einheiten und rund 302.000 Stunden Audio über sieben Fähigkeitsbereiche und 28 Unteraufgaben.

Zwei typische Streaming-Fehler

Im Training tauchten zwei wiederkehrende Schwächen auf. Erstens vergaß das Modell in langen, lärmlastigen Sequenzen frühere Inhalte. Dagegen helfen Rückfragen, die gezielt auf weit zurückliegende Stellen im Audio Bezug nehmen und so das Langzeitgedächtnis trainieren.

Zweitens reagierte das Modell zu oft auf irrelevante Geräusche. Deswegen nutzte das Team große Mengen verifizierter Stille- und Hintergrund-Audios, die ausdrücklich keine Antwort auslösen sollen. Auf dem neu vorgestellten ProactiveSound-Bench mit 644 von Menschen kuratierten Ereignissen schlägt das Modell damit unter anderem Gemini 3 Flash, Kimi-Audio-Instruct und Step-Audio 2.

Zeitstrahl einer 30-sekündigen Haushaltsszene, in der Audio-Interaction alle 0,4 Sekunden entscheidet, ob es schweigt oder reagiert, etwa mit proaktiver Warnung bei Kinderweinen, Musikbestimmung von Debussys Clair de Lune und Alarm bei zerberstendem Glas.

Warteschlange statt blockierender Pipeline

Für den Echtzeitbetrieb trennen die Forschenden das Verarbeiten des eingehenden Audios vom Erzeugen der Antwort. Beide Prozesse laufen parallel und tauschen Daten über eine Warteschlange aus: Der Audio-Teil schreibt fortlaufend neue Chunks hinein, der Antwort-Teil greift erst zu, wenn er gerade nichts zu sagen hat. Ohne diese Trennung stieg die Wartezeit bis zur ersten Antwort von 392 auf 831 Millisekunden, und in 5,2 Prozent der Fälle blieb das System hängen.

Auch die Chunk-Größe von 0,4 Sekunden ist ein Kompromiss. Bei 0,2 Sekunden fehlt der semantische Kontext, das Modell bricht im Dialog ein. Bei 0,8 Sekunden steigt die Wartezeit auf 786 Millisekunden.

Trainingsschema des SoundFlow-Frameworks mit Audio-Encoder, Adapter und Modell, das pro 0,4-Sekunden-Chunk Spezialtoken für Schweigen oder Antwort vorhersagt, illustriert an Audioverständnis, Zählen, Simultandolmetschen und proaktivem Eingreifen.

Code und eine Anleitung zum Download der Gewichte stehen auf GitHub bereit, der vollständige Trainingsdatensatz soll in Zukunft ebenfalls folgen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article

Streaming-Sprachmodell hört dauerhaft mit und entscheidet selbst, wann es spricht

Ein Spezialtoken pro 0,4 Sekunden

Trainingsdaten mussten künstlich entstehen

Zwei typische Streaming-Fehler

Warteschlange statt blockierender Pipeline

KI-News ohne Hype – von Menschen kuratiert

Related

KI-Revolution oder Jobkiller: Haben wir demnächst mehr Freiz...

"Chat ist tot": OpenAI will ChatGPT vom Chatbot zum persönli...

Perplexity lässt KI-Agenten ihre eigene Websuche programmier...