Forschende wollen die Lücke zwischen heutigen Audio-Sprachmodellen und echten Mithörern schließen. Ihr System soll Dialog, Übersetzung und Geräuscherkennung gleichzeitig beherrschen.
Heutige Audio-Sprachmodelle wie GPT-4o oder Qwen3.5-Omni funktionieren im Kern wie ein Diktiergerät mit Knopf: Sie antworten erst, wenn die Aufnahme endet. Streaming-Systeme wie Moshi für Dialoge oder Paraformer für Live-Untertitel hören zwar mit, beherrschen aber jeweils nur eine einzige Aufgabe und behandeln Geräusche wie Husten als Hintergrundrauschen.
Forschende aus China, Hongkong und Singapur wollen mit "Audio-Interaction" beides verbinden. Das Modell hört einen Audiostream durchgehend mit, zerlegt ihn in Häppchen, auch Chunks genannt, von 0,4 Sekunden, und entscheidet nach jedem Häppchen neu, ob es schweigt oder spricht. Übersetzen, Transkribieren, Plaudern und Reagieren auf Alltagsgeräusche laufen so in einem einzigen Modell mit drei Milliarden Parametern zusammen.
Ein Spezialtoken pro 0,4 Sekunden
Nach jedem Audio-Häppchen gibt das Modell entweder <silent> oder <response> aus. Wählt es <silent>, hört es weiter zu. Erst bei <response> beginnt es zu sprechen. Klassische Aufgaben wie "Übersetze ins Englische" werden so zu Instruktionen innerhalb desselben fortlaufenden Streams.
Das Modell hört einen durchgehenden Audiostream ab und entscheidet Moment für Moment, ob es still bleibt oder reagiert, und vereint dabei klassische und Streaming-typische Audiofähigkeiten in einem. | Bild: Xie et al.Auf dem Audio-Benchmark MMAU erreicht Audio-Interaction laut Paper 58,15 Punkte und schlägt damit knapp seine Basis Qwen2.5-Omni-3B. Auch deutlich größere 7B-Modelle liegen in Reichweite. Beim Übersetzen zwischen Englisch und Chinesisch verbessert sich das Modell gegenüber der Basis deutlich.
Wo bisherige Systeme je eine Aufgabe in einem eigenen Modell lösen, fasst Audio-Interaction Erkennung, Übersetzung, Dialog und proaktive Reaktion in einer einzigen Streaming-Architektur zusammen. | Bild: Xie et al.Trainingsdaten mussten künstlich entstehen
Damit das Modell lernt, wann es eingreifen soll, benötigte das Team ein passendes Korpus. Bestehende Audio-Datensätze bestehen den Forschern nach aus kurzen, isolierten Clips und enthalten weniger lange Sequenzen mit sparsamen Antwortsignalen.
Die Forschenden bauen ihre Szenen daher in drei Stufen selbst. Ein Sprachmodell entwarf zunächst ein plausibles Setting, etwa eine Küche am Morgen, mit drei bis 15 Teilereignissen. Dann suchte das System passende Clips in einer Datenbank oder ließ fehlende Geräusche wie zerbrechendes Glas durch generative Audio-Modelle wie AudioX oder ElevenLabs erzeugen. Ein Vorverarbeitungsmodul glättete anschließend die Schnittkanten, damit die Mitschnitte natürlich klingen.
Der so entstandene Datensatz StreamAudio-2M umfasst 2,6 Millionen Einheiten und rund 302.000 Stunden Audio über sieben Fähigkeitsbereiche und 28 Unteraufgaben.
Zwei typische Streaming-Fehler
Im Training tauchten zwei wiederkehrende Schwächen auf. Erstens vergaß das Modell in langen, lärmlastigen Sequenzen frühere Inhalte. Dagegen helfen Rückfragen, die gezielt auf weit zurückliegende Stellen im Audio Bezug nehmen und so das Langzeitgedächtnis trainieren.
Zweitens reagierte das Modell zu oft auf irrelevante Geräusche. Deswegen nutzte das Team große Mengen verifizierter Stille- und Hintergrund-Audios, die ausdrücklich keine Antwort auslösen sollen. Auf dem neu vorgestellten ProactiveSound-Bench mit 644 von Menschen kuratierten Ereignissen schlägt das Modell damit unter anderem Gemini 3 Flash, Kimi-Audio-Instruct und Step-Audio 2.
In einer einzigen Alltagsszene durchläuft das Modell fünf der sieben Aufgabentypen, vom proaktiven Eingreifen über Audioverständnis bis zur Echtzeit-Übersetzung. | Bild: Xie et al.Warteschlange statt blockierender Pipeline
Für den Echtzeitbetrieb trennen die Forschenden das Verarbeiten des eingehenden Audios vom Erzeugen der Antwort. Beide Prozesse laufen parallel und tauschen Daten über eine Warteschlange aus: Der Audio-Teil schreibt fortlaufend neue Chunks hinein, der Antwort-Teil greift erst zu, wenn er gerade nichts zu sagen hat. Ohne diese Trennung stieg die Wartezeit bis zur ersten Antwort von 392 auf 831 Millisekunden, und in 5,2 Prozent der Fälle blieb das System hängen.
Auch die Chunk-Größe von 0,4 Sekunden ist ein Kompromiss. Bei 0,2 Sekunden fehlt der semantische Kontext, das Modell bricht im Dialog ein. Bei 0,8 Sekunden steigt die Wartezeit auf 786 Millisekunden.
SoundFlow ordnet Audiosignal, Zwischenrepräsentationen und Steuertoken in einer Zeitsequenz an und trainiert so gemeinsam, wann das Modell antwortet und wann es schweigt. | Bild: Xie et al.Code und eine Anleitung zum Download der Gewichte stehen auf GitHub bereit, der vollständige Trainingsdatensatz soll in Zukunft ebenfalls folgen.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.



