Stable Audio 3.0 erscheint mit offenen Gewichten und voll lizenzierten Trainingsdaten

2 weeks ago 12

Stability AI hat mit Stable Audio 3.0 eine neue Generation von Audiomodellen vorgestellt, von denen drei mit offenen Gewichten erscheinen. Die Modelle erzeugen Musikstücke von bis zu sechs Minuten und sind laut Unternehmen vollständig auf lizenzierten Daten trainiert.

Die Modellfamilie umfasst vier Varianten: Stable Audio 3.0 Small SFX und Stable Audio 3.0 Small kommen mit je 459 Millionen Parametern und erzeugen Tracks von bis zu zwei Minuten Länge in 0,44 Sekunden Inferenzzeit auf einer H200-GPU. Das erste Modell ist auf Soundeffekte spezialisiert und auf Smartphones sowie Consumer-Laptops ausgelegt, das zweite auf kurze Musikstücke. Stable Audio 3.0 Medium arbeitet mit 1,4 Milliarden Parametern und erzeugt Stücke von bis zu 6:20 Minuten in 1,31 Sekunden. Diese drei Varianten stehen als Open-Weights-Modelle auf Hugging Face zum Download bereit.

Das größte Modell, Stable Audio 3.0 Large mit 2,7 Milliarden Parametern, ist nicht als Open-Weights-Modell verfügbar und ausschließlich über die Stability-AI-API sowie über den Partner fal.ai verfügbar oder kann alternativ für Unternehmen auf eigener Infrastruktur gehostet werden. Es liefert laut Stability AI die höchste Musikalität und ist für Musikplattformen mit hohem Generierungsvolumen gedacht.

Neue Architektur mit semantisch-akustischem Autoencoder

Technisch basiert Stable Audio 3.0 auf einer neuen Architektur mit einem semantisch-akustischen Autoencoder, der laut Stability AI längere und flexiblere Audioausgaben ermöglicht. Die Generierung erfolgt in variabler Länge mit sekundengenauer Steuerung.

Stable Audio 3.0 Small ist nach Angaben des Unternehmens das einzige Modell, das vollständige Musikkomposition auf dem Gerät ermöglicht, also offline und ohne kurze Sample-Beschränkung. Zum Vergleich: Stable Audio Open Small erreichte elf Sekunden, Stable Audio Open 47 Sekunden. Stability AI veröffentlicht auch eine Dokumentation für LoRA-Training zusammen mit den Gewichten von Stable Audio 3.0 Small und Medium. Damit lassen sich Modelle auf eigene Audiobibliotheken anpassen.

Enterprise-Kunden bietet das Unternehmen begleitendes Fine-Tuning an. Hinzu kommen Inpainting-Funktionen: Nutzer können einzelne Segmente eines Stücks bearbeiten, mehrere Abschnitte gleichzeitig modifizieren oder bestehende Tracks über ihren ursprünglichen Endpunkt hinaus verlängern (causal continuation).

Lizenzgrenze bei einer Million Dollar Umsatz

Unter der Stability AI Community License gehören die generierten Audiodateien den Nutzern, die sie kommerziell verwerten dürfen. Organisationen mit mehr als einer Million US-Dollar Jahresumsatz sollen Stability AI für Enterprise Licensing kontaktieren; die Enterprise-Lizenz bietet zusätzlich kommerzielle Abdeckung und rechtliche Freistellung.

Stability AI hebt hervor, dass nach eigener Kenntnis konkurrierende offene Musikmodelle entweder die kommerzielle Nutzung einschränken oder Risiken durch Training auf nicht lizenzierten Daten bergen würden. Die Lizenzfrage flankiert das Unternehmen mit Kooperationen mit der Universal Music Group und der Warner Music Group.

Vom Bild-Pionier zum Audio-Spezialisten

Stability AI hatte mit Stable Diffusion einst die offene Bildgenerierung geprägt, sich seit dem Rücktritt von Gründer Emad Mostaque und anhaltenden finanziellen Problemen jedoch zunehmend auf Audio fokussiert. Der erste Stable-Audio-Launch im September 2023 stützte sich auf eine Partnerschaft mit dem Stockmusik-Anbieter AudioSparx, der rund 800.000 Songs, Audioeffekte und Instrument-Snippets beisteuerte.

Stable Audio 2.0 folgte im April 2024 und war eines der ersten kommerziell einsetzbaren KI-Musiktools für 44,1-kHz-Audio in voller Länge bis zu drei Minuten. Im Sommer 2024 erschien Stable Audio Open als quelloffene Variante für kürzere Samples, im Mai 2025 folgte mit Arm zusammen Stable Audio Open Small, ein kompaktes Text-to-Audio-Modell, das auf Smartphones läuft. Stable Audio 2.5 vom September 2025 zielte auf professionelle Soundproduktion mit mehrteiligen Kompositionen aus Intro, Entwicklung und Outro. Stable Audio 3.0 markiert damit den Übergang zu einer einheitlichen Architektur, auf der Stability AI nach eigenen Angaben bereits die nächste Generation lizenzierter Profimodelle aufbaut.

Die wiederholte Betonung lizenzierter Trainingsdaten bekommt vor dem Hintergrund jüngster Urteile zusätzliches Gewicht. Im November 2025 hatte das Landgericht München OpenAI wegen Urheberrechtsverletzung verurteilt, weil ChatGPT auf einfache Prompts hin geschützte Songtexte aus dem GEMA-Repertoire reproduzierte. Das Gericht folgte dem Argument, dass Trainingsdaten in den Modellgewichten eingebettet bleiben und abrufbar sind, ein Phänomen, das die GEMA als Memorisierung bezeichnet. OpenAI hat Berufung eingelegt, der Fall liegt nun beim Oberlandesgericht München.

Stability AIs Versprechen, mit voll lizenzierten Daten zu arbeiten und Enterprise-Kunden rechtlich freizustellen, positioniert das britische Unternehmen damit explizit gegen Anbieter wie Suno und Udio, die sich derzeit in vergleichbaren Rechtsstreitigkeiten wiederfinden.

Parallel läuft ein weiteres Verfahren der GEMA gegen den Musik-KI-Anbieter Suno, dessen Tool laut Verwertungsgesellschaft mit Originalaufnahmen aus dem GEMA-Repertoire trainiert wurde und zum Verwechseln ähnliche Versionen wiedergibt. Auch in den USA sehen sich Suno und Udio vergleichbaren Klagen der Musikindustrie ausgesetzt. Mit voll lizenzierten Trainingsdaten und einer rechtlichen Absicherung für Enterprise-Kunden positioniert sich Stability AI bewusst abseits dieser Front.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article