OpenAI launcht neues Videomodell Sora 2 mit Sound und Social-App

5 months ago 8

OpenAI bringt mit Sora 2 ein neues KI-Modell zur Video- mit Audiogenerierung auf den Markt samt begleitender iOS-App.

OpenAI hat mit Sora 2 eine neue Version seines Videomodells vorgestellt, das physikalisch realistischere Simulationen, verbesserte Kontrollierbarkeit und erstmals auch hochwertige Audiogenerierung bieten soll.

Parallel dazu startet eine neue iOS-App namens Sora, die auf sozialen Austausch rund um KI-generierte Inhalte ausgelegt ist. Technische Eckdaten wie Auflösung, Bildwiederholrate oder maximale Videolänge nennt OpenAI bislang nicht.

Der Sprung zu Sora 2 wird intern als bedeutsam eingestuft: Während das erste Sora-Modell noch als „GPT‑1-Moment“ für Video galt – ein erster, begrenzter Durchbruch – sieht OpenAI in Sora bereits den „GPT‑3.5-Moment“ für Videomodelle. Gemeint ist damit der Punkt, an dem generative Videotechnik erstmals als praktisch nutzbar gilt, vergleichbar mit dem Übergang von experimenteller zu alltagstauglicher Textverarbeitung bei Sprachmodellen.

THE DECODER Newsletter

Die wichtigen KI-News direkt ins E-Mail-Postfach.

✓ 1x wöchentlich

✓ kostenlos

✓ jederzeit kündbar

Ein Grund für diesen Sprung: Sora 2 kann laut OpenAI komplexe physikalische Abläufe mit hoher Treue simulieren, etwa Rückwärtssaltos auf einem Paddleboard mit korrektem Auftrieb oder gymnastische Bewegungen mit realitätsnaher Dynamik.

Im Unterschied zu früheren Videomodellen, die Objekte verzerren oder teleportieren, zeigt Sora 2 etwa einen Basketballwurf, der bei einem Fehlschuss korrekt vom Brett abprallt. Laut OpenAI ist das ein Hinweis auf ein besseres physikalisches Verständnis des Modells. Langfristig sieht das Unternehmen in Sora 2 daher einen Schritt in Richtung genereller Welt-Simulatoren für physikalisch agierende KI-Systeme.

Kontrolle, Konsistenz, Klang

Sora 2 kann komplexe, mehrteilige Anweisungen über mehrere Szenen hinweg umsetzen und hält dabei den Weltzustand konsistent. Das Modell beherrscht verschiedene visuelle Stile – darunter realistische, filmische und animeartige Ästhetik – und erzeugt erstmals auch authentisch wirkende Hintergrundgeräusche, Sprache und Soundeffekte. Bild und Audio sollen wie bei Googles Veo 3 im Einklang sein.

Eine weitere Neuerung ist die Möglichkeit, sich selbst in generierte Videos einzufügen. Nutzerinnen und Nutzer können über eine einmalige Aufnahme der eigenen Stimme und Erscheinung sogenannte „Cameos“ erstellen. Diese lassen sich mit hoher visueller und stimmlicher Ähnlichkeit in beliebige Szenen einfügen. Auch für Tiere oder Objekte ist die Einbindung möglich. Das folgende Video zeigt ein Cameo von OpenAI-CEO Sam Altman in Aktion.

OpenAI betont, dass Nutzer jederzeit die volle Kontrolle über ihr Cameo behalten. Nur autorisierte Personen dürfen ein Cameo verwenden, und sämtliche Videos – auch Entwürfe –, in denen das eigene Cameo erscheint, sind für die betroffene Person jederzeit einsehbar. Die Freigabe kann jederzeit widerrufen werden, Cameos lassen sich dauerhaft löschen.

Empfehlung

Für Jugendliche gelten zusätzliche Schutzmaßnahmen wie eingeschränkte Nutzung, geringere Sichtbarkeit und standardmäßige Sicherheitsgrenzen. Deepfakes von bekannten Personen sind technisch möglich, sollen aber unterbunden werden, wenn es von der Person nicht explizit erwünscht wird.

Sora-App mit sozialem Fokus

Sora 2 ist über eine neue iOS-App verfügbar, die denselben Namen trägt. Nutzer können eigene Videos erstellen, Inhalte anderer remixieren und diese in einem anpassbaren Feed entdecken. Die App startet zunächst in den USA und Kanada im Einladungsmodus. Über sora.com ist der Zugriff derzeit nur per Einladungscode möglich. Eine API-Version ist laut OpenAI ebenfalls geplant.

Der Feed priorisiert Inhalte von Personen, mit denen Nutzer interagieren, sowie Videos mit hohem Remix-Potenzial. Die Empfehlungssysteme basieren auf OpenAIs Sprachmodellen und lassen sich per natürlicher Sprache steuern. Ziel ist laut OpenAI eine kreative Plattform, die gemeinsam mit Freunden genutzt wird. Auch Meta hat kürzlich einen Feed für KI-generierte Inhalte angekündigt.

Weitere Demos gibt es im Livestream zur Sora-2-Ankündigung:

Read Entire Article