Luma: KI-Agent erzeugt Audio, Videos und Bilder

1 month ago 12

Die KI-Plattform Luma generiert nach Angaben des Herstellers Luma AI kreative Projekte wie Videos oder Printkampagnen – vom Konzept über Zwischenstufen wie Storyboards bis hin zur Ausgestaltung mit diversen KI-Modellen.

Kreative, die beispielsweise für ein Videoprojekt zuerst ein Skript in ChatGPT, dann ein Bild als Ausgangspunkt in Midjourney, anschließend einzelne Videoclips in Runway ML generieren, Hintergrundmusik im Web oder einer Bibliothek suchen und letztlich alles in Adobe Premiere Pro zu einem Video verbinden, sollen all das nun mithilfe von KI erledigen können.

KI-Agenten organisieren laut Hersteller den Workflow für Text, Bild, Video und Audio über KI-Modelle verschiedener Anbieter hinweg. Neben dem von Luma AI selbst entwickelten Videomodell Ray3.14 unterstützt der Agent auch die Videogeneratoren Google Veo 3, OpenAI Sora 2 und Kling AI 2.6, die Bildgeneratoren Nano Banana Pro, Seedream und GPT Image 1.5 sowie die Musik-, Audioeffekt- und Stimmengeneratoren von ElevenLabs.

Luma richtet sich an kreative Teams in Agenturen und Marketing-Abteilungen, die schnell Inhalte produzieren wollen oder müssen, ohne sich mit komplexen Prozessen dahinter auseinanderzusetzen.

Werkzeuge und Workflow

Luma steht als Web-App zur Verfügung. Nach Anlegen eines neuen Projekts formulieren Nutzer einen Prompt und laden Quellen wie Bilder, Textdateien, PDF-Dokumente, Audio- oder Videodateien (MOV, MP4) hoch. Der Agent analysiert das Material, erstellt einen Plan und holt weiteres Feedback ein. Dahinter steckt die von Luma entwickelte KI Uni-1.

Luma generiert eine Art Storyboard und stellt Rückfragen im Chat. Schließlich gibt Luma das Ergebnis je nach Projekt in den Formaten PNG, JPEG, MP4 oder MP3 aus. Videoprojekte bestehen dabei je nach eingesetztem Modell aus 4 bis 12 Sekunden langen Einzelclips. In der Regel unterstützen die Modelle maximal 1080p-Auflösung. Der Luma-Agent skaliert sie bis zu 4K.

Die Technik hinter Uni-1

Hinter Luma steckt das Modell Uni-1, ein decoderbasierter, autoregressiver Transformer, der Sprache und Bildtoken in einem gemeinsamen Tokenraum verarbeitet. Diese Transformervariante wird in vielen großen Sprachmodellen (LLMs) eingesetzt.

Das Modell ist in der Lage, in natürlicher Sprache zu schlussfolgern und innerhalb desselben Rechendurchlaufs visuelle Inhalte zu rendern. Statt getrennte Systeme Schritt für Schritt anzusteuern, plant, visualisiert und erzeugt Uni-1 Ergebnisse in einem Prozess – laut Anbieter ein Ansatz, der menschlicher Intelligenz näherkommt als unabhängig voneinander arbeitende Modelle.

Preise und Verfügbarkeit

Laut Hersteller ist das Produkt ab sofort verfügbar. Ein Abo kostet 30, 90 oder 300 US-Dollar im Monat. Nutzer bekommen dafür 10.000, 40.000 respektive 150.000 Credits. Die Kosten für einzelne Videoclips hängen vom eingesetzten Videomodell ab. Nutzer sollten beim Abschätzen der Kosten beachten, dass Luma auch größere Projekte mit mehreren Clips auf einmal generiert.

(akr)

Read Entire Article