Luma AI stellt Uni-1 vor, sein erstes Modell, das Bildverständnis und Bilderzeugung in einer einzigen Architektur vereint.
Wie auch Googles Nano Banana Pro und GPT Image 1.5 basiert Uni-1 auf einem autoregressiven Transforme: einem KI-Modell, das Inhalte sequenziell Token für Token generiert, anstatt, wie bei klassischer Diffusion, das Bild aus Rauschen herauszurechnen. Text und Bilder werden dabei in einer gemeinsamen Sequenz verarbeitet.
Laut Luma kann das Modell vor und während der Bilderzeugung strukturiert nachdenken, Anweisungen zerlegen und Szenen planen. Diese Modelle sind für gewöhnlich bedeutend besser darin, Prompts genauer umzusetzen. So auch bei Uni-1, das unter anderem mehrere Einzelbilder zu einem neuen Motiv zusammensetzen kann.
Hier wurden mehrere gewöhnliche Haustierfotos zum obigen Motiv zusammengefügt. Prompt: "Combine the black and white curly-haired dog with pink bandana, the Boston Terrier in plaid harness, and the black-and-white cat into a single scene where they are dressed in academic regalia, standing before a whiteboard filled with scientific diagrams and text, with the Luma AI logo placed in the top-left corner." | Bild: Luma AIUni-1 kann laut Luma AI zudem Motive über mehrere Gesprächsrunden hinweg verfeinern und dabei den Kontext beibehalten, Bilder in mehr als 76 Kunststile umwandeln, mit Skizzen und visuellen Anweisungen gesteuert werden und anhand von Referenzfotos Identitäten, Posen und Kompositionen in neue Bilder übertragen. So wurde etwa die folgende Sequenz aus einem einzigen Referenzbild generiert, wobei das Alter des Pianisten vom Kind bis zum Senior schrittweise verändert wurde.
Uni-1 generiert aus einem einzigen Referenzbild eine Bildsequenz, die einen Pianisten vom Kind bis ins hohe Alter zeigt – bei gleichbleibendem Kamerawinkel und konsistenter Szene. | Bild: Luma AIAuf dem RISEBench-Test für logikbasierte Bildbearbeitung erreicht Uni-1 laut Luma Bestwerte, knapp vor Nano Banana 2 und GPT Image 1.5. Zudem verbessert die Bilderzeugung das visuelle Verständnis des Modells, etwa bei der Objekterkennung, wo es fast auf dem Niveau von Googles Gemini 3 Pro liegt. Das Modell unterstützt mehrere Sprachen.
Uni-1 führt im RISEBench-Gesamtranking knapp vor Nano Banana 2 und GPT Image 1.5, dem aktuellen Bildmodell in ChatGPT. | Bild: Luma AIUni-1 soll bald über Luma Agents, einem ebenfalls neu gestarteten Kreativ-Assistenten, und die Luma API verfügbar sein. Zu den Preisen ist noch nichts bekannt.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.



