Luma AI Uni-1: Neues Bildmodell vereint Bildverständnis und Bilderzeugung

1 hour ago 1

Luma AI stellt Uni-1 vor, sein erstes Modell, das Bildverständnis und Bilderzeugung in einer einzigen Architektur vereint.

Wie auch Googles Nano Banana Pro und GPT Image 1.5 basiert Uni-1 auf einem autoregressiven Transforme: einem KI-Modell, das Inhalte sequenziell Token für Token generiert, anstatt, wie bei klassischer Diffusion, das Bild aus Rauschen herauszurechnen. Text und Bilder werden dabei in einer gemeinsamen Sequenz verarbeitet.

Laut Luma kann das Modell vor und während der Bilderzeugung strukturiert nachdenken, Anweisungen zerlegen und Szenen planen. Diese Modelle sind für gewöhnlich bedeutend besser darin, Prompts genauer umzusetzen. So auch bei Uni-1, das unter anderem mehrere Einzelbilder zu einem neuen Motiv zusammensetzen kann.

Hier wurden mehrere gewöhnliche Haustierfotos zum obigen Motiv zusammengefügt. Prompt: "Combine the black and white curly-haired dog with pink bandana, the Boston Terrier in plaid harness, and the black-and-white cat into a single scene where they are dressed in academic regalia, standing before a whiteboard filled with scientific diagrams and text, with the Luma AI logo placed in the top-left corner." | Bild: Luma AI

Uni-1 kann laut Luma AI zudem Motive über mehrere Gesprächsrunden hinweg verfeinern und dabei den Kontext beibehalten, Bilder in mehr als 76 Kunststile umwandeln, mit Skizzen und visuellen Anweisungen gesteuert werden und anhand von Referenzfotos Identitäten, Posen und Kompositionen in neue Bilder übertragen. So wurde etwa die folgende Sequenz aus einem einzigen Referenzbild generiert, wobei das Alter des Pianisten vom Kind bis zum Senior schrittweise verändert wurde.

 Ein Junge am Klavier altert über die Stationen Kind, Teenager, Frischvermählter, junger Vater, mittleres Alter bis zum Greis. Daneben der zugehörige Textprompt und die Beschreibung des fünften Keyframes.Uni-1 generiert aus einem einzigen Referenzbild eine Bildsequenz, die einen Pianisten vom Kind bis ins hohe Alter zeigt – bei gleichbleibendem Kamerawinkel und konsistenter Szene. | Bild: Luma AI

Auf dem RISEBench-Test für logikbasierte Bildbearbeitung erreicht Uni-1 laut Luma Bestwerte, knapp vor Nano Banana 2 und GPT Image 1.5. Zudem verbessert die Bilderzeugung das visuelle Verständnis des Modells, etwa bei der Objekterkennung, wo es fast auf dem Niveau von Googles Gemini 3 Pro liegt. Das Modell unterstützt mehrere Sprachen.

Balkendiagramm des RISEBench-Benchmarks mit Ergebnissen von Uni-1, Nano Banana 2, Nano Banana Pro, GPT Image 1.5, GPT Image und Qwen-Image-2 in den Kategorien Overall, Causal, Spatial, Temporal und Logical. Uni-1 erreicht den höchsten Gesamtwert von 0,51.Uni-1 führt im RISEBench-Gesamtranking knapp vor Nano Banana 2 und GPT Image 1.5, dem aktuellen Bildmodell in ChatGPT. | Bild: Luma AI

Uni-1 soll bald über Luma Agents, einem ebenfalls neu gestarteten Kreativ-Assistenten, und die Luma API verfügbar sein. Zu den Preisen ist noch nichts bekannt.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article