Luma AI Uni-1: Neues Bildmodell vereint Bildverständnis und Bilderzeugung

3 months ago 24

Luma AI stellt Uni-1 vor, sein erstes Modell, das Bildverständnis und Bilderzeugung in einer einzigen Architektur vereint.

Wie auch Googles Nano Banana Pro und GPT Image 1.5 basiert Uni-1 auf einem autoregressiven Transforme: einem KI-Modell, das Inhalte sequenziell Token für Token generiert, anstatt, wie bei klassischer Diffusion, das Bild aus Rauschen herauszurechnen. Text und Bilder werden dabei in einer gemeinsamen Sequenz verarbeitet.

Laut Luma kann das Modell vor und während der Bilderzeugung strukturiert nachdenken, Anweisungen zerlegen und Szenen planen. Diese Modelle sind für gewöhnlich bedeutend besser darin, Prompts genauer umzusetzen. So auch bei Uni-1, das unter anderem mehrere Einzelbilder zu einem neuen Motiv zusammensetzen kann.

Uni-1 kann laut Luma AI zudem Motive über mehrere Gesprächsrunden hinweg verfeinern und dabei den Kontext beibehalten, Bilder in mehr als 76 Kunststile umwandeln, mit Skizzen und visuellen Anweisungen gesteuert werden und anhand von Referenzfotos Identitäten, Posen und Kompositionen in neue Bilder übertragen. So wurde etwa die folgende Sequenz aus einem einzigen Referenzbild generiert, wobei das Alter des Pianisten vom Kind bis zum Senior schrittweise verändert wurde.

Ein Junge am Klavier altert über die Stationen Kind, Teenager, Frischvermählter, junger Vater, mittleres Alter bis zum Greis. Daneben der zugehörige Textprompt und die Beschreibung des fünften Keyframes.

Auf dem RISEBench-Test für logikbasierte Bildbearbeitung erreicht Uni-1 laut Luma Bestwerte, knapp vor Nano Banana 2 und GPT Image 1.5. Zudem verbessert die Bilderzeugung das visuelle Verständnis des Modells, etwa bei der Objekterkennung, wo es fast auf dem Niveau von Googles Gemini 3 Pro liegt. Das Modell unterstützt mehrere Sprachen.

Balkendiagramm des RISEBench-Benchmarks mit Ergebnissen von Uni-1, Nano Banana 2, Nano Banana Pro, GPT Image 1.5, GPT Image und Qwen-Image-2 in den Kategorien Overall, Causal, Spatial, Temporal und Logical. Uni-1 erreicht den höchsten Gesamtwert von 0,51.

Uni-1 soll bald über Luma Agents, einem ebenfalls neu gestarteten Kreativ-Assistenten, und die Luma API verfügbar sein. Zu den Preisen ist noch nichts bekannt.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article

Luma AI Uni-1: Neues Bildmodell vereint Bildverständnis und Bilderzeugung

KI-News ohne Hype – von Menschen kuratiert

Related

Google stellt KI-Bildbearbeitungs-App Pixel Studio ein

Google: Neues KI-Modell läuft auch auf Laptops mit nur 16GB ...

Israel greift Iran an – Ölpreise steigen