Qwen-Image-2.0: Weniger Rechenschritte, stärkere Kompression, bessere Prompts

3 weeks ago 11

Der technische Bericht zum Bildmodell Qwen-Image-2.0 zeigt, mit welchen Maßnahmen Alibaba Training und Inferenz effizienter macht. Im Zentrum stehen ein effizienterer Kompressor, ein umgebauter Bild-Transformer und ein eigenes Modul, das knappe Nutzereingaben in detaillierte Prompts übersetzt.

Bildmodelle arbeiten nicht direkt auf Pixeln, sondern auf stark verkleinerten Versionen der Bilder. Ein eigenes neuronales Netz (Variational Autoencoder oder kurz VAE) übernimmt diese Verkleinerung und kann sie später wieder rückgängig machen. Je stärker dieses Netz die Bilder eindampft, desto schneller und günstiger lässt sich das eigentliche Bildmodell trainieren.

Üblich sind in der Open-Source-Welt Kompressoren, die ein Bild in jeder Richtung achtfach verkleinern, wie sie etwa FLUX.1-dev oder HunyuanVideo nutzen. Qwen-Image-2.0 setzt laut technischem Bericht auf 16-faches räumliches Downsampling statt der bei vielen Open-Source-VAEs verbreiteten achtfachen Verkleinerung.

Stärkere Kompression bedeutet normalerweise mehr Detailverlust, das Qwen-Team federt dieses Problem aber mit zwei Eingriffen ab. Zum einen schleusen zusätzliche Verbindungen im Kompressor feine Bilddetails an den Engstellen vorbei. Zum anderen wird der verkleinerte Bildraum während des Trainings darauf getrimmt, semantisch sinnvolle Strukturen abzubilden. Das macht es dem eigentlichen Bildmodell später leichter, in diesem Raum zu arbeiten. Auffällig dabei ist, dass diese Ausrichtung laut Team nur anfangs stark sein und später wieder gelockert werden soll.

Porträts unterschiedlicher Ethnien, Tieraufnahmen wie Tiger, Biene und Pferdeauge, eine GTA-VI-artige Spielszene mit Untertitel, eine Frau mit Goldfischen vor dem Gesicht und mediterrane Landschaften.

Verzichtet wird auf ein Trainingsverfahren, das bei solchen Netzen sonst üblich ist. Dabei sorgt ein zweites Netz, das echte von rekonstruierten Bildern unterscheiden soll, für mehr Schärfe in den Ergebnissen. Das Qwen-Team lässt diesen Schritt komplett weg, weil er bei großen Modellen "weitgehend redundant" sei und das Training instabil mache.

Trotz der stärkeren Kompression erreicht der Bildkompressor auf dem Standard-Datensatz ImageNet einen höheren Rekonstruktionswert als die schwächer komprimierenden Konkurrenten.

Umbauten im Bild-Transformer gegen entgleiste Aktivierungen

Im Kern von Qwen-Image-2.0 arbeitet ein Transformer, der Text und Bild in einem gemeinsamen Datenstrom verarbeitet. Den Text liest das Modell mithilfe von Qwen3-VL ein, einem Sprachmodell mit Bildverständnis. An der Architektur des Transformers selbst hat das Team an zwei Stellschrauben gedreht.

Erstens vereinfacht es einen internen Skalierungsmechanismus. Statt das Signal mit einem Faktor zu multiplizieren und zusätzlich einen Wert aufzuaddieren, bleibt nur die Multiplikation übrig. Zweitens tauscht das Team die Bausteine aus, in denen das Modell die Informationen zwischen den Aufmerksamkeitsschichten weiterverarbeitet. An ihre Stelle tritt eine Variante namens SwiGLU, in der sich zwei parallele Verarbeitungspfade gegenseitig gewichten.

das eingefrorene Qwen3-VL verarbeitet System-Prompt, Eingabebild und User-Prompt, ein VAE-Encoder kodiert Bild- sowie Zielinformationen, beide Repräsentationen laufen in einen gestapelten MMDiT mit L Qwen-Image-2.0-Blöcken; rechts der Diffusions-Zweig mit Noise-Addition und Projection-Schicht.

Der Grund für den Tausch liegt in einer Beobachtung beim Training: Wenn das Modell Text und Bild gleichzeitig lernt, können einzelne interne Werte extrem groß werden und ganze Neuronen früh in einen unbrauchbaren Zustand kippen. Aus großen Sprachmodellen ist dieses Phänomen als "massive activations" bekannt. SwiGLU hält die Werte in einem handhabbaren Bereich.

Ein Prompt-Modul, das rückwärts trainiert wird

Komplexe Bilder wie Infografiken oder Poster gelingen nur, wenn der Prompt entsprechend detailliert ist. Echte Nutzereingaben sind aber meist knapp und vage. Qwen-Image-2.0 löst das mit einem vorgeschalteten Modul auf Basis von Qwen3.5-9B, das kurze Eingaben in ausführliche Beschreibungen umschreibt.

Für das Training dieses Moduls geht das Team einen unkonventionellen Weg. Statt mühsam Paare aus knappen und detaillierten Prompts zu sammeln, entfernt es aus bereits vorhandenen, detaillierten Bildbeschreibungen gezielt Informationen, etwa Angaben zu Licht, Texturen oder Layout, bis ein umgangssprachlich klingender Nutzerprompt übrig bleibt. Jede dieser Entfernungen liefert automatisch ihren eigenen umgekehrten Schritt, also eine Anleitung, wie das Modell die fehlende Information wieder ergänzen müsste.

chinesische Plakat-Kalligrafie, koreanische K-Pop-Albumcover, Manga-Spread, ein Comic über das erste Hauptsatz der Thermodynamik, Social-Media-App-Screenshots und ein AK-47-Magazin-Cover.

Trainiert wird zweistufig. Zunächst lernt das Modul anhand dieser Beispiele, dann folgt eine Phase, in der es Kandidaten-Prompts erzeugt, ein eingefrorener Bildgenerator daraus Bilder rendert und das Modul darauf optimiert wird, dass die Ergebnisse ästhetisch und inhaltlich überzeugen.

Feinjustierung mit fünf Bewertungsmodellen

Für die finale Abstimmung am menschlichen Geschmack nutzt das Team fünf getrennte Bewertungsmodelle. Drei davon bewerten neu generierte Bilder nach Ästhetik, Übereinstimmung mit dem Prompt und Porträt-Qualität. Zwei weitere bewerten bearbeitete Bilder danach, ob sie die Anweisung umsetzen und gleichzeitig dem Originalbild treu bleiben.

Beim Reinforcement Learning selbst zeigt der Bericht eine pragmatische Designentscheidung. Ein Standardverfahren namens Classifier-free Guidance, das normalerweise die Bildqualität in Diffusionsmodellen steigert, läuft nur beim Erzeugen der Trainingsbeispiele mit, nicht aber während der eigentlichen Optimierung. Das spart Rechenkosten, ohne die Bildqualität spürbar zu beeinträchtigen.

Balkendiagramm mit ELO-Werten in acht Kategorien (Product, 3D Modeling, Cartoon, Photorealism, Art, Portraits, Text Rendering, Overall); Qwen-Image-2.0 (violett) liegt in allen acht Disziplinen vor Qwen-Image-2512 (grün) und Qwen-Image (grau), mit dem größten Vorsprung bei Portraits (1213 vs. 1155).

Automatisierte Fehlersuche in den Trainingsdaten

Beim Datenmanagement setzt das Team auf eine selbstoptimierende Pipeline. Fehlerhafte Beispiele aus Evaluationen und Nutzerfeedback werden automatisch einer von drei Ursachen zugeordnet. Liegt es am Reinforcement Learning, passt das System die Belohnung an.

Fehlt dem Modell schlicht Wissen, sucht eine automatische Suche in den Trainingsdaten nach Lücken und ergänzt gezielt mit neuen Beispielen. Liegt das Problem am Prompt, wird das Prompt-Modul nachjustiert. Manuelle Eingriffe beschränken sich laut Bericht auf finale Sichtung und Filterung.

Die Trainingsdaten durchlaufen sechs Stufen, in denen die Bildauflösung schrittweise von 256 auf 2048 Pixel steigt. Parallel verschiebt sich das Mischverhältnis zwischen Generierungs- und Bearbeitungsdaten von 9:1 in der ersten Phase auf 7:3 in den späteren Stufen.

Vier statt 40 Schritte

Diffusionsmodelle erzeugen Bilder normalerweise in vielen kleinen Rechenschritten. Für schnellere Antwortzeiten destilliert das Team das fertige Modell in eine sparsamere Variante, die nur noch vier statt 40 Schritte pro Bild benötigt. Sie nutzt dafür ein Verfahren, das nicht den genauen Weg der Bildentstehung nachahmt, sondern nur das Endergebnis. Laut Bericht bleibt die visuelle Qualität dabei vergleichbar.

Die im technischen Bericht offengelegten Details ergänzen das öffentliche Bild des Modells, das Alibaba Anfang des Jahres vorgestellt und zunächst nur als API in einer Einladungs-Beta auf Alibaba Cloud und als Demo in Qwen Chat zugänglich gemacht hatte. In Blindtests auf Alibabas hauseigener Arena-Plattform landet Qwen-Image-2.0 knapp hinter den derzeit führenden Modellen.

Screenshot der LMArena-Bestenliste Text-to-Image vom 22. April 2026; gpt-image-2 (medium) führt mit 1507 ELO vor gemini-3.1-flash-image-preview (1271), gpt-image-1.5-high-fidelity (1242) und gemini-3-pro-image-preview (1232); qwen-image-2.0-pro-2026-04-22 belegt mit 1168 Punkten und 5.122 Stimmen Rang 9.

An der Spitze steht inzwischen OpenAIs GPT-Image-2, gefolgt von Googles Nano Banana Pro. Insgesamt bewegen sich die aktuellen Modelle bei Fotorealismus, Textdarstellung und der präzisen Umsetzung von Bearbeitungsanweisungen auf einem sehr hohen Niveau, mit nur noch geringen Abständen zwischen den Spitzensystemen.

Offen bleibt bei Qwen-Image-2.0 die Frage der Veröffentlichung. Die Modellgewichte stehen weiterhin aus, beim ersten Qwen-Image war das entsprechende Apache-2.0-Release allerdings rund einen Monat nach Launch erfolgt. Qwen-Image-2.0 fügt sich zudem in eine Reihe chinesischer Bildmodelle ein, die zunehmend auf präzises Text-Rendering setzen, darunter Meituans LongCat-Image und Zhipu AIs GLM-Image.

Read Entire Article