Microsoft Research zeigt mit Lens, wie sich Bildmodelle effizienter trainieren lassen

1 hour ago 1

Microsofts MAI-Team ringt mit hochgezüchteten Bildmodellen um Aufmerksamkeit. Gleichzeitig zeigt Microsoft Research im Stillen, wie man auch mit wenig Rechenleistung weit kommt. Entscheidend sind ausführliche Bildunterschriften und eine kluge Architekturwahl.

Mit Lens stellt Microsoft Research ein Text-zu-Bild-Modell vor, das mit deutlich größeren Konkurrenten mithalten soll. Dabei verbraucht es im Training nur einen Bruchteil der Rechenleistung. Laut dem technischen Bericht kommt Lens mit rund einem Fünftel des Rechenaufwands aus, den vergleichbare Modelle wie Z-Image für ihr Pre-Training benötigen. In mehreren Benchmarks schlägt es Modelle, die um ein Vielfaches größer sind. Hunyuan-Image-3.0 etwa zählt rund 80 Milliarden Parameter, Lens nur 3,8 Milliarden.

Zwei Streudiagramme, links OneIG und rechts GenEval, mit Inferenzzeit auf der x-Achse und Benchmark-Score auf der y-Achse, Punktgröße proportional zur Modellgröße; Lens und Lens-Turbo liegen oben links bei kurzer Inferenzzeit.Lens und Lens-Turbo erreichen hohe Scores bei kurzer Inferenzzeit und kleiner Modellgröße, während größere Modelle mehr Rechenzeit benötigen. | Bild: Microsoft
Rotaugenlaubfrosch mit grünem Körper, blau gestreiften Flanken und orangefarbenen Füßen auf einer roten Bromelie, Wassertropfen auf der Haut.Im Makrobereich trifft Lens Hauttextur und Farbkontraste eines Rotaugenlaubfroschs. | Bild: Microsoft

Dichte Bildbeschreibungen statt knapper Alt-Texte

Den Effizienzgewinn erklären die Forschenden mit einem kompakteren Modell, mehr nutzbarer Information pro Trainingsschritt und einem Training, das mit weniger Durchläufen zu guten Ergebnissen kommt. Zentral ist der Datensatz Lens-800M mit 800 Millionen Bild-Text-Paaren. Die Bildbeschreibungen wurden von GPT-4.1 erzeugt und sind mit durchschnittlich gut hundert Wörtern ausführlicher als Standard-ALT-Texte aus dem Internet. Eine Ablationsstudie zeigt laut Microsoft, dass das Training mit solchen langen Beschreibungen klar bessere Ergebnisse liefert als mit kurzen oder gemischten Captions. Web-Alt-Texte seien oft unspezifisch oder schlicht falsch, was die Lernsignale verwässere.

Liniendiagramm mit GenEval-Score über Trainingsschritten für drei Caption-Varianten, wobei Detailed Captions durchgehend über Mixed und deutlich über Brief Captions liegen.Training mit ausführlichen Bildunterschriften erreicht eine höhere Generierungsqualität als kurze oder gemischte Captions. | Bild: Microsoft

Zusätzlich mischt das Team in jedem Trainingsbatch unterschiedliche Auflösungen und Seitenverhältnisse von Hochformat bis Querformat. Obwohl das Modell nur auf einem festen Satz an Bildgrößen trainiert wurde, generalisiert es nach Angaben der Forscher auf ungesehene Formate und Auflösungen bis zu Bildern mit rund zwei Megapixeln. Das spart kostspielige Trainingsläufe auf hochauflösendem Material.

Architektur-Entscheidungen mit Hebelwirkung

Für die Architektur testete das Team mehrere Varianten von Variational Autoencodern, die für die Übersetzung zwischen Pixeln und einem komprimierten Bildraum zuständig sind. Statt sich auf klassische Rekonstruktionsmetriken zu verlassen, prüfte Microsoft die Kandidaten direkt im Text-zu-Bild-Training. Am besten schnitt der semantische VAE aus FLUX.2 ab, der zugleich die Konvergenz beschleunigte.

Als Text-Encoder dient GPT-OSS, ein offen verfügbares Sprachmodell von OpenAI. Stärkere Sprach-Encoder bringen laut den Ablationen zwei Vorteile: Das Modell lernt schneller und kann auch mit Eingaben in Sprachen umgehen, auf die es nicht trainiert wurde. Lens wurde ausschließlich auf englischen Bild-Text-Paaren trainiert, akzeptiert aber auch Prompts auf Chinesisch, Französisch, Japanisch oder Spanisch, ohne dass dafür mehrsprachige Trainingsdaten nötig waren. Stärkere Sprach-Encoder verbesserten außerdem die Prompt-Treue.

Reasoner schreibt Nutzereingaben um

Nach dem Pre-Training folgt eine Phase mit Reinforcement-Learning auf einem eigens zusammengestellten Prompt-Set namens Lens-RL-8K. Die Prompts decken zehn Kategorien ab, darunter Menschen, Tiere, Szenen, Essen, fiktionale Welten und UI-Design. GPT-4.1 erzeugt für jeden Prompt passende Bewertungskriterien, ein kleineres GPT-4.1-mini fungiert als Belohnungsmodell.

U-Bahn-Wand mit dem Schriftzug „GRAND CENTRAL" aus weißen Keramikmosaikbuchstaben auf grünem Fliesengrund, davor gebogene Gleise.Lens setzt kurze Schriftzüge im Bild sauber und lesbar um, eine bekannte Schwäche vieler Text-zu-Bild-Modelle. | Bild: Microsoft

Eine Ablation zeigt: Wird das RL-Set verkleinert oder eine Kategorie wie textlastige Prompts entfernt, sinkt die Leistung in den betroffenen Bereichen. Die Vielfalt der RL-Prompts sei wichtiger als ihre schiere Menge.

Vor das eigentliche Bildmodell schaltet Microsoft einen Reasoner, der vage Nutzereingaben in detaillierte Prompts umformuliert. Standard ist GPT-5.5, alternativ funktioniert auch das ohnehin als Text-Encoder genutzte GPT-OSS, ohne zusätzlichen Speicher zu beanspruchen.

Microsoft beschreibt zudem eine Methode, mit der sich der System-Prompt für den Reasoner ohne weiteres Training iterativ verbessern lässt. Diese Strategie ließ sich nach Angaben der Forschenden auch auf das deutlich größere Qwen-Image übertragen und zeigte dort positive Effekte.

Fischfilet mit Pommes, Zitronenspalte, einer Schale Erbsen und einer Glasflasche auf Papier und Holztisch, fotorealistisch.Beim Foodmotiv liefert Lens eine plausible Fish-and-Chips-Szene, weicht aber im Detail vom Prompt ab. | Bild: Microsoft

Lens-Turbo erzeugt Bilder unter einer Sekunde

Für schnellere Inferenz hat Microsoft eine destillierte Variante namens Lens-Turbo entwickelt, die ein Bild in nur vier Schritten erzeugt. Während das Standardmodell für ein Megapixel-Bild auf einer H100-GPU rund drei Sekunden benötigt, schafft Lens-Turbo den Vorgang in unter einer Sekunde.

In den getesteten Benchmarks für Prompt-Treue, Text-Rendering und komplexe Szenen liegt Lens nach Angaben des Berichts vor FLUX.2-Klein und Z-Image und teils auch vor Qwen-Image, das fünfmal so viele Parameter besitzt. Schwächen räumt das Team beim Rendern von Text in Sprachen wie Japanisch oder Französisch ein, was an der Datenabdeckung liege.

Microsoft hat Code und Modell-Checkpoints von Lens unter der MIT-Lizenz freigegeben. Die Modellgewichte stehen auf Hugging Face bereit, der Inferenz-Code findet sich im GitHub-Repository. Microsoft weist darauf hin, dass Lens ausschließlich für Forschungszwecke gedacht und nicht für den produktiven Einsatz freigegeben ist. Da die Trainingsdaten teils aus Web-Quellen stammen, könne das Modell verzerrte oder problematische Inhalte erzeugen, weshalb Anwender eigene Sicherheitsmaßnahmen ergänzen müssten.

Vor kurzem hat Microsoft mit dem von Mustafa Suleyman geführten MAI-Team bereits eigene Bildmodelle für seine Endprodukte vorgestellt. MAI-Image-2 und der Nachfolger MAI-Image-2.5 landeten in der Arena.ai-Rangliste auf Platz drei, auf Augenhöhe mit Googles Nano Banana 2, aber hinter OpenAIs ChatGPT Images 2.0 .

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article