OpenAI: GPT-4o bekommt verbesserte integrierte Bilderzeugung spendiert

11 months ago 10

Bei OpenAI geht es Schlag auf Schlag weiter. Das erst kürzlich vorgestellte und ziemlich fähige Modell GPT-4o, das ja schon Text, Code, Audio und Bilder verstehen kann, lernt jetzt eine weitere wichtige Fähigkeit: das bessere Generieren von Bildern. Das Ganze wird direkt in die ChatGPT-Oberfläche integriert und basiert auf der bekannten DALL·E 3-Technologie. Nennt sich Bilder in ChatGPT. Was heißt das konkret für Nutzer? OpenAI verspricht einige Verbesserungen gegenüber dem bisherigen, eher separaten DALL·E-Zugang:

Direkt im Chat: Ihr könnt Bilder direkt im Gespräch mit GPT-4o erstellen lassen. Einfach beschreiben, was ihr sehen wollt.

Iteratives Arbeiten: Das ist spannend: Ihr könnt auf einem generierten Bild aufbauen. Stellt euch vor, ihr lasst ein Bild erstellen und sagt dann im nächsten Schritt „Mach den Himmel dunkler“ oder „Füge einen roten Ballon hinzu“. Das soll die Bildbearbeitung und -anpassung deutlich intuitiver machen.

Besseres Verständnis & Text: GPT-4o soll die Nuancen in euren Text-Prompts besser verstehen und auch Text innerhalb von Bildern (z.B. Schriftzüge, Schilder) zuverlässiger darstellen können.

Konsistente Charaktere/Stile: Wer versucht hat, dieselbe Figur in verschiedenen Szenen zu generieren, kennt die Herausforderung. Auch hier verspricht OpenAI Verbesserungen bei der Konsistenz über mehrere Bilder hinweg.

Unter der Haube steckt, wie erwähnt, die Power von DALL·E 3, aber eben enger verzahnt mit den Konversationsfähigkeiten von GPT-4o.

OpenAI betont auch die Sicherheitsmaßnahmen. Schädliche Inhalte sollen wie üblich blockiert werden. Wichtig ist auch die Kennzeichnung: Generierte Bilder sollen C2PA-Metadaten enthalten, die sie als KI-generiert ausweisen (Stichwort Provenienz). Auch das Generieren von Bildern bekannter öffentlicher Personen soll eingeschränkt sein, um Missbrauch vorzubeugen.

Wer bekommt es und wann?

Wie so oft bei OpenAI startet der Rollout langsam. Zuerst darf eine „kleine Gruppe“ von Nutzern mit ChatGPT Plus und Enterprise die neue Funktion testen. Wann genau der breite Rollout für alle Plus-Nutzer (und vielleicht irgendwann auch Free-Nutzer?) erfolgt, sagt OpenAI noch nicht, spricht aber von „bald“. Man muss also die Augen offen halten.

Das ist definitiv ein logischer Schritt, die verschiedenen KI-Modalitäten noch enger zusammenzuführen. Bilder direkt im Chat zu generieren und anzupassen, klingt auf dem Papier sehr praktisch. Wer die offizielle Ankündigung im Detail nachlesen möchte, findet sie hier im Blog von OpenAI. Da gibt es auch noch einen Schwung von wirklich krassen Beispielbildern.

Angebot

 11' Liquid Retina Display, 128 GB, WLAN 6, 12 MP Front /12 MP Rückkamera, Touch ID,...

Angebot

 Apple Intelligence, Liquid Retina Display, 128 GB, 12 MP Frontkamera/Rückkamera,...

Angebot

Apple MacBook Air (13', Apple M4 Chip mit 10‑Core CPU und 8‑Core GPU, 16GB Gemeinsamer Arbeitsspeicher, 256 GB)...

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Read Entire Article