OpenAI bringt ChatGPT Images 2.0 mit neuem Denkmodus für Bildgenerierung

6 hours ago 1

Update:

OpenAIs neues Bildmodell ist offiziell. ChatGPT Images 2.0 basiert auf dem neuen GPT Image 2-Modell und bringt laut einem Blogpost des Unternehmens dieselbe Fähigkeit wie Googles Nano Banana Pro: Das Modell "denkt", bevor es generiert, je nach eingestelltem Modell kürzer oder länger, und kann dabei sogar das Internet durchsuchen. Das soll insgesamt eine höhere Vielfalt und Genauigkeit bei generierten Bildern ermöglichen. Erweiterte Ausgaben mit Thinking sind allerdings nur für ChatGPT Plus-, Pro- und Business-Nutzer verfügbar.

Mit aktiviertem Denkmodus erzeugt ChatGPT Images 2.0 bis zu acht Bilder gleichzeitig aus einem einzigen Prompt. Dabei sollen Charaktere, Objekte und Stile über alle Szenen hinweg konsistent bleiben. OpenAI nennt als Anwendungsbeispiele Manga-Seiten, Serien von Social-Media-Grafiken oder Designpläne für verschiedene Räume eines Hauses. Aus einem einzigen Foto soll etwa ein mehrseitiger Manga entstehen.

Bessere Bildqualität für alle Nutzer

Unabhängig vom Denkmodus erhalten alle ChatGPT-Nutzer Verbesserungen bei der Bildqualität. Der Generator soll laut OpenAI die "charakteristischen Merkmale von Fotos" besser erfassen und Fortschritte bei Pixel Art, Manga, Filmstills und anderen Bildtypen erzielen. Das Modell soll zudem feinkörnige Elemente bewältigen, an denen bisherige Bildmodelle regelmäßig scheiterten: kleiner Text, Ikonografie, UI-Elemente, dichte Kompositionen und subtile stilistische Vorgaben.

Die Unterstützung für Seitenverhältnisse reicht von 3:1 (ultrabreit) bis 1:3 (ultrahoch), was Formate von Bannern über Präsentationsfolien bis zu mobilen Screens und Social-Media-Grafiken abdecken soll. Die Auflösung reicht in der API bis zu 2K.

Laut OpenAI liefert das Modell ein "beispielloses Maß an Spezifität und Wiedergabetreue". Es soll feinkörnige Elemente bewältigen, an denen bisherige Bildmodelle regelmäßig scheiterten: kleiner Text, Ikonografie, UI-Elemente, dichte Kompositionen und subtile stilistische Vorgaben. Die Auflösung reicht in der API bis zu 2K.

API-Preise: Token-basiert und qualitätsabhängig

Über die API können Entwickler das Modell unter dem Namen gpt-image-2 in eigene Produkte integrieren. OpenAI berechnet die Kosten auf Token-Basis: 8 Dollar pro eine Million Bild-Input-Token und 30 Dollar pro eine Million Bild-Output-Token. Für Text-Token fallen 5 Dollar (Input) beziehungsweise 10 Dollar (Output) pro Million an. Gecachte Eingaben sind deutlich günstiger.

In der Praxis hängen die Kosten pro Bild stark von Qualität und Auflösung ab. Laut der Preisübersicht von OpenAI kostet ein Bild mit 1024 × 1024 Pixeln in niedriger Qualität nur 0,006 Dollar, in mittlerer Qualität 0,053 Dollar und in hoher Qualität 0,211 Dollar. Bei größeren Auflösungen wie 1024 × 1536 sinken die Kosten leicht auf 0,005, 0,041 beziehungsweise 0,165 Dollar.

Model Quality 1024 x 1024 1024 x 1536 1536 x 1024

GPT Image 2 Additional sizes available	Low	$0.006	$0.005	$0.005
	Medium	$0.053	$0.041	$0.041
	High	$0.211	$0.165	$0.165
GPT Image 1.5	Low	$0.009	$0.013	$0.013
	Medium	$0.034	$0.05	$0.05
	High	$0.133	$0.2	$0.2

Bei größeren Formaten ist GPT Image 2 günstiger als seine Vorgänger: 1024 × 1536 in hoher Qualität kostet 0,165 Dollar statt 0,20 Dollar bei GPT Image 1.5 und 0,25 Dollar bei GPT Image 1. Bei der Standardauflösung 1024 × 1024 in hoher Qualität ist das neue Modell mit 0,211 Dollar allerdings teurer als GPT Image 1.5 (0,133 Dollar).

OpenAI nennt als Anwendungsfälle lokalisierte Werbung, Infografiken, Bildungsinhalte, Design-Tools und kreative Plattformen. API-Ausgaben über 2K befinden sich noch in der Beta und können inkonsistente Ergebnisse liefern. In Codex soll die Bildgenerierung direkt im Arbeitsbereich nutzbar sein, ohne separaten API-Schlüssel.

Ursprünglicher Artikel:

OpenAIs neues Bildmodell wird bald erscheinen. Das Modell, das seit geraumer Zeit unter dem Codenamen "gpt-image-2" kursiert, wird bereits von einigen ChatGPT-Nutzern und auf Bestenlisten getestet. Auf Plattformen wie X und Reddit tauchten in den vergangenen Wochen erste Bilder auf, die kaum mehr von echten Fotos zu unterscheiden sind. Bislang scheinen nur Tester aus den USA oder mit US-Accounts Zugriff auf das Modell erhalten zu haben.

Das neue Modell soll insbesondere besser bei komplexen Bildern und Diagrammen mit Text sein. So soll es etwa detaillierte Screenshots generieren können. Entsprechend könnte das Modell auch für Werbung und Bildungsinhalte, etwa Infografiken, nützlich sein, da es Text zuverlässiger darstellt.

Zudem soll der typische "KI-Look" mit perfekter Beleuchtung und glatten Gesichtern behoben sein, der auch GPT-image 1.5 noch plagte. Bislang hatte hier Googles Nano Banana Pro die Nase deutlich vorn. OpenAI stellt sein neues Bildmodell offiziell heute Abend in einem Livestream ab 21 Uhr deutscher Zeit vor.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article