OpenAI stellt GPT-5.5 vor und verspricht eine "neue Klasse von Intelligenz"

1 hour ago 1

OpenAI hat GPT-5.5 angekündigt, das als agentenbasiertes Modell komplexe Aufgaben eigenständig über mehrere Tools hinweg erledigen soll.

OpenAI hat GPT-5.5 vorgestellt und bezeichnet das Modell als "neue Klasse von Intelligenz für echte Arbeit". Das Modell soll komplexe Ziele verstehen, Werkzeuge nutzen, seine eigene Arbeit überprüfen und Aufgaben eigenständig bis zum Abschluss durchführen können. Es ist ab sofort für zahlende Nutzer in ChatGPT und Codex verfügbar.

Agentisches Arbeiten als Kernversprechen

Laut OpenAI ist GPT-5.5 besonders stark beim Schreiben und Debuggen von Code, bei der Online-Recherche, Datenanalyse, Erstellung von Dokumenten und Tabellen sowie bei der Bedienung von Software. Das Modell soll dabei eigenständig zwischen verschiedenen Tools wechseln, bis eine Aufgabe abgeschlossen ist.

Die größten Fortschritte sieht OpenAI in vier Bereichen: agentisches Coding, Computer-Use, Wissensarbeit und frühe wissenschaftliche Forschung. Diese Bereiche erforderten Reasoning über Kontext hinweg und die Fähigkeit, über längere Zeiträume Handlungen auszuführen, so das Unternehmen.

Im Terminal-Bench 2.0, einem Coding-Benchmark für solche agentischen Prozesse, erreicht GPT-5.5 laut OpenAI 82.7 Prozent und liegt damit 7.6 Prozentpunkte über dem Vorgänger GPT-5.4 (75.1 %). Anthropics Claude Opus 4.7 kommt auf 69.4 Prozent, Googles Gemini 3.1 Pro auf 68.5 Prozent.

Besonders auffällig ist der Abstand bei anspruchsvoller Mathematik: Im FrontierMath Tier 4 erzielt GPT-5.5 35.4 Prozent, während Claude Opus 4.7 bei 22.9 Prozent und Gemini 3.1 Pro bei 16.7 Prozent liegen. Die Pro-Variante GPT-5.5 Pro steigert diesen Wert auf 39.6 Prozent.

OpenAI betont, dass GPT-5.5 den Leistungsgewinn ohne Geschwindigkeitseinbußen erreiche. Das Modell soll die gleiche Per-Token-Latenz wie GPT-5.4 aufweisen und zudem deutlich weniger Tokens benötigen, um dieselben Codex-Aufgaben zu erledigen.

  GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
Terminal-Bench 2.0 82.7% 75.1% - - 69.4% 68.5%
Expert-SWE (Internal) 73.1% 68.5% - - - -
GDPval (wins or ties) 84.9% 83.0% 82.3% 82.0% 80.3% 67.3%
OSWorld-Verified 78.7% 75.0% - - 78.0% -
Toolathlon 55.6% 54.6% - - - 48.8%
BrowseComp 84.4% 82.7% 90.1% 89.3% 79.3% 85.9%
FrontierMath Tier 1-3 51.7% 47.6% 52.4% 50.0% 43.8% 36.9%
FrontierMath Tier 4 35.4% 27.1% 39.6% 38.0% 22.9% 16.7%
CyberGym 81.8% 79.0% - - 73.1% -

OpenAIs Benchmark-Vergleich für GPT-5.5. GPT-5.5 Pro wurde nur in ausgewählten Benchmarks getestet. | Tabelle: OpenAI

Auch bei langen Kontexten zeigt sich ein Fortschritt: Im MRCR-v2-Benchmark, der testet, wie zuverlässig ein Modell mehrere versteckte Informationen über sehr lange Texte hinweg wiederfindet, steigert sich GPT-5.5 bei Kontextlängen von 512K bis 1M Tokens auf 74.0 Prozent, während GPT-5.4 bei 36.6 Prozent lag. Beim Graphwalks-BFS-Test mit einer Million Tokens springt GPT-5.5 von 9.4 Prozent (GPT-5.4) auf 45.4 Prozent.

Die Dominanz ist jedoch keineswegs lückenlos. Beim SWE-Bench Pro etwa, der echte GitHub-Issue-Resolution testet, liegt Claude Opus 4.7 mit 64.3 Prozent vor GPT-5.5 (58.6 %). OpenAI weist allerdings darauf hin, dass Anthropic selbst Anzeichen von Memorisierung bei einem Teil der Aufgaben eingeräumt habe. Eine Übersicht aller Benchmarks ist hier verfügbar.

Das Modell wurde laut dem Unternehmen gemeinsam mit NVIDIA GB200- und GB300-NVL72-Systemen entwickelt und optimiert. GPT-5.5 und Codex sollen bei der Optimierung der eigenen Serving-Infrastruktur geholfen haben. Codex habe Produktions-Traffic-Muster analysiert und eigene Heuristik-Algorithmen für Load-Balancing geschrieben. Das Ergebnis sei eine Steigerung der Token-Generierungsgeschwindigkeit um über 20 Prozent. OpenAI formuliert es so: "Das Modell half, die Infrastruktur zu verbessern, die es selbst bedient."

GPT-5.5 Pro als "Forschungspartner"

Neben dem Standardmodell führt OpenAI GPT-5.5 Pro ein. Durch sogenannte Full-Stack-Inference-Verbesserungen sei das leistungsfähigere Modell nun deutlich praxistauglicher für anspruchsvolle Aufgaben. Frühe Tester hätten es als iterativen "Forschungspartner" beschrieben, der besonders gut funktioniere, wenn er mit kontextuellen Inputs aus Dokumenten und Plugins gefüttert werde. Die Benchmark-Daten zeigen GPT-5.5 Pro nur in drei von neun Tests: BrowseComp, FrontierMath Tier 1–3 und FrontierMath Tier 4. In allen drei Fällen übertrifft es das Basismodell.

Cybersecurity-Fähigkeiten als "High" eingestuft

OpenAI stuft die biologischen, chemischen und Cybersecurity-Fähigkeiten von GPT-5.5 in seinem Preparedness Framework wie bei den letzten Vorgängern als "High" ein, aber nicht als "Critical". Das Modell zeige gegenüber GPT-5.4 verbesserte Cybersecurity-Fähigkeiten, etwa im CyberGym-Benchmark (81.8 % vs. 79.0 %) und bei internen Capture-the-Flag-Aufgaben (88.1 % vs. 83.7 %).

Gleichzeitig führt OpenAI strengere Classifier für potenzielles Cyber-Risiko ein, die laut dem Unternehmen anfangs zu Ablehnungen führen könnten. Über das Programm Trusted Access for Cyber sollen verifizierte Sicherheitsforscher erweiterten Zugang zu den Cybersecurity-Fähigkeiten erhalten. OpenAI arbeite zudem mit Regierungspartnern am Schutz kritischer Infrastruktur. Eine System-Card mit weiteren Sicherheitsdetails ist hier verfügbar.

Verfügbarkeit zunächst für zahlende Nutzer, teurer als GPT-5.4

GPT-5.5 Thinking ist laut OpenAI ab sofort für Plus-, Pro-, Business- und Enterprise-Nutzer in ChatGPT verfügbar. GPT-5.5 Pro steht Pro-, Business- und Enterprise-Nutzern zur Verfügung. In Codex ist GPT-5.5 für Plus, Pro, Business, Enterprise, Edu und Go mit einem 400K-Kontextfenster nutzbar. Ein Fast-Mode generiert Tokens 1,5 × schneller bei 2.5-fachen Kosten.

Für die API kündigt OpenAI Preise von 5 Dollar pro Million Input-Tokens und 30 Dollar pro Million Output-Tokens an, bei einem Kontextfenster von einer Million Tokens. GPT-5.5 Pro soll 30 Dollar pro Million Input-Tokens und 180 Dollar pro Million Output-Tokens kosten. Batch- und Flex-Verarbeitung gibt es zum halben Preis, Priority-Verarbeitung zum 2.5-fachen.

OpenAI räumt ein, dass GPT-5.5 teurer ist als GPT-5.4, argumentiert aber, das Modell sei effizienter und benötige weniger Tokens für vergleichbare Aufgaben. Wann kostenlose Nutzer und die API Zugang erhalten, bleibt offen. OpenAI schreibt lediglich, der API-Zugang komme "sehr bald".

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article