GPT-5.5 führt KI-Ranglisten an, kostet 20 Prozent mehr und halluziniert häufiger als die Konkurrenz

1 month ago 14

GPT-5.5 ist über die API rund 20 Prozent teurer als GPT-5.4. Das Modell führt die KI-Ranglisten an, hat aber ein Halluzinationsproblem.

Der API-Preis hat sich auf dem Papier auf 5 beziehungsweise 30 Dollar pro Million Input- und Output-Tokens verdoppelt. Laut dem Benchmarking-Dienst Artificial Analysis verbraucht das Modell jedoch rund 40 Prozent weniger Tokens, was den Preisanstieg teilweise auffängt. Insgesamt fällt der Anstieg geringer aus als bei Anthropics Opus 4.7. Das kostet auf dem Papier zwar so viel wie sein Vorgängermodell, verbraucht aber rund 35 bis 40 Prozent mehr Tokens.

GPT-5.5 bringt OpenAI zugleich an die Spitze der KI-Ranglisten zurück. Das Modell führt den Artificial Analysis Intelligence Index mit drei Punkten Vorsprung an.

GPT-5.5 führt mit 60 Punkten, gefolgt von Claude Opus 4.7, Gemini 3.1 Pro Preview und GPT-5.4 mit jeweils 57 Punkten. Weitere Modelle wie Kimi K2.6, Muse Spark, Qwen3.6 Max Preview und Claude Sonnet 4.6 folgen mit Werten zwischen 52 und 24 Punkten.

Gutes Preis-Leistungs-Verhältnis, aber Benchmarks sind nicht alles

GPT-5.5 erreicht auf mittlerer Rechenstufe dieselbe Punktzahl wie Claude Opus 4.7 auf Maximum, bei einem Viertel der Kosten. Rund 1.200 statt 4.800 Dollar.

Googles Gemini 3.1 Pro Preview erzielt vergleichbare Werte sogar noch günstiger, für etwa 900 Dollar. Benchmark-Resultate bilden allerdings nur einen Teil der Realität ab. Die Praxis der letzten Monate zeigt, dass die neueste Generation der OpenAI- und Anthropic-Modelle Gemini in vielen Fällen übertrifft.

GPT-5.4 mini verbraucht mit 230 Millionen die meisten Tokens, gefolgt von Claude Sonnet 4.6 mit 200 Millionen. GPT-5.5 auf xhigh liegt bei 75 Millionen Tokens, der Vorgänger GPT-5.4 auf xhigh bei 120 Millionen.

Hohe Halluzinationsrate als Schwachstelle

Schwachstelle des neuen OpenAI-Modells sind Halluzinationen, also frei erfundene Antworten. Im AA-Omniscience-Benchmark von Artificial Analysis, der Faktenwissen prüft und falsche Antworten bestraft, erreicht GPT-5.5 zwar die höchste Genauigkeit aller Modelle mit 57 Prozent. Die Halluzinationsrate liegt jedoch bei 86 Prozent. Das Modell antwortet also vielfach auch dann, wenn es die richtige Antwort nicht kennt.

Im AA-Omniscience Index führt Gemini 3.1 Pro Preview mit 33 Punkten. Bei der Genauigkeit liegt GPT-5.5 mit 57 Prozent vorn. Bei der Halluzinationsrate schneidet Grok 4.20 mit 17 Prozent am besten ab, während GPT-5.5 mit 86 Prozent eine der höchsten Raten aufweist. Claude Opus 4.7 liegt bei 36 Prozent.

Claude Opus 4.7 liegt hier bei 36 Prozent, Gemini 3.1 Pro Preview bei 50 Prozent. Die Fähigkeit, bei Unsicherheit nicht zu antworten oder diese einzuräumen, ist eine wünschenswerte Eigenschaft eines KI-Modells. Nach diesem Benchmark-Resultat ist GPT-5.5 hier eher Rück- als Fortschritt.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article