KI wird teurer: Googles neues KI-Modell Gemini 3.5 Flash setzt den Trend fort

2 weeks ago 11

Googles neues Gemini 3.5 Flash ist deutlich leistungsfähiger als sein Vorgänger, kostet aber auch mehr als fünfmal so viel im Betrieb. Durch den hohen Token-Verbrauch bei agentischen Aufgaben übersteigen die Gesamtkosten in einem Benchmark sogar die des teureren Pro-Modells.

Google DeepMind hat mit Gemini 3.5 Flash die neueste Iteration seiner Flash-Modellfamilie veröffentlicht. Die Flash-Reihe galt bislang als günstigere und schnellere Alternative zu den leistungsstärkeren Pro-Modellen.

Mit der neuen Version verschiebt sich dieses Verhältnis: Laut einer Analyse von Artificial Analysis, die vorab Zugang zum Modell erhielt, kostet der Betrieb von Gemini 3.5 Flash im Benchmark-Durchlauf 5,5-mal mehr als bei Gemini 3 Flash und war sogar fast doppelt so teuer wie das Pro-Modell Gemini 3.1. Das Kontextfenster bleibt gegenüber dem Vorgänger unverändert bei einer Million Tokens.

Die Tokenpreise selbst haben sich verdreifacht: Google verlangt nun 1,50 Dollar pro Million Input-Tokens und 9,00 Dollar pro Million Output-Tokens, gegenüber 0,50 und 3,00 Dollar beim Vorgänger Gemini 3 Flash. Damit bleibt Gemini 3.5 Flash pro Token zwar günstiger als Gemini 3.1 Pro, das bei 2,00 beziehungsweise 12,00 Dollar pro Million Tokens liegt.

Doch in der Praxis dreht sich das Verhältnis um: Weil Gemini 3.5 Flash bei agentischen Aufgaben deutlich mehr Tokens verbraucht, übersteigen die Gesamtkosten laut Artificial Analysis die von Gemini 3.1 Pro um 75 Prozent.

Wie stark man die Preiserhöhung im Alltag spürt, dürfte von den eigenen Anwendungen abhängen. Aber Google folgt hier einem generellen Trend zur Verteuerung von KI: Anthropics Opus 4.7 hatte einen versteckten Preissprung von rund 30 bis 40 Prozent gegenüber dem Vorgängermodell durch höheren Tokenverbrauch.

Bei OpenAIs GPT-5.5 liegt laut ersten Messungen die Preissteigerung sogar bei etwa 50 bis 90 Prozent gegenüber 5.4; hier wurde der Tokenverbrauch zwar reduziert, dafür stiegen aber die Basispreise. Google hat jetzt gegenüber dem Vorgängermodell beides erhöht: den Preis und den Tokenverbrauch.

Für Entwickler und Unternehmen bedeutet das: Der reine Tokenpreis verliert als einzelner Vergleichsmaßstab an Aussagekraft. Entscheidend ist zunehmend, wie effizient ein Modell eine Aufgabe löst, also wie viele Tokens es dafür tatsächlich benötigt.

Intelligenter, aber die Halluzinationsrate bleibt hoch

Gemini 3.5 Flash erzielt 55 Punkte auf dem Artificial Analysis Intelligence Index, neun Punkte mehr als Gemini 3 Flash. Damit liegt das Modell laut der Analyse vor Grok 4.3 (high, 53 Punkte) und Claude Sonnet 4.6 (max, 52 Punkte). Die Verbesserungen erstrecken sich über nahezu alle getesteten Bereiche. Wie üblich gilt, dass Benchmarks nur ausgewählte Testszenarien abbilden und sich die tatsächliche Leistungsfähigkeit eines KI-Modells erst über einen längeren Testzeitraum im Alltag zeigt. Sie sind bestenfalls ein Indikator.

Im AA-Omniscience-Benchmark, der Wissensgenauigkeit und Halluzinationsneigung misst, verbessert sich Gemini 3.5 Flash um 11 Punkte. Die Halluzinationsrate sinkt auf 61 Prozent, ein Rückgang um 31 Prozentpunkte gegenüber Gemini 3 Flash. Das klingt nach einem großen Sprung, allerdings liegt die Rate damit immer noch weit über den besten Modellen: MiMo-V2.5-Pro und Grok 4.3 (high) erreichen laut den Benchmarks jeweils nur 25 Prozent.

Agentische Fähigkeiten als größter Sprung und größter Kostentreiber

Die größten Zugewinne verzeichnet Gemini 3.5 Flash bei agentischen Aufgaben, die historisch eine Schwäche der Gemini-Modelle waren. Im GDPval-AA-Benchmark, der reale agentische Arbeitsaufgaben mit Web- und Shell-Zugang testet, erreicht das Modell einen Elo-Wert von 1656. Das ist ein massiver Sprung gegenüber Gemini 3 Flash (1204) und Gemini 3.1 Pro (1314) und liegt nur knapp hinter GPT-5.4 (xhigh, 1674).

Allerdings hat diese Leistungssteigerung ihren Preis: Gemini 3.5 Flash benötigt im Durchschnitt 49 Turns pro Aufgabe, mehr als jedes andere getestete Modell. Zum Vergleich: Claude Opus 4.7 (max) kommt mit 45 Turns aus, GPT-5.4 (xhigh) mit 40, Gemini 3.1 Pro sogar nur mit 23. Diese höhere Zahl an Interaktionsschritten treibt den Input-Token-Verbrauch massiv in die Höhe.

Obwohl die Output-Token-Nutzung mit 73 Millionen nahezu unverändert gegenüber Gemini 3 Flash (72 Millionen) bleibt, steigt die Input-Token-Nutzung erheblich. Genau das ist der Grund, warum Gemini 3.5 Flash trotz niedrigerer Tokenpreise in der Gesamtrechnung teurer ausfällt als Gemini 3.1 Pro.

Beim Coding hängt Flash hinterher

Eine auffällige Schwäche zeigt Gemini 3.5 Flash ausgerechnet beim Programmieren, also dem Bereich, in dem schnelle, hochwertige und günstigere Modelle besonders gefragt sind. Im Artificial Analysis Coding Index, der die Benchmarks Terminal-Bench Hard und SciCode zusammenfasst, erreicht das Modell nur 45 Punkte.

Damit liegt es deutlich hinter Gemini 3.1 Pro Preview (55 Punkte) und weit abgeschlagen hinter den Spitzenreitern GPT-5.5 (xhigh, 59) und GPT-5.4 (xhigh, 57). Auch Claude Opus 4.7 (max, 53) und Claude Sonnet 4.5 (max, 51) schneiden besser ab.

Für ein Modell, das im Gesamt-Intelligence-Index auf Augenhöhe mit diesen Konkurrenten liegt, ist das eine bemerkenswerte Lücke. Die Stärken von Gemini 3.5 Flash liegen offensichtlich eher bei agentischen und multimodalen Aufgaben als beim reinen Code-Generieren.

Schnellstes Modell seiner Intelligenzklasse

Bei der Geschwindigkeit setzt Gemini 3.5 Flash neue Maßstäbe in seiner Leistungsklasse: Mit über 280 Output-Tokens pro Sekunde ist es laut Artificial Analysis rund 70 Prozent schneller als Gemini 3 Flash. In der Darstellung von Intelligenz gegen Geschwindigkeit, der sogenannten Pareto-Grenze, ist Gemini 3.5 Flash der klare Spitzenreiter. Kein anderes Modell mit vergleichbarer Intelligenz erreicht eine ähnliche Ausgabegeschwindigkeit.

Im Gegensatz zu vielen Konkurrenzmodellen unterstützt Gemini 3.5 Flash neben Text und Bild auch Video- und Spracheingabe. Claude Opus 4.7, Grok 4.3 und GPT-5.5 beschränken sich laut Artificial Analysis auf Bildeingabe. Im multimodalen Benchmark MMMU-Pro erzielt Gemini 3.5 Flash 84 Prozent, den höchsten je gemessenen Wert. Google belegt damit die beiden Spitzenplätze, da Gemini 3.1 Pro mit 82 Prozent auf Rang zwei folgt.

Die steigenden Preise spiegeln eine grundlegende Verschiebung wider: Aktuelle KI-Modelle werden zunehmend für komplexe, mehrstufige Aufgaben optimiert, bei denen sie eigenständig planen, Werkzeuge nutzen und über viele Interaktionsrunden hinweg Probleme lösen. Dieses agentische Verhalten erfordert mehr Rechenleistung pro Aufgabe als einfache Frage-Antwort-Interaktionen.

Steigende Kosten bei oft unklarem Ertrag: Unternehmen werden KI-Nutzung auf den Prüfstand stellen

Solange die Inferenzkosten für die zugrundeliegende Hardware nicht im gleichen Maß sinken, wie der Rechenaufwand pro Aufgabe steigt, dürften die Preise für leistungsfähigere Modelle weiter anziehen. Für Nutzer einfacherer Anwendungen bleiben günstigere Vorgängermodelle oder kleinere Alternativen wie Gemini 3.1 Flash-Lite verfügbar.

Für Unternehmen wird die Frage nach dem Return on Investment bei KI damit immer drängender und zugleich schwieriger zu beantworten. Bei isolierten Aufgaben wie der Codegenerierung oder Textübersetzung lässt sich der Nutzen noch vergleichsweise einfach messen: schnellere Fertigstellung, weniger Fehler, geringerer Personalaufwand.

Doch bei Wissensarbeit, die den Großteil der Bürotätigkeiten ausmacht, wird es ungleich komplexer. Wie beziffert man den Wert einer besseren Entscheidungsvorlage, einer gründlicheren Recherche oder eines Strategiepapiers, das mit KI-Unterstützung in der Hälfte der Zeit entstand? Was sind die Folgekosten der KI-Nutzung, etwa für Fehlerprüfung oder ausbleibendes Lernen?

KI-Produktivitätsgewinne verteilen sich diffus über Abteilungen und Prozesse, sind oft erst mit Verzögerung sichtbar und lassen sich kaum von anderen Einflussfaktoren isolieren. Die Entscheidung für teurere Modelle bleibt damit letztlich eine Wette auf schwer quantifizierbare Effizienzgewinne, getragen von der Annahme, dass KI-gestützt einfach die Arbeitsweise der Zukunft ist. Einen Deep Dive in das Thema gibt es in unserem KI-Radar #2.

Read Entire Article