Kimi K2.7 Code: Neues offenes Modell will mit Kampfpreisen gegen OpenAI und Anthropic punkten

3 hours ago 1

Moonshot AI hat mit Kimi K2.7-Code ein neues KI-Modell veröffentlicht, das speziell auf Programmieraufgaben und agentenbasierte Coding-Workflows ausgerichtet ist. Das Modell baut auf dem Vorgänger Kimi K2.6 auf und ist als Open-Source-Version auf Hugging Face verfügbar.

Laut Moonshot AI soll K2.7-Code primär bei langfristigen, komplexen Software-Engineering-Aufgaben besser abschneiden als sein Vorgänger. Für allgemeine Aufgaben jenseits der Programmierung empfiehlt das Unternehmen weiterhin K2.6. Kimi ist auch das Modell, das der Coding-Tool-Anbieter Cursors in einer angepassten Form weiterverkauft.

Verbesserungen gegenüber dem Vorgänger, aber Rückstand auf die Spitze

Auf dem hauseigenen Kimi Code Bench v2 steigt die Leistung um 21,8 Prozent (von 50,9 auf 62,0), auf dem Program Bench um 11,0 Prozent (von 48,3 auf 53,6) und auf dem MLS Bench Lite um 31,5 Prozent (von 26,7 auf 35,1). Auch bei agentischen Benchmarks legt K2.7-Code zu. Auf dem MCP Atlas erreicht es 76,0 (zuvor 69,4), auf dem MCPMark Verified 81,1 (zuvor 72,8).

Im direkten Vergleich mit GPT-5.5 und Claude Opus 4.8 liegt K2.7-Code allerdings bei den meisten Coding-Benchmarks zurück. GPT-5.5 erreicht auf dem Program Bench 69,1 gegenüber 53,6 bei K2.7-Code, auf dem Kimi Code Bench v2 sind es 69,0 gegenüber 62,0.

Der Program Bench ist dabei ein besonders anspruchsvoller Test. Agenten müssen das Verhalten eines Programms allein aus einer kompilierten Binärdatei und deren Dokumentation nachbauen, ohne Zugang zum Quellcode, Decompilierung oder Internet.

Einen Ausreißer gibt es beim MCPMark Verified, einem Benchmark, der KI-Agenten in fünf realen Softwareumgebungen testet, darunter Notion, GitHub, Dateisysteme, Postgres-Datenbanken und Browser-Automatisierung via Playwright. Hier übertrifft K2.7-Code mit 81,1 Claude Opus 4.8 (76,4), liegt aber deutlich hinter GPT-5.5 (92,9). Wie immer gilt, dass Benchmark-Resultate und Praxiserfahrung voneinander abweichen können.

Billion-Parameter-Architektur mit sparsamer Aktivierung

K2.7-Code basiert laut der Modellkarte auf einer Mixture-of-Experts-Architektur (MoE) mit insgesamt einer Billion Parametern, von denen pro Token nur 32 Milliarden aktiviert werden. Das Modell verfügt über 384 Experten, von denen jeweils acht pro Token ausgewählt werden. Die Kontextlänge beträgt 256.000 Token.

Das Modell ist multimodal und kann neben Text auch Bilder und Videos verarbeiten. Dafür nutzt es einen eigenen Vision-Encoder namens MoonViT mit 400 Millionen Parametern. Die Architektur ist identisch mit der von K2.5 und K2.6, bestehende Deployment-Konfigurationen lassen sich also direkt wiederverwenden.

Eine der zentralen Verbesserungen betrifft laut Moonshot AI die Effizienz des Denkprozesses. K2.7-Code verbrauche rund 30 Prozent weniger Thinking-Tokens als K2.6 und neige damit weniger zum sogenannten "Overthinking". Das Modell erzwingt den Thinking-Modus und den sogenannten "preserve_thinking"-Modus, der vollständige Reasoning-Inhalte über mehrere Gesprächsrunden hinweg beibehält. Das soll die Leistung in agentenbasierten Coding-Szenarien verbessern.

Moonshot AI hat außerdem einen "6x High-Speed Mode" angekündigt, der in Kürze verfügbar sein soll. Das Modell kann über die Kimi API, Kimi Code CLI sowie über Inferenz-Engines wie vLLM und SGLang betrieben werden. Die Modellgewichte stehen auf Hugging Face zum Download bereit, eine native INT4-Quantisierung ist ebenfalls verfügbar, die den Betrieb auf weniger leistungsstarker oder günstigerer Hardware ermöglicht.

Drastisch günstiger als die westliche Konkurrenz

Die API-Preise für K2.7-Code liegen bei 0,95 US-Dollar pro Million Input-Tokens und 4,00 US-Dollar pro Million Output-Tokens. Bei Cache-Treffern sinkt der Input-Preis auf 0,19 US-Dollar pro Million Tokens. Damit liegt K2.7-Code preislich auf dem gleichen Input-Niveau wie der Vorgänger K2.6 (0,95/4,00 US-Dollar, Cache 0,16 US-Dollar).

Im Vergleich zur Konkurrenz ist K2.7-Code drastisch günstiger. GPT-5.5 kostet 5,00 US-Dollar pro Million Input-Tokens und 30,00 US-Dollar pro Million Output-Tokens, Claude Opus 4.8 liegt bei 5,00/25,00 US-Dollar, und Anthropics jüngstes und derzeit abgestelltes Spitzenmodell Claude Fable 5 verlangt sogar 10,00/50,00 US-Dollar pro Million Tokens. Beim Output ist Fable 5 damit mehr als zwölfmal so teuer.

Modell Input / MTok Output / MTok

Kimi K2.7-Code	0,95 $	4,00 $
Kimi K2.6	0,95 $	4,00 $
Claude Opus 4.8	5,00 $	25,00 $
GPT-5.5	5,00 $	30,00 $
Claude Fable 5	10,00 $	50,00 $

Heißt: Selbst wenn K2.7-Code in einigen Benchmarks hinter den westlichen Spitzenmodellen zurückbleibt, kann es zum selben Budget um ein Vielfaches häufiger eingesetzt werden. Die entscheidende Frage ist damit weniger, ob es das beste Modell ist, sondern ob es gut genug ist.

Das lässt sich nur auf einer Fall-zu-Fall-Basis und mit eigenen, anwendungsspezifischen Benchmarks sinnvoll beurteilen. Bei häufiger Nutzung dürften sich solche Evaluierungen angesichts der Preisunterschiede schnell rentieren. Dass Kosten pro Token zunehmend zu einem ebenso wichtigen Wettbewerbsfaktor werden wie die reine Modellqualität, ist ein weiteres Anzeichen für das Entstehen einer Tokenökonomie.

Modifizierte MIT-Lizenz mit Großkunden-Klausel

Das Modell steht unter einer modifizierten MIT-Lizenz, die grundsätzlich freie Nutzung, Modifikation und Weiterverbreitung erlaubt. Die einzige Einschränkung betrifft Großkunden. Wer K2.7-Code oder darauf basierende Derivate in kommerziellen Produkten einsetzt, die mehr als 100 Millionen monatlich aktive Nutzer haben oder mehr als 20 Millionen US-Dollar monatlichen Umsatz generieren, muss "Kimi K2.7-Code" prominent in der Benutzeroberfläche anzeigen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article