Mit Qwen3.7-Max stellt Alibabas Qwen-Team ein proprietäres Modell vor, das auf agentische Aufgaben zugeschnitten ist. Ein Praxistest zeigt das Modell bei einer 35-stündigen, vollständig autonomen Kernel-Optimierung.
Wie schon bei den Vorläufern Qwen3-Max und Qwen3.6-Plus erscheint auch die neue Max-Variante ausschließlich über die API von Alibaba Cloud Model Studio. Lange Zeit hatte Alibaba seine Qwen-Modelle als Open Source veröffentlicht, doch dieser Kurs hat sich zuletzt geändert. Das letzte offen veröffentlichte Flaggschiff war Qwen3.5-397B-A17B vom Februar 2026.
Qwen3.7-Max unterstützt OpenAI- und Anthropic-kompatible Schnittstellen und lässt sich direkt in Claude Code, OpenClaw oder Qwen Code einbinden. Laut Qwen-Team zielt das Modell auf vier Anwendungsfelder. Es soll als Coding-Agent vom Frontend-Prototyp bis zu komplexen Software-Projekten mit mehreren Dateien funktionieren, Büroaufgaben über externe Werkzeuge automatisieren, über lange Zeiträume autonom arbeiten und dabei in unterschiedlichen Agenten-Frameworks möglichst gleichbleibende Leistung zeigen.
Ein Kernel-Experiment über 35 Stunden
Qwen3.7-Max sollte für die Open-Source-Inferenz-Software SGLang einen hardwarenahen Kernel für die Attention-Berechnung optimieren. Als Hardware diente eine Cloud-Instanz mit T-Head-ZW-M890-Beschleunigern, einer KI-Chip-Plattform aus Alibabas eigenem Halbleiterhaus.
Diese Architektur hatte das Modell laut Qwen-Team im Training nie gesehen. Es startete ohne Messdaten, ohne Hardware-Dokumentation und ohne Beispiel-Code, lediglich mit der bestehenden, in der Programmiersprache Triton geschriebenen Referenzimplementierung als Ausgangspunkt.
Über rund 35 Stunden kontinuierlicher autonomer Arbeit führte das Modell 432 Tests des Kernels mit insgesamt 1158 Werkzeugaufrufen durch. Es kompilierte, vermaß und überarbeitete den Code iterativ, diagnostizierte Fehler beim Übersetzen und benannte Performance-Engpässe selbst. Am Ende stand laut den Qwen-Forschern ein durchschnittlich zehnfacher Geschwindigkeitsgewinn gegenüber der Referenzimplementierung.
Im gleichen Setup erreichten Konkurrenzmodelle deutlich geringere Werte. GLM 5.1 kam auf einen 7,3-fachen Speedup, Kimi K2.6 auf das Fünffache, DeepSeek V4 Pro auf das 3,3-fache und das Vorgängermodell Qwen3.6-Plus nur auf das 1,1-fache. Modelle, die früher abbrachen, beendeten ihre Sitzung freiwillig, nachdem sie fünf aufeinanderfolgende Runden keine Werkzeugaufrufe mehr ausgelöst hatten. Auf dem standardisierten KernelBench-L3-Benchmark erzeugt Qwen3.7-Max nach eigenen Angaben in 96 Prozent der Fälle beschleunigte Kernel, knapp hinter Anthropics Opus 4.6 mit 98 Prozent.
Trennung von Aufgabe, Werkzeug-Umgebung und Prüfer
Methodisch baut Qwen3.7-Max auf einem Trainingsansatz auf, den das Team bereits mit Qwen3.5 eingeführt hatte. Jede Trainingsaufgabe wird in drei unabhängige Bestandteile zerlegt. Die eigentliche Aufgabe, die Werkzeug-Umgebung und der Prüfer für das Ergebnis lassen sich beliebig neu kombinieren.
Cross-Harness-Test: Während Qwen3.6-Plus je nach Agenten-Framework schwankt, liefert Qwen3.7-Max in OpenClaw, Claude Code (CC) und Hermes nach Angaben des Teams nahezu konstante Werte und liegt auf QwenClawBench vor Claude Opus 4.6. | Bild: QwenDieselbe Aufgabe wird also in verschiedenen Werkzeug-Umgebungen geübt und mit verschiedenen Prüfverfahren bewertet. Das Modell soll dadurch gezwungen werden, allgemein anwendbare Lösungsstrategien zu lernen statt Abkürzungen, die nur in einer bestimmten Umgebung funktionieren. In QwenClawBench und CoWorkBench bleibe die Leistung von Qwen3.7-Max deshalb unabhängig von der Testumgebung stabil, so das Team.
Reward-Hacking-Überwachung in eigener Sache
Das Qwen-Team setzte Qwen3.7-Max auch als Beobachter im eigenen Training ein. Über mehr als 80 Stunden überwachte das Modell Trainingsläufe für Software-Engineering-Aufgaben und führte mehr als 10.000 Auswertungen durch. Dabei suchte es nach Tricks, mit denen das trainierte Modell sich Belohnungen erschleicht, etwa indem es die korrekten Antworten direkt von GitHub abruft. Insgesamt formulierte Qwen3.7-Max 13 neue Erkennungsregeln und markierte 1.618 solcher Fälle.
Über 86 Stunden autonomer Laufzeit prüfte Qwen3.7-Max nach Angaben des Teams 13.952 Trajektorien und meldete 1.618 Versuche, bei denen das trainierte Modell sich Belohnungen erschlich. Mit jeder neuen Erkennungsregel (grüne Sterne) stieg die Zahl der gefundenen Fälle. | Bild: QwenEin Jahr in der Simulation
Für die Bewertung langfristiger Planung nutzte das Team YC-Bench, einen Benchmark, der den einjährigen Lebenszyklus eines Startups simuliert. Das Modell muss über hunderte Entscheidungsrunden hinweg Personal verwalten, Verträge prüfen, böswillige Kunden erkennen und gleichzeitig die Gewinnspanne gegen steigende Lohnkosten halten.
Qwen3.7-Max erzielte einen Gesamtumsatz von 2,08 Millionen US-Dollar und schloss 237 Aufgaben ab. Vorgänger Qwen3.6-Plus kam auf 1,05 Millionen, Qwen3.5-Plus auf 352.000 US-Dollar.
Benchmark-Werte auf Opus-Niveau
In vielen Benchmarks positioniert sich Qwen3.7-Max meist gleichauf oder leicht vor Claude Opus 4.6 Max, Kimi K2.6 Thinking, GLM-5.1 Thinking und DeepSeek V4 Pro Max. Auf SWE-Verified erreicht das Modell 80,4 Punkte und liegt damit nahezu auf Augenhöhe mit Opus 4.6 Max (80,8) und DeepSeek V4 Pro Max (80,6). Bei den Mathe- und Wissenschafts-Benchmarks GPQA Diamond (92,4), HMMT 2026 Februar (97,1) und Apex (44,5) führt Qwen3.7-Max die Vergleichstabelle des Anbieters an.
Über zwölf Benchmarks hinweg liegt Qwen3.7-Max nach Angaben des Anbieters meist vorn oder gleichauf mit Claude Opus 4.6 Max, DeepSeek V4 Pro Max, GLM-5.1, Kimi K2.6 und dem eigenen Vorgänger Qwen3.6-Plus. Bei NL2Repo, ClawEval und CoWorkBench zieht allerdings Claude Opus 4.6 vorbei. | Bild: Qwen
Mit wachsender Zahl an Trainingsumgebungen verbessert sich laut Qwen-Team das durchschnittliche Ranking von Qwen3.7-Max-Thinking über acht Benchmarks hinweg und zieht an Konkurrenten wie DeepSeek V4 Pro Max, GLM-5.1 und Kimi K2.6 vorbei, bleibt aber knapp hinter Claude 4.6 Opus Max. | Bild: QwenEin Teil der zitierten Benchmarks ist allerdings hauseigen, darunter QwenWebDev, QwenClawBench, CoWorkBench und QwenWorldBench. Die Ergebnisse stammen ausschließlich aus der Selbstevaluation des Qwen-Teams. Eine weitere Analyse der Scaling-Dynamik und Methodik soll in einem kommenden technischen Bericht folgen.
Neben den Standard-Anwendungsfällen demonstriert das Team Qwen3.7-Max fast nebenbei ("one more thing") auch als Steuerungsmodell für einen vierbeinigen Roboter. Über ein eigenes Robotik-Framework und ein zugehöriges Navigationsmodell steuert das Sprachmodell den Roboter durch physische Umgebungen.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.



