Qwen3.7-Max löst komplexe Entwicklungsaufgabe in 1158 autonomen Schritten

2 weeks ago 9

Mit Qwen3.7-Max stellt Alibabas Qwen-Team ein proprietäres Modell vor, das auf agentische Aufgaben zugeschnitten ist. Ein Praxistest zeigt das Modell bei einer 35-stündigen, vollständig autonomen Kernel-Optimierung.

Wie schon bei den Vorläufern Qwen3-Max und Qwen3.6-Plus erscheint auch die neue Max-Variante ausschließlich über die API von Alibaba Cloud Model Studio. Lange Zeit hatte Alibaba seine Qwen-Modelle als Open Source veröffentlicht, doch dieser Kurs hat sich zuletzt geändert. Das letzte offen veröffentlichte Flaggschiff war Qwen3.5-397B-A17B vom Februar 2026.

Qwen3.7-Max unterstützt OpenAI- und Anthropic-kompatible Schnittstellen und lässt sich direkt in Claude Code, OpenClaw oder Qwen Code einbinden. Laut Qwen-Team zielt das Modell auf vier Anwendungsfelder. Es soll als Coding-Agent vom Frontend-Prototyp bis zu komplexen Software-Projekten mit mehreren Dateien funktionieren, Büroaufgaben über externe Werkzeuge automatisieren, über lange Zeiträume autonom arbeiten und dabei in unterschiedlichen Agenten-Frameworks möglichst gleichbleibende Leistung zeigen.

Ein Kernel-Experiment über 35 Stunden

Qwen3.7-Max sollte für die Open-Source-Inferenz-Software SGLang einen hardwarenahen Kernel für die Attention-Berechnung optimieren. Als Hardware diente eine Cloud-Instanz mit T-Head-ZW-M890-Beschleunigern, einer KI-Chip-Plattform aus Alibabas eigenem Halbleiterhaus.

Diese Architektur hatte das Modell laut Qwen-Team im Training nie gesehen. Es startete ohne Messdaten, ohne Hardware-Dokumentation und ohne Beispiel-Code, lediglich mit der bestehenden, in der Programmiersprache Triton geschriebenen Referenzimplementierung als Ausgangspunkt.

Über rund 35 Stunden kontinuierlicher autonomer Arbeit führte das Modell 432 Tests des Kernels mit insgesamt 1158 Werkzeugaufrufen durch. Es kompilierte, vermaß und überarbeitete den Code iterativ, diagnostizierte Fehler beim Übersetzen und benannte Performance-Engpässe selbst. Am Ende stand laut den Qwen-Forschern ein durchschnittlich zehnfacher Geschwindigkeitsgewinn gegenüber der Referenzimplementierung.

Im gleichen Setup erreichten Konkurrenzmodelle deutlich geringere Werte. GLM 5.1 kam auf einen 7,3-fachen Speedup, Kimi K2.6 auf das Fünffache, DeepSeek V4 Pro auf das 3,3-fache und das Vorgängermodell Qwen3.6-Plus nur auf das 1,1-fache. Modelle, die früher abbrachen, beendeten ihre Sitzung freiwillig, nachdem sie fünf aufeinanderfolgende Runden keine Werkzeugaufrufe mehr ausgelöst hatten. Auf dem standardisierten KernelBench-L3-Benchmark erzeugt Qwen3.7-Max nach eigenen Angaben in 96 Prozent der Fälle beschleunigte Kernel, knapp hinter Anthropics Opus 4.6 mit 98 Prozent.

Trennung von Aufgabe, Werkzeug-Umgebung und Prüfer

Methodisch baut Qwen3.7-Max auf einem Trainingsansatz auf, den das Team bereits mit Qwen3.5 eingeführt hatte. Jede Trainingsaufgabe wird in drei unabhängige Bestandteile zerlegt. Die eigentliche Aufgabe, die Werkzeug-Umgebung und der Prüfer für das Ergebnis lassen sich beliebig neu kombinieren.

Zwei Balkendiagramme für die Benchmarks QwenClawBench und CoWorkBench. Verglichen werden Claude Opus 4.6, Qwen3.6-Plus und Qwen3.7-Max. Qwen3.7-Max erreicht in drei verschiedenen Agenten-Umgebungen (OpenClaw, Claude Code, Hermes) eng beieinanderliegende Werte zwischen 64,3 und 70,7 auf QwenClawBench sowie 66,0 bis 68,3 auf CoWorkBench, während Qwen3.6-Plus mit 57,2 und 64,5 deutlich darunter liegt.

Dieselbe Aufgabe wird also in verschiedenen Werkzeug-Umgebungen geübt und mit verschiedenen Prüfverfahren bewertet. Das Modell soll dadurch gezwungen werden, allgemein anwendbare Lösungsstrategien zu lernen statt Abkürzungen, die nur in einer bestimmten Umgebung funktionieren. In QwenClawBench und CoWorkBench bleibe die Leistung von Qwen3.7-Max deshalb unabhängig von der Testumgebung stabil, so das Team.

Reward-Hacking-Überwachung in eigener Sache

Das Qwen-Team setzte Qwen3.7-Max auch als Beobachter im eigenen Training ein. Über mehr als 80 Stunden überwachte das Modell Trainingsläufe für Software-Engineering-Aufgaben und führte mehr als 10.000 Auswertungen durch. Dabei suchte es nach Tricks, mit denen das trainierte Modell sich Belohnungen erschleicht, etwa indem es die korrekten Antworten direkt von GitHub abruft. Insgesamt formulierte Qwen3.7-Max 13 neue Erkennungsregeln und markierte 1.618 solcher Fälle.

Diagramm über 86 Stunden autonomer Laufzeit mit zwei Kurven. Die grüne Linie zeigt die kumulierten erkannten Reward-Hacking-Fälle, die bis auf rund 1.600 ansteigt, die blaue Linie die RL-Performance. Grüne Sterne markieren neue Erkennungsregeln bis Regel 13, etwa für das Kopieren externer Quelldateien, die Gerrit-API-Suche oder das Abrufen direkter Patch-URLs. Kopfzeilen nennen 86 Stunden Laufzeit, 13.952 Trajektorien, 11.196 Prüf-Aufrufe und 1.618 erkannte Fälle.

Ein Jahr in der Simulation

Für die Bewertung langfristiger Planung nutzte das Team YC-Bench, einen Benchmark, der den einjährigen Lebenszyklus eines Startups simuliert. Das Modell muss über hunderte Entscheidungsrunden hinweg Personal verwalten, Verträge prüfen, böswillige Kunden erkennen und gleichzeitig die Gewinnspanne gegen steigende Lohnkosten halten.

Qwen3.7-Max erzielte einen Gesamtumsatz von 2,08 Millionen US-Dollar und schloss 237 Aufgaben ab. Vorgänger Qwen3.6-Plus kam auf 1,05 Millionen, Qwen3.5-Plus auf 352.000 US-Dollar.

Benchmark-Werte auf Opus-Niveau

In vielen Benchmarks positioniert sich Qwen3.7-Max meist gleichauf oder leicht vor Claude Opus 4.6 Max, Kimi K2.6 Thinking, GLM-5.1 Thinking und DeepSeek V4 Pro Max. Auf SWE-Verified erreicht das Modell 80,4 Punkte und liegt damit nahezu auf Augenhöhe mit Opus 4.6 Max (80,8) und DeepSeek V4 Pro Max (80,6). Bei den Mathe- und Wissenschafts-Benchmarks GPQA Diamond (92,4), HMMT 2026 Februar (97,1) und Apex (44,5) führt Qwen3.7-Max die Vergleichstabelle des Anbieters an.

Raster aus zwölf Balkendiagrammen, das Qwen3.7-Max mit Qwen3.6-Plus, DeepSeek V4 Pro Max, GLM-5.1, Kimi K2.6 und Claude Opus 4.6 Max vergleicht. Qwen3.7-Max erreicht Spitzenwerte unter anderem bei Terminal-Bench 2.0 (69,7), SWE-bench Pro (60,6), SWE-bench Multilingual (78,3), MCP-Atlas (76,4), HLE (41,4), Apex Math Reasoning (44,5) und IFBench (79,1). Bei NL2Repo (47,6), ClawEval (70,4) und CoWorkBench (68,2) liegt Claude Opus 4.6 Max vorn.

Oben ein Liniendiagramm, das das durchschnittliche Ranking (niedriger ist besser) gegen die Zahl der Trainingsumgebungen aufträgt. Qwen3.7-Max-Thinking erreicht mit mehr als 8.000 Umgebungen Rang rund drei, oberhalb von DeepSeek V4 Pro Max, GLM-5.1, Kimi K2.6 und Qwen3.6-Plus, aber unterhalb von Claude 4.6 Opus Max. Darunter sechs kleinere Kurven für einzelne Benchmarks wie BFCLV4, VITA, DeepPlanning, MCP-Atlas, ClawEval und QwenClawBench, die mit steigender Umgebungszahl überwiegend zunehmen.

Ein Teil der zitierten Benchmarks ist allerdings hauseigen, darunter QwenWebDev, QwenClawBench, CoWorkBench und QwenWorldBench. Die Ergebnisse stammen ausschließlich aus der Selbstevaluation des Qwen-Teams. Eine weitere Analyse der Scaling-Dynamik und Methodik soll in einem kommenden technischen Bericht folgen.

Neben den Standard-Anwendungsfällen demonstriert das Team Qwen3.7-Max fast nebenbei ("one more thing") auch als Steuerungsmodell für einen vierbeinigen Roboter. Über ein eigenes Robotik-Framework und ein zugehöriges Navigationsmodell steuert das Sprachmodell den Roboter durch physische Umgebungen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article