MiniMax M3 bündelt Coding, 1M-Kontext und Multimodalität in einem offenen Modell

6 days ago 10

Das chinesische KI-Unternehmen MiniMax hat sein neues Modell M3 vorgestellt. Es soll das erste Open-Weight-Modell sein, das Spitzenleistungen bei Programmieraufgaben, ein Kontextfenster von einer Million Tokens und native Multimodalität vereint.

Laut MiniMax lag diese Kombination bisher außerhalb der Reichweite offener Modelle und blieb proprietären Systemen wie Opus 4.7, GPT-5.5 oder Gemini 3.1 Pro vorbehalten. Möglich werde der Sprung durch einen neuen Aufmerksamkeitsmechanismus, der das Kontextfenster auf eine Million Tokens dehnt, ohne dass die Rechenkosten aus dem Ruder laufen. In internen Tests soll M3 zudem über viele Stunden hinweg eigenständig planen, debuggen und sich selbst korrigieren.

Benchmarks im Bereich der proprietären Spitzenmodelle

Auf SWE-Bench Pro, einem etablierten Benchmark für Softwareentwicklung, erreicht M3 nach Unternehmensangaben 59 Prozent und liegt damit vor GPT-5.5 und Gemini 3.1 Pro, aber knapp hinter Opus 4.7. Auch bei Terminalaufgaben und Tool-Nutzung ordnet sich M3 im Bereich der proprietären Spitzenmodelle ein. Bei autonomer Websuche zieht es mit 83,5 Punkten auf BrowseComp sogar an Opus 4.7 (79,3) vorbei. Anthropic hat mit Opus 4.8 inzwischen allerdings ein etwas stärkeres Modell nachgeschoben.

Balkendiagramm vergleicht MiniMax M3, Opus 4.7, GPT-5.5 und Gemini 3.1 Pro in zehn Coding- und Agent-Benchmarks wie SWE-Bench Pro, Terminal-Bench 2.1 und MCP Atlas.

Um näher an reale Entwicklerarbeit heranzukommen, hat MiniMax ein Simulator-Framework gebaut, das typische Verhaltensmuster nachbildet. Dazu gehören das Präzisieren von Anforderungen, die Diskussion von Lösungsansätzen, die Reaktion auf Zwischenergebnisse und das Verschieben von Aufgaben über mehrere Kontexte hinweg. Damit werde das Modell schon im Training mit Mehrrunden-Kollaboration konfrontiert, nicht nur mit einzelnen, klar umrissenen Anfragen.

Drei Tests für Langzeitautonomie

MiniMax beschreibt drei interne Anwendungen, die das Zusammenspiel der Fähigkeiten illustrieren sollen. Im ersten ließ das Team M3 ein Paper zu LLM-Finetuning eigenständig nachbauen. Das Modell arbeitete knapp zwölf Stunden ohne Eingriffe, lieferte 18 Commits und 23 Abbildungen und bestätigte die zentralen Ergebnisse des Papers.

Liniendiagramm zeigt den Reproduktionsscore von MiniMax M3 über zwölf Stunden beim Nachbau des Papers Learning Dynamics of LLM Finetuning, mit Endwert 0,650.

Im zweiten Test sollte M3 einen Rechenkernel für Matrixmultiplikationen auf Nvidia-Hopper-GPUs optimieren, einen der rechenintensivsten Bausteine im Inferenzbetrieb großer Modelle. Erfahrene Teams brauchen dafür laut MiniMax ein bis zwei Wochen. M3 bekam nur eine Aufgabenbeschreibung, ein Benchmark-Skript und ein nicht lauffähiges Code-Gerüst, also keine Referenzlösung zum Abschauen. Nach rund 24 Stunden hatte das Modell die Auslastung der Hopper-Hardware von 7,6 auf 71,3 Prozent gesteigert. Die meisten anderen getesteten Modelle gaben dagegen schon nach wenigen Dutzend Versuchen auf, während M3 mehrere Plateaus durchlief und erst beim 145. zur besten Lösung kam.

Bei der Optimierung eines FP8-Kernels erreicht M3 nach 147 Durchläufen 71,3 Prozent der Hopper-Spitzenleistung und zieht damit an Opus 4.7 vorbei. Anthropics Modell benötigt allerdings deutlich weniger Durchläufe.

Im dritten Test, PostTrainBench, sollte M3 vier Base-Modelle eigenständig trainieren, also Daten synthetisieren, trainieren, evaluieren und iterieren, ohne menschliches Zutun. Das Modell landete knapp hinter Opus 4.7 und GPT-5.5, aber deutlich vor den übrigen getesteten Modellen.

M3 wurde laut MiniMax von Beginn an mit gemischten Modalitäten trainiert. Besonders sogenannte Interleaved-Daten, bei denen Text und Bilder innerhalb einer Sequenz verschachtelt vorliegen, hätten sich als wichtiger erwiesen als zunächst angenommen. Nach einem Umbau der Datenpipeline lasse sich das Training auf die Größenordnung von 100 Billionen Tokens skalieren.

Neuer Aufmerksamkeitsmechanismus

Das technische Fundament dafür ist eine neue Aufmerksamkeits-Variante namens MiniMax Sparse Attention (MSA). Klassische Full Attention vergleicht jedes Token mit jedem anderen, der Rechenaufwand wächst dadurch quadratisch mit der Länge des Inputs. MSA umgeht das, indem es nicht mehr für jedes Token-Paar einen Aufmerksamkeitswert berechnet, sondern nur noch für ausgewählte Abschnitte.

Dazu wird der gespeicherte Kontext, im Fachjargon der Key-Value-Cache (KV-Cache), in Blöcke aufgeteilt. Eine vorgelagerte Filterstufe entscheidet, welche dieser Blöcke für die aktuelle Anfrage überhaupt relevant sind. Nur diese werden anschließend in die volle Berechnung einbezogen.

Schematische Darstellung der MiniMax Sparse Attention mit Index Branch für Top-k-Blockauswahl und Sparse Branch, der nur ausgewählte KV-Blöcke verarbeitet.

Hinzu kommt ein Trick auf Ebene der GPU-Berechnung. Üblicherweise lädt das Modell für jede einzelne Anfrage die jeweils passenden KV-Blöcke aus dem Speicher, viele Blöcke werden dabei mehrfach geholt. MSA dreht die Logik um und arbeitet die Blöcke der Reihe nach ab. Für jeden Block werden alle Anfragen gebündelt, die ihn benötigen. Jeder Block muss so nur einmal aus dem Speicher gelesen werden, und das in einem zusammenhängenden Zugriff statt in verstreuten Sprüngen. Laut MiniMax läuft die eigene Implementierung dadurch mehr als viermal so schnell wie konkurrierende Open-Source-Varianten.

In der Summe braucht M3 bei einer Million Tokens Kontext pro Token nur noch ein Zwanzigstel der Rechenleistung des Vorgängermodells. Der Eingabe-Prompt wird mehr als neunmal so schnell verarbeitet, die Antwort mehr als fünfzehnmal so schnell erzeugt.

Verfügbarkeit und Preis

M3 ist über die API von MiniMax verfügbar. Anfragen bis 512.000 Eingabe-Tokens werden zum Standardtarif abgerechnet, darüber gilt ein höherer Long-Context-Tarif. Ein Thinking-Modus lässt sich pro Anfrage aktivieren oder abschalten. Das Token-Plan-Abo beginnt bei 20 US-Dollar monatlich für rund 1,7 Milliarden Tokens und reicht bis 120 US-Dollar für 9,8 Milliarden Tokens. Die Modellgewichte und ein technischer Bericht sollen laut MiniMax innerhalb der kommenden zehn Tage auf Hugging Face und GitHub veröffentlicht werden.

Parallel hat MiniMax die hauseigene Agent-Anwendung MiniMax Code aktualisiert, auch diese soll künftig quelloffen werden.

Vor knapp drei Monaten hatte MiniMax mit M2.7 bereits ein Modell vorgestellt, das nach Unternehmensangaben aktiv an seiner eigenen Entwicklung beteiligt gewesen sein soll, etwa durch autonome Optimierungsläufe über mehr als 100 Runden und durch Übernahme von 30 bis 50 Prozent des Workflows im internen RL-Team.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den "KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article