Inception Mercury 2: Erstes Diffusions-basiertes Reasoning-Modell ist extrem schnell

1 week ago 2

Das KI-Start-up Inception launcht das erste Diffusions-basierte Reasoning-KI-Modell.

Mercury 2 erzeugt Antworten nicht wie übliche Sprachmodelle linear Wort für Wort, sondern verfeinert mehrere Textbausteine gleichzeitig; das Startup vergleicht das mit einem Lektor, der einen ganzen Entwurf auf einmal überarbeitet, anstatt nur einzelne Wörter zu betrachten.

Laut Inception ist Mercury 2 damit mehr als fünfmal schneller als herkömmliche Modelle und erreicht 1.009 Tokens pro Sekunde auf Nvidia-Blackwell-GPUs. Die Qualität des Outputs sei vergleichbar mit führenden geschwindigkeitsoptimierten Modellen.

Model E2E Latency (Seconds) GPQA Diamond LCB SciCode IFBench AIME TAU
Mercury 2 1.7 74 67 38 71 91 53
GPT-5 Nano (Minimal) 4.5 43 47 29 33 27 26
Claude 4.5 Haiku (Non-Reasoning) 5.0 65 51 34 42 39 33
Gemini 2.5 Flash-Lite (Reasoning) 7.8 71 59 29 53 69 31
Gemini 3 Flash (Reasoning) 14.4 90 91 51 78 78 80
Gemini 2.5 Flash (Reasoning) 15.6 79 69 39 50 57 32
GPT-5 Mini (Medium) 22.8 80 69 41 71 48 71
Claude 4.5 Haiku (Reasoning) 23.4 67 62 43 54 84 55

Das Modell bietet ein 128K-Kontextfenster, Werkzeugnutzung und JSON-Ausgabe. Inception richtet sich an Unternehmen mit latenzempfindlichen Anwendungen wie Sprachassistenten, Coding-Tools und Suchsystemen. Der Preis liegt bei 0,25 Dollar pro Million Eingabe-Tokens und 0,75 Dollar pro Million Ausgabe-Tokens.

Mercury 2 ist ab sofort über eine OpenAI-kompatible API verfügbar. Unternehmen können frühen Zugang beantragen, außerdem lässt sich das Modell direkt im Chat testen.

Auf der Suche nach der Transformer-Alternative

Inception hatte im vergangenen November 50 Millionen US-Dollar Kapital erhalten von Investoren wie Microsoft, Nvidia und Snowflake. Den ersten Prototyp zeigte das Start-up bereits Anfang 2025. Mit Mercury 2 liefert Inception nun ein produktionsreifes Modell mit Reasoning-Fähigkeiten nach.

Auch Google Deepmind arbeitet an Diffusions-basierten Sprachmodellen. Gemini Diffusion erzielte in Benchmarks ähnlich gute Leistungen wie das damals aktuelle Gemini 2.0 Flash-Lite-Modell. Seit der ersten Vorstellung äußerte sich Google allerdings nicht mehr zum Diffusion-Experiment.

Der Ansatz, Text ähnlich wie bei der Bilderzeugung parallel statt sequenziell zu generieren, gewinnt damit etwas an Aufmerksamkeit. Generell suchen immer mehr Start-ups nach Alternativen zur dominierenden Transformer-Architektur. Ob sich Diffusions-basierte Sprachmodelle dabei langfristig durchsetzen, ist allerdings noch offen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article