Inception Mercury 2: Erstes Diffusions-basiertes Reasoning-Modell ist extrem schnell

1 month ago 11

Das KI-Start-up Inception launcht das erste Diffusions-basierte Reasoning-KI-Modell.

Mercury 2 erzeugt Antworten nicht wie übliche Sprachmodelle linear Wort für Wort, sondern verfeinert mehrere Textbausteine gleichzeitig; das Startup vergleicht das mit einem Lektor, der einen ganzen Entwurf auf einmal überarbeitet, anstatt nur einzelne Wörter zu betrachten.

Laut Inception ist Mercury 2 damit mehr als fünfmal schneller als herkömmliche Modelle und erreicht 1.009 Tokens pro Sekunde auf Nvidia-Blackwell-GPUs. Die Qualität des Outputs sei vergleichbar mit führenden geschwindigkeitsoptimierten Modellen.

Model E2E Latency (Seconds) GPQA Diamond LCB SciCode IFBench AIME TAU

Mercury 2	1.7	74	67	38	71	91	53
GPT-5 Nano (Minimal)	4.5	43	47	29	33	27	26
Claude 4.5 Haiku (Non-Reasoning)	5.0	65	51	34	42	39	33
Gemini 2.5 Flash-Lite (Reasoning)	7.8	71	59	29	53	69	31
Gemini 3 Flash (Reasoning)	14.4	90	91	51	78	78	80
Gemini 2.5 Flash (Reasoning)	15.6	79	69	39	50	57	32
GPT-5 Mini (Medium)	22.8	80	69	41	71	48	71
Claude 4.5 Haiku (Reasoning)	23.4	67	62	43	54	84	55

Das Modell bietet ein 128K-Kontextfenster, Werkzeugnutzung und JSON-Ausgabe. Inception richtet sich an Unternehmen mit latenzempfindlichen Anwendungen wie Sprachassistenten, Coding-Tools und Suchsystemen. Der Preis liegt bei 0,25 Dollar pro Million Eingabe-Tokens und 0,75 Dollar pro Million Ausgabe-Tokens.

Mercury 2 ist ab sofort über eine OpenAI-kompatible API verfügbar. Unternehmen können frühen Zugang beantragen, außerdem lässt sich das Modell direkt im Chat testen.

Auf der Suche nach der Transformer-Alternative

Inception hatte im vergangenen November 50 Millionen US-Dollar Kapital erhalten von Investoren wie Microsoft, Nvidia und Snowflake. Den ersten Prototyp zeigte das Start-up bereits Anfang 2025. Mit Mercury 2 liefert Inception nun ein produktionsreifes Modell mit Reasoning-Fähigkeiten nach.

Auch Google Deepmind arbeitet an Diffusions-basierten Sprachmodellen. Gemini Diffusion erzielte in Benchmarks ähnlich gute Leistungen wie das damals aktuelle Gemini 2.0 Flash-Lite-Modell. Seit der ersten Vorstellung äußerte sich Google allerdings nicht mehr zum Diffusion-Experiment.

Der Ansatz, Text ähnlich wie bei der Bilderzeugung parallel statt sequenziell zu generieren, gewinnt damit etwas an Aufmerksamkeit. Generell suchen immer mehr Start-ups nach Alternativen zur dominierenden Transformer-Architektur. Ob sich Diffusions-basierte Sprachmodelle dabei langfristig durchsetzen, ist allerdings noch offen.

KI-News ohne Hype – von Menschen kuratiert

Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.

Jetzt abonnieren

Read Entire Article