Das KI-Start-up Inception launcht das erste Diffusions-basierte Reasoning-KI-Modell.
Mercury 2 erzeugt Antworten nicht wie übliche Sprachmodelle linear Wort für Wort, sondern verfeinert mehrere Textbausteine gleichzeitig; das Startup vergleicht das mit einem Lektor, der einen ganzen Entwurf auf einmal überarbeitet, anstatt nur einzelne Wörter zu betrachten.
Laut Inception ist Mercury 2 damit mehr als fünfmal schneller als herkömmliche Modelle und erreicht 1.009 Tokens pro Sekunde auf Nvidia-Blackwell-GPUs. Die Qualität des Outputs sei vergleichbar mit führenden geschwindigkeitsoptimierten Modellen.
| Mercury 2 | 1.7 | 74 | 67 | 38 | 71 | 91 | 53 |
| GPT-5 Nano (Minimal) | 4.5 | 43 | 47 | 29 | 33 | 27 | 26 |
| Claude 4.5 Haiku (Non-Reasoning) | 5.0 | 65 | 51 | 34 | 42 | 39 | 33 |
| Gemini 2.5 Flash-Lite (Reasoning) | 7.8 | 71 | 59 | 29 | 53 | 69 | 31 |
| Gemini 3 Flash (Reasoning) | 14.4 | 90 | 91 | 51 | 78 | 78 | 80 |
| Gemini 2.5 Flash (Reasoning) | 15.6 | 79 | 69 | 39 | 50 | 57 | 32 |
| GPT-5 Mini (Medium) | 22.8 | 80 | 69 | 41 | 71 | 48 | 71 |
| Claude 4.5 Haiku (Reasoning) | 23.4 | 67 | 62 | 43 | 54 | 84 | 55 |
Das Modell bietet ein 128K-Kontextfenster, Werkzeugnutzung und JSON-Ausgabe. Inception richtet sich an Unternehmen mit latenzempfindlichen Anwendungen wie Sprachassistenten, Coding-Tools und Suchsystemen. Der Preis liegt bei 0,25 Dollar pro Million Eingabe-Tokens und 0,75 Dollar pro Million Ausgabe-Tokens.
Mercury 2 ist ab sofort über eine OpenAI-kompatible API verfügbar. Unternehmen können frühen Zugang beantragen, außerdem lässt sich das Modell direkt im Chat testen.
Auf der Suche nach der Transformer-Alternative
Inception hatte im vergangenen November 50 Millionen US-Dollar Kapital erhalten von Investoren wie Microsoft, Nvidia und Snowflake. Den ersten Prototyp zeigte das Start-up bereits Anfang 2025. Mit Mercury 2 liefert Inception nun ein produktionsreifes Modell mit Reasoning-Fähigkeiten nach.
Auch Google Deepmind arbeitet an Diffusions-basierten Sprachmodellen. Gemini Diffusion erzielte in Benchmarks ähnlich gute Leistungen wie das damals aktuelle Gemini 2.0 Flash-Lite-Modell. Seit der ersten Vorstellung äußerte sich Google allerdings nicht mehr zum Diffusion-Experiment.
Der Ansatz, Text ähnlich wie bei der Bilderzeugung parallel statt sequenziell zu generieren, gewinnt damit etwas an Aufmerksamkeit. Generell suchen immer mehr Start-ups nach Alternativen zur dominierenden Transformer-Architektur. Ob sich Diffusions-basierte Sprachmodelle dabei langfristig durchsetzen, ist allerdings noch offen.
KI-News ohne Hype – von Menschen kuratiert
Mit dem THE‑DECODER‑Abo liest du werbefrei und wirst Teil unserer Community: Diskutiere im Kommentarsystem, erhalte unseren wöchentlichen KI‑Newsletter, 6× im Jahr den „KI Radar"‑Frontier‑Newsletter mit den neuesten Entwicklungen aus der Spitze der KI‑Forschung, bis zu 25 % Rabatt auf KI Pro‑Events und Zugriff auf das komplette Archiv der letzten zehn Jahre.



