Das französische KI-Unternehmen Mistral AI stellt mit Voxtral zwei Open-Source-Modelle für Sprachverständnis vor, die proprietäre Lösungen bei weniger als der Hälfte der Kosten ersetzen sollen.
Die Voxtral-Modelle sind in zwei Varianten verfügbar: eine 24B-Version für Produktionsanwendungen und eine 3B-Version für lokale und Edge-Deployments. Beide Modelle verfügen über ein Kontextfenster von 32.000 Token, was für Audio-Dateien von bis zu 30 Minuten für Transkription oder 40 Minuten für Verständnisaufgaben ausreichen soll.
Laut Mistral AI gehen die Modelle über reine Transkription hinaus und bieten eingebaute Q&A- und Zusammenfassungsfunktionen, ohne dass separate ASR- (Automatic Speech Recognition) und Sprachmodelle verkettet werden müssen.
Zusätzlich ermöglichen die Modelle Funktionsaufrufe direkt aus gesprochener Sprache, wodurch sich Backend-Funktionen und API-Aufrufe automatisch aus Nutzerintentionen ableiten und ausführen lassen.
Anzeige
THE DECODER Newsletter
Die wichtigen KI-News direkt ins E-Mail-Postfach.
✓ 1x wöchentlich
✓ kostenlos
✓ jederzeit kündbar
Voxtral Small hat eine deutlich geringere Fehlerrate, aber unterbietet Whisper large preislich. | Bild: MistralVoxtral unterstützt automatische Spracherkennung und soll in den meistgesprochenen Sprachen der Welt funktionieren, darunter Englisch, Spanisch, Französisch, Portugiesisch, Hindi, Deutsch, Niederländisch und Italienisch. Außerdem behalten die Modelle die Textverständnis-Fähigkeiten ihres Sprachmodell-Backbones Mistral Small 3.1.
Voxtral übertrifft etablierte Konkurrenz in Benchmarks
In den von Mistral AI veröffentlichten Benchmark-Ergebnissen übertrifft Voxtral Small das führende Open-Source-Modell Whisper large-v3 sowie GPT-4o mini Transcribe und Gemini 2.5 Flash in allen getesteten Aufgaben. Bei englischen Short-Form-Aufgaben und dem Mozilla-Common-Voice-Benchmark - einem mehrsprachigen Sprachdatensatz - soll Voxtral sogar das starke ElevenLabs Scribe übertreffen.
Laut Mistrals Benchmarks kann Voxtral mit weitaus größeren Modellen wie GPT-4o mini und Gemini 2.5 Flash mithalten. | Bild: MistralIm FLEURS-Benchmark, einem mehrsprachigen Spracherkennungs-Datensatz, übertrifft Voxtral Small laut Mistral AI Whisper in jeder der neun getesteten Sprachen. Für Audio-Verständnisaufgaben zeigt sich Voxtral Small konkurrenzfähig mit GPT-4o-mini und Gemini 2.5 Flash, wobei das Modell auch bei Sprachübersetzungsaufgaben State-of-the-art-Ergebnisse erzielen soll.
Preisgestaltung soll proprietäre Anbieter deutlich unterbieten
Mistral AI positioniert Voxtral als kostengünstige Alternative zu bestehenden Lösungen mit API-Preisen ab 0,001 US-Dollar pro Minute. Für kostensensitive Anwendungen soll Voxtral Mini Transcribe den Konkurrenten OpenAI Whisper bei weniger als der Hälfte der Kosten übertreffen. Für Premium-Anwendungen soll Voxtral Small die Leistung von ElevenLabs Scribe ebenfalls bei weniger als der Hälfte der Kosten erreichen.
Das Unternehmen bietet auch Enterprise-Features an, darunter private Deployment-Optionen für regulierte Branchen und domain-spezifisches Fine-Tuning. Mistral AI plant weitere Funktionen für die kommenden Monate, darunter Sprecher-Segmentierung, Audio-Markups für Alter und Emotionen sowie Word-Level-Timestamps.
Empfehlung
Grundlage für Voice Mode in Le Chat
Beide Voxtral-Versionen werden unter der Apache-2.0-Lizenz veröffentlicht und sind zum Download auf Hugging Face (Mini/Small) verfügbar. Zusätzlich bietet Mistral AI die Modelle über eine eigene API an und plant die Integration in Le Chats Voice Mode, der in den nächsten Wochen für alle Nutzer:innen ausgerollt werden soll.



