Microsoft baut sein Portfolio an hauseigenen KI-Modellen weiter aus. Unter dem Label „Microsoft AI“, kurz MAI, sind jetzt drei neue Modelle über Microsoft Foundry verfügbar – eines für Spracherkennung, eines für Sprachsynthese und eines für Bildgenerierung. Wer mit KI-gestützten Sprach- und Bildlösungen arbeitet, dürfte einen genaueren Blick wert finden.
MAI-Transcribe-1 ist das Speech-to-Text-Modell im Bunde. Es unterstützt die „25 meistgesprochenen Sprachen“ und wurde laut Microsoft gezielt für Umgebungen mit Hintergrundgeräuschen entwickelt. Im FLEURS-Benchmark kommt das Modell auf eine Word Error Rate von 3,9 Prozent. Das ist etwas besser als GPT-Transcribe mit 4,2 Prozent oder Scribe v2 mit 4,3 Prozent, und merklich besser als Gemini 3.1 Flash (4,9 %) und Whisper-large-v3 (7,6 %). Der Preis liegt bei 0,36 US-Dollar pro Audiostunde.
Für Text-to-Speech kommt MAI-Voice-1 ins Spiel. Das Modell soll Stimmen mitsamt emotionaler Färbung reproduzieren und dies auch über längere Texte hinweg konsistent beibehalten. Was für Entwickler interessant sein dürfte: Benutzerdefinierte Stimmen lassen sich direkt über Foundry erstellen, und als Referenzaudio reichen laut Microsoft dabei schon wenige Sekunden aus. Die Verarbeitungsgeschwindigkeit gibt man mit einer Sekunde Rechenzeit für 60 Sekunden generierten Audio an. Kosten entstehen hier mit 22 US-Dollar pro einer Million verarbeiteter Zeichen.
Das dritte Modell, MAI-Image-2, ist bereits in Copilot aktiv und wird schrittweise in Bing und PowerPoint integriert. Technisch legt Microsoft den Fokus auf realistische Texturen, natürliche Hauttöne und eine saubere Darstellung von Text innerhalb von Bildern. Die Generierungszeiten haben sich im Vergleich zu Vorgängerversionen halbiert. Bei der Preisgestaltung gilt: Texteingabe kostet 5 US-Dollar pro einer Million Token, Bildausgabe schlägt mit 33 US-Dollar pro einer Million Token zu Buche.
Alle drei Modelle richten sich natürlich in erster Linie an Entwickler und sind ab sofort in Microsoft Foundry zugänglich. Zum Ausprobieren gibt es außerdem den MAI Playground – der ist allerdings momentan auf Nutzer in den USA beschränkt.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

2 weeks ago
8




