Handy: Open-Source-Tool für Speech-to-Text unter Windows, macOS und Linux

2 weeks ago 4


Manchmal entstehen Softwareprojekte schlicht aus der Not heraus. Weil sich der Entwickler einen Finger gebrochen hatte und die Hand im Gips landete, wurde eine funktionierende Speech-to-Text-Lösung benötigt. Da vorhandene Anwendungen seiner Aussage nach oft nicht Open Source oder schlecht erweiterbar waren, entstand „Handy“.

Die Software verfolgt einen simplen Ansatz: Es wird ein Tastaturkürzel gedrückt, gesprochen und beim Loslassen erscheint der Text im gerade aktiven Eingabefeld. Das Ganze funktioniert komplett offline auf Basis von Whisper, läuft plattformübergreifend und kommt ohne Abos oder Cloud-Anbindung aus.

Pausen in der Sprache werden durch einen VAD-Filter entfernt, während für die eigentliche Transkription Whisper- oder Parakeet-Modelle bereitstehen. Sofern verfügbar, wird die GPU zur Beschleunigung genutzt. Unterstützt werden Windows, macOS und Linux. Dabei geht es gar nicht darum, die beste App am Markt zu sein, sondern eine gute Basis für Anpassungen zu bieten.

Der Code ist bewusst so gestaltet, dass er geforkt und verändert werden kann. Wer also spezifische Anforderungen an die Barrierefreiheit hat oder experimentieren möchte, findet hier einen Startpunkt. Der Macher lädt ausdrücklich dazu ein, den Code zu nehmen, anzupassen oder zu verbessern, da man aktiv nach Mitstreitern sucht, um die Anwendung robuster zu machen.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf ge­lan­gt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir ei­ne kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.

Read Entire Article