← Zur Übersicht

Speech-to-Text auf dem Mac: 4 Tools im Vergleich

Diktieren am Mac war lange eine Notlösung. Apples eingebaute Diktierfunktion funktionierte, aber mehr auch nicht. 2026 sieht die Landschaft anders aus: Lokale ML-Modelle wie Whisper liefern erstklassige Erkennung direkt auf dem Gerät, Apple hat mit macOS Tahoe die eigene Speech-Engine komplett überarbeitet, und spezialisierte Apps setzen neue Maßstäbe bei Bedienkomfort und Textqualität.

Die Frage ist nicht mehr ob Speech-to-Text am Mac funktioniert, sondern welches Tool am besten zum eigenen Workflow passt. In diesem Vergleich schaue ich mir vier populäre Optionen an: macOS Dictation, TypeWhisper, Superwhisper und Wispr Flow.

Full Disclosure: TypeWhisper ist mein eigenes Open-Source-Projekt. Ich bewerte es hier genauso kritisch wie die anderen Tools.

Die Kandidaten im Überblick

macOS Dictation

Apples eingebaute Lösung kommt kostenlos mit jedem Mac. Auf Apple-Silicon-Macs läuft die Erkennung komplett lokal auf der Neural Engine - kein Internet nötig, keine Daten, die den Rechner verlassen. Mit macOS Tahoe (2025) hat Apple die Speech-Engine grundlegend überarbeitet: Die neuen SpeechAnalyzer-APIs sind laut Benchmarks 55% schneller als Whisper Large V3 Turbo.

Stärken: Null Setup, überall verfügbar, gute Privacy auf Apple Silicon. Schwächen: Kein benutzerdefiniertes Vokabular, lernt nicht aus Korrekturen, 30-Sekunden-Timeout bei Stille.

TypeWhisper

TypeWhisper ist eine quelloffene Speech-to-Text-App (GPLv3), die vollständig lokal arbeiten kann. Unter der Haube stehen acht verschiedene Transkriptions-Engines zur Wahl - von WhisperKit über Nvidias Parakeet TDT bis hin zu Apples neuem SpeechAnalyzer. Dazu kommt eine LLM-Verarbeitungspipeline mit Profilen, Wörterbuch und Plugin-System.

Stärken: Open Source, maximal flexibel, API + CLI, 25 Plugins, komplett lokal möglich. Schwächen: Mehr Konfigurationsaufwand, Modell-Download erforderlich, kurz vor dem 1.0-Release.

Superwhisper

Superwhisper ist eine Premium-App mit Fokus auf ein poliertes Diktiererlebnis. Lokal nutzt sie WhisperKit und Nvidias Parakeet, optional stehen Cloud-Modelle bereit. Die App bietet vorkonfigurierte Modi (Formal, Casual, Legal, Email) und integriert KI-Sprachmodelle für die Nachbearbeitung.

Stärken: Durchdachte UX, gute Modellauswahl, Meeting-Recording, SOC 2 Type II (Enterprise). Schwächen: Viele starke Features nur im Pro-Abo, Windows noch nicht auf macOS-Parität, Lifetime-Preis hoch.

Wispr Flow

Wispr Flow geht einen grundlegend anderen Weg: Die gesamte Verarbeitung läuft in der Cloud. Dafür liefert die App eine aggressive KI-Textoptimierung - Füllwörter werden entfernt, Grammatik korrigiert, der Ton an die aktive App angepasst. Der Claim: "Sprich wie du denkst, wir machen den Rest."

Stärken: Beste Textaufbereitung, kontextabhängige Formatierung, Cross-Platform (Mac, Windows, iOS, Android). Schwächen: Immer online, Audiodaten gehen in die Cloud, 6-Minuten-Aufnahmelimit, ressourcenhungrig.

Vergleichstabelle

KriteriummacOS DictationTypeWhisperSuperwhisperWispr Flow
PreisKostenlosKostenlos (Open Source)Kostenlos (Basis-Diktat) + Pro ab 8,49 $/MonatFree-Tier + Pro 15 $/Monat
Open SourceNeinJa (GPLv3)NeinNein
VerarbeitungLokal (Apple Silicon)Lokal + optional CloudLokal + optional CloudNur Cloud
EnginesApple Speech8 Engines (WhisperKit, Parakeet, u.a.)WhisperKit + Parakeet + CloudEigene Cloud-Pipeline
Sprachen60+99+ (je nach Engine)100+100+
LLM-IntegrationNeinJa (8+ Provider)Ja (GPT-5, Claude, Llama, u.a.)Ja (eingebaut)
Setup-AufwandKeinerGering (App + Modell laden)Gering (App + Modell laden)Gering (Account nötig)
SystemintegrationTief (OS-Level)Menu Bar + Global HotkeyMenu Bar + HotkeyMenu Bar + Hotkey
ErweiterbarNeinJa (Plugins, API, CLI)Begrenzt (Custom Modes)Nein
PlattformenNur macOSmacOS, Windows, iOSmacOS, Windows, iPhone, iPadmacOS, Windows, iOS, Android

Detailvergleich

Privacy und Datenschutz

Das wichtigste Differenzierungsmerkmal in diesem Vergleich. Wer Audiodaten verarbeitet, verarbeitet biometrische Daten - besonders relevant für den Einsatz in Unternehmen und unter der DSGVO.

macOS Dictation verarbeitet auf Apple-Silicon-Macs alles lokal. Kein Audio verlässt den Rechner, keine Aufnahmen werden gespeichert. Auf Intel-Macs werden Audiodaten an Apple-Server geschickt, dort aber nicht mit der Apple-ID verknüpft, sondern mit einer rotierenden, zufälligen Kennung. Vorsicht bei Suchfeldern: Dort diktierter Text kann an den Suchprovider gehen.

TypeWhisper kann vollständig offline betrieben werden. Wer ausschließlich lokale Engines nutzt (WhisperKit, Parakeet, Apple SpeechAnalyzer), hat die Garantie, dass kein Byte den Rechner verlässt. Cloud-Engines wie OpenAI oder Groq sind optional - und dann gelten deren Datenschutzrichtlinien. Als Open-Source-Projekt ist der Code einsehbar und auditierbar.

Superwhisper arbeitet bei lokalen Modellen ebenfalls komplett auf dem Gerät. Für Cloud-Modelle (Deepgram, eigene S1-Voice-Server) werden Audiodaten übertragen - laut Superwhisper ohne serverseitige Speicherung. Daten werden nicht für KI-Training verwendet. SOC 2 Type II ist für Enterprise-Kunden verfügbar.

Wispr Flow verarbeitet alles in der Cloud. Audio wird immer an Server geschickt, die auf AWS (us-east-1) laufen. Subprocessoren sind u.a. OpenAI, Anthropic und Baseten. Ein "Privacy Mode" verspricht, dass keine Daten gespeichert werden - die Audiodaten reisen trotzdem zum Server. Zusätzlich erfasst Wispr Flow Screenshots des aktiven Fensters für kontextabhängige Formatierung. HIPAA-ready auf allen Plänen.

Fazit Privacy

Wer maximale Kontrolle will, greift zu TypeWhisper oder Superwhisper mit lokalen Modellen. macOS Dictation ist auf Apple Silicon ebenfalls solide. Wispr Flow ist die einzige Option, die immer Daten in die Cloud schickt.

Erkennungsqualität

Die Erkennungsqualität hängt bei allen Whisper-basierten Tools stark vom gewählten Modell ab. Ein Whisper Large V3 liefert bessere Ergebnisse als Whisper Tiny - braucht aber auch mehr RAM und Rechenzeit.

Deutsch: Alle vier Tools erkennen deutsches Hochdeutsch zuverlässig. Bei Umlauten, zusammengesetzten Wörtern und Fachbegriffen unterscheiden sich die Ergebnisse. Whisper-basierte Tools (TypeWhisper, Superwhisper) profitieren hier von den großen Modellen. macOS Dictation hat Schwächen bei Eigennamen und technischem Vokabular, bietet dafür aber automatische Interpunktion. Wispr Flow gleicht Erkennungsfehler durch KI-Nachbearbeitung aus - kann dabei aber auch Wörter verändern, die gar nicht gesagt wurden.

Englisch: Ähnliches Bild. Whisper-Modelle sind auf englischen Trainingsdaten besonders stark. macOS Dictation funktioniert gut für Alltagssprache, schwächelt bei Akzenten und Fachterminologie. Wispr Flow liefert den "poliertesten" Output, ist aber technisch keine reine Transkription mehr - der Text wird aktiv umgeschrieben.

Zur Methodik

Echte Word Error Rate (WER) Vergleiche sind schwierig, weil die Tools unterschiedliche Modelle und Nachverarbeitungsschritte nutzen. Ein fairer Benchmark müsste die gleichen Audio-Samples mit den gleichen Modellgrößen vergleichen. Whisper Large V3 auf TypeWhisper und Superwhisper wird identische Rohergebnisse liefern - der Unterschied liegt in der Nachverarbeitung.

Setup und Bedienkomfort

macOS Dictation gewinnt hier klar: Null Setup nötig. Fn-Taste zweimal drücken, diktieren, fertig. Seit macOS Sonoma kann man gleichzeitig tippen und diktieren - die Erkennung läuft im Hintergrund weiter. Nachteil: Stoppt automatisch nach 30 Sekunden Stille.

TypeWhisper erfordert einen Modell-Download nach der Installation (ab ~75 MB für kleine, bis ~3 GB für die größten Modelle). Danach funktioniert es über einen konfigurierbaren Global Hotkey (Push-to-Talk, Toggle oder Hybrid). Die Lernkurve ist etwas steiler - dafür lässt sich praktisch alles anpassen: Engine, Sprache, LLM-Prompt und Verhalten pro App.

Superwhisper hat einen ähnlichen Einstieg: App laden, Modell wählen, loslegen. Das Default-Erlebnis ist etwas geschliffener als bei TypeWhisper - die App setzt auf vordefinierte Modi statt maximale Konfigurierbarkeit. Der Standard-Hotkey ist Option+Leertaste.

Wispr Flow braucht einen Account und Login. Danach ist die Bedienung simpel - die App optimiert den Text automatisch basierend auf der aktiven Anwendung. Der "Command Mode" zum Bearbeiten von markiertem Text per Sprache ist ein Alleinstellungsmerkmal. Allerdings berichten Nutzer von 8-10 Sekunden Startlatenz und hohem Ressourcenverbrauch (~800 MB RAM im Leerlauf).

Systemintegration

Alle vier Tools leben in der macOS Menu Bar und bieten einen globalen Hotkey für Push-to-Talk. Die Unterschiede liegen im Detail:

macOS Dictation hat die tiefste Integration - logisch, es ist Teil des Betriebssystems. Funktioniert in jedem Textfeld, unterstützt Sprachbefehle für Formatierung ("Neuer Absatz", "Großschreibung ein") und arbeitet mit Voice Control zusammen.

TypeWhisper bietet neben dem Hotkey eine lokale HTTP-API und ein CLI-Tool. Das ermöglicht Integration in Shortcuts, Automator, Raycast und eigene Skripte. Das Plugin-System erlaubt zusätzliche Aktionen - z.B. direkte Linear-Ticket-Erstellung oder Webhook-Aufrufe nach der Transkription. Desktop-Widgets zeigen Nutzungsstatistiken.

Superwhisper fokussiert sich auf die direkte App-Integration: Texte werden automatisch ins aktive Feld eingefügt. Meeting-Recording mit Speaker-Separation und automatischen Notizen ist ein Feature, das die anderen lokalen Tools nicht bieten.

Wispr Flow passt die Textformatierung automatisch an die aktive App an - professionell in Gmail, locker in Slack, Code-Syntax in VS Code. Der Command Mode erlaubt es, bestehenden Text per Sprache zu bearbeiten ("Mach das formeller", "Als Aufzählung").

Preis und Lizenz

ToolKostenlosBezahlversion
macOS DictationVollversion, keine Einschränkungen-
TypeWhisperVollversion, Open Source (GPLv3)-
SuperwhisperVoice Dictation + Basic TranscriptionPro: 8,49 $/Monat, 84,99 $/Jahr, 249,99 $ einmalig
Wispr Flow2.000 Wörter/WochePro: 15 $/Monat, 12 $/Monat (jährlich)

Für Cloud-APIs bei TypeWhisper (Groq, OpenAI) fallen zusätzliche Kosten an - diese sind aber optional und werden direkt beim jeweiligen Anbieter bezahlt. Superwhisper erlaubt ab dem Pro-Plan ebenfalls eigene API-Keys (BYOK).

Empfehlungen

Für Einsteiger: macOS Dictation

Kein Setup, keine Kosten, funktioniert sofort. Wer nur gelegentlich diktiert und keine speziellen Anforderungen hat, braucht nichts anderes.

Für Privacy-Bewusste: TypeWhisper oder Superwhisper

Beide können vollständig offline arbeiten. TypeWhisper hat den Vorteil, dass der komplette Code einsehbar ist. Superwhisper bietet SOC 2 Type II für Unternehmen mit Compliance-Anforderungen.

Für beste Textqualität: Wispr Flow

Wer den poliertesten Output will und mit Cloud-Verarbeitung kein Problem hat, bekommt bei Wispr Flow die ausgereifteste KI-Textaufbereitung. Allerdings zum Preis von Privacy und einer Internetabhängigkeit.

Für Entwickler und Power-User: TypeWhisper

API, CLI, Plugin-SDK, 8 verschiedene Engines, Profiles pro App - kein anderes Tool bietet diese Flexibilität. Der Code ist Open Source, eigene Erweiterungen lassen sich als Plugins umsetzen.

Für den Unternehmenseinsatz: TypeWhisper oder Superwhisper

Lokale Verarbeitung ohne Cloud-Abhängigkeit, DSGVO-konform, keine Audiodaten, die den Rechner verlassen. TypeWhisper ist kostenlos und auditierbar. Superwhisper bietet formale Compliance-Zertifizierung.

Fazit

Es gibt kein universell "bestes" Speech-to-Text-Tool für den Mac. Die Wahl hängt davon ab, was einem wichtiger ist: Maximale Privacy, beste Textqualität, einfachste Bedienung oder größte Flexibilität.

Was klar ist: Die Landschaft entwickelt sich rasant. Lokale Modelle wie Whisper und Parakeet liefern Ergebnisse, die vor zwei Jahren nur mit Cloud-Services möglich waren. Apple investiert mit SpeechAnalyzer massiv in die eigene on-device Erkennung. Und Cloud-Tools wie Wispr Flow zeigen, was mit aggressiver KI-Nachbearbeitung möglich ist - auch wenn das Tradeoffs bei Privacy und Zuverlässigkeit bedeutet.

Mein Rat: Probier die Tools aus, die zu deinen Anforderungen passen. macOS Dictation und TypeWhisper kosten nichts, Superwhisper hat ein Free-Tier, und Wispr Flow bietet eine 14-tägige Testphase. Diktieren am Mac war noch nie so gut wie 2026.

Teilen