Text-to-Speech / Speech-to-Text

Text-to-Speech (TTS) bezeichnet die KI-gestützte Umwandlung von geschriebenem Text in gesprochene Sprache. Speech-to-Text (STT) ist der umgekehrte Prozess: gesprochene Sprache wird in geschriebenen Text umgewandelt (Transkription). Beide Technologien basieren auf Deep Learning.

Text-to-Speech (TTS)

Moderne TTS-Systeme wie ElevenLabs erzeugen Sprache, die von menschlichen Aufnahmen kaum zu unterscheiden ist. Die KI hat gelernt, wie Betonung, Pausen, Stimmfärbung und Sprachrhythmus zusammenwirken. Mit Voice Cloning kann sie sogar eine bestimmte Stimme imitieren.

Einsatzgebiete: Podcasts und Hörbücher produzieren, Webseiteninhalte als Audio anbieten, Videos vertonen, Telefonassistenten aufbauen, barrierefreie Inhalte erstellen.

Speech-to-Text (STT)

STT-Systeme transkribieren gesprochene Sprache in Echtzeit oder aus Aufnahmen. Bekannte Anwendungen: Untertitel in Videos, Meeting-Transkription (Fireflies.ai), Sprachassistenten (Siri, Alexa), Diktier-Apps.

Die Qualität hat sich durch Deep Learning massiv verbessert. Aktuelle Systeme verstehen Dialekte, Akzente und Hintergrundgeräusche deutlich besser als noch vor zwei Jahren.

Abgrenzung

TTS und STT sind Teilbereiche von NLP (Natural Language Processing). Sie verarbeiten Sprache, aber sie verstehen keine Bedeutung. Ein TTS-System kann einen juristischen Text perfekt vorlesen, ohne den Inhalt zu erfassen.

🔗 Verwandte Begriffe:

ElevenLabs, NLP, Voice Cloning, Sprachsynthese, AI Dubbing

➡ Du willst KI in deinem Arbeitsalltag einsetzen? In meinen „KI at Work“ Kursen zeige ich dir Schritt für Schritt, wie das geht. Ohne Vorwissen.

Änderungshistorie:

Erstveröffentlichung Juni 2026.

KI Glossar Datenschutz Impressum