Sprachsynthese

Sprachsynthese (auch Text-to-Speech, TTS) bezeichnet die maschinelle Erzeugung gesprochener Sprache aus geschriebenem Text. Moderne KI-basierte Sprachsynthese erzeugt Stimmen, die von menschlichen Aufnahmen kaum zu unterscheiden sind.

Wie Sprachsynthese funktioniert

Frühere Sprachsynthese-Systeme klangen roboterhaft: monoton, ohne natürliche Pausen, ohne Emotion. Aktuelle Systeme wie ElevenLabs nutzen Deep Learning, um Betonung, Sprechrhythmus, Pausen und Stimmfärbung zu lernen. Das Ergebnis klingt in vielen Fällen so natürlich, dass Hörer:innen nicht erkennen können, ob ein Mensch oder eine KI spricht.

Abgrenzung zu Voice Cloning

Sprachsynthese erzeugt Sprache mit vordefinierten oder generierten Stimmen. Voice Cloning erzeugt Sprache mit einer kopierten, realen Stimme. Sprachsynthese ist der Überbegriff, Voice Cloning eine spezielle Anwendung davon.

Einsatzgebiete

Hörbücher, Podcasts, Lernplattformen, Navigation, Barrierefreiheit (Vorlese-Funktionen für Webseiten), Kundenservice-Telefonassistenten, Videovertonung, automatische Durchsagen. Überall, wo gesprochene Sprache gebraucht wird, aber menschliche Sprecher:innen zu teuer, zu langsam oder nicht verfügbar sind.


🔗 Verwandte Begriffe:

Text-to-Speech, Voice Cloning, ElevenLabs, AI Dubbing, NLP


➡ Du willst KI in deinem Arbeitsalltag einsetzen? In meinen „KI at Work“ Kursen zeige ich dir Schritt für Schritt, wie das geht. Ohne Vorwissen.



Änderungshistorie:

  • Erstveröffentlichung Juni 2026.