Kaum ein Format der Wissenschaftskommunikation ist so sehr von der Persönlichkeit der Macher*innen geprägt wie ein Podcast. Doch was bleibt von der persönlichen Note, wenn KI-generierte Stimmen ins Spiel kommen? Christine Kramer hat genauer hingehört.
So verändern KI-Stimmen Wissenschaftspodcasts
Der Podcast-Markt hat sich in den vergangenen Jahren rasant entwickelt. Anfang der 2010er-Jahre gab es auf podcast.de rund 20.000 Podcasts, davon 500 im Bereich Wissenschaft. Bis Februar 2022 erhöhte sich die Zahl wissenschaftlicher Podcasts auf 2.1761. Seit der Corona-Pandemie hat sich auch die Zahl der Podcast-Hörer*innen nochmals erhöht. Nun halten generative KI-Tools Einzug in die Produktion. Dank Text-to-Speech-Technologie können diese Tools ganze Folgen selbst einsprechen, Stimmen klonen oder neue künstliche Stimmen erzeugen. Diese Entwicklungen verändern, wie Podcasts entstehen und wahrgenommen werden.
Offenbar beeinflusst der Einsatz von KI die Art und Weise, wie Menschen Inhalte aufnehmen und für wie glaubwürdig sie diese einschätzen. Bei der Beurteilung von Podcasts spielen die Authentizität der Sprecher*innen und die fachliche Expertise der Inhalte eine wichtige Rolle. Dieses Phänomen hängt mit der personenbezogenen, individualisierten Kommunikation wissenschaftlicher Inhalte in sozialen Medien zusammen. Podcasts sind eng mit diesen Plattformen verknüpft, da sie dort gefunden, geteilt und diskutiert werden2.
Die im Internet konstituierte individuelle Kommunikation wurde als „Profil-Selbst“ beschrieben3. Podcasts tragen zu dieser persönlichen Darstellung bei und nutzen dafür ein besonders individuelles Medium: die Stimme. Eine KI-generierte Stimme stellt daher einen erheblichen Eingriff dar und wirft die Frage auf, ob sie die Authentizität in der Wissenschaftskommunikation gefährden könnte.
Experteninterviews zu Authentizität und Glaubwürdigkeit
Im Rahmen einer Projektarbeit wurden Markus Gottschling vom Research Center for Science Communication (RHET AI Center) der Universität Tübingen sowie Karsten Möbius, Chef vom Dienst für Audio und Podcast der Redaktion Wissen-Bildung beim Mitteldeutschen Rundfunk in Halle, zu KI-generierten Podcasts befragt.
Im Fokus standen ihre Einschätzungen zu Authentizität und Glaubwürdigkeit von KI-Stimmen sowie zum Potenzial der Technologie: „Die Fähigkeit zur Imitation und die Fähigkeit, sich anthropomorph zu geben, ist meiner Meinung nach ein ganz zentraler Faktor dafür, dass diese LLM-Chatbots so erfolgreich geworden sind“, ist Markus Gottschling überzeugt. Seiner Einschätzung nach basieren die Kriterien für KI-Podcast-Stimmen auf den Erwartungen an die Menschenähnlichkeit des Klangs.
Daher würden KI-Stimmen ihr Potenzial nur entfalten, wenn diese unsere Skepsis gegenüber künstlich generierten Stimmen überwinden. Von zentraler Bedeutung sind dabei der Klang, Sprechpausen, Akzentuierung, Sprachmelodie, Betonung und Aussprache. Kein KI-Podcast, so die Experten, könne erfolgreich sein, wenn er diese Kriterien nicht erfülle, die sich insgesamt zu einer Vorstellung von „Authentizität“ zusammenfügen. Für Karsten Möbius und seinen populären Wissenschaftspodcast ist das zentral: „Wir sagen zwar immer ‚Die KI wird besser.‘ Aber es gibt eben viele schlechte KI-generierte Geschichten, bei denen ich sage: ‚Es ist noch ein bisschen hin, mich zu ersetzen.‘“
KI-Tools könnten zwar bestimmte Routinen in der Wissenschaftskommunikation übernehmen, aber nicht die Persönlichkeit der Podcaster*innen ersetzen. Deshalb könnten KI-generierte Podcasts bislang wissenschaftliche Inhalte nicht glaubhaft vermitteln, vor allem, weil die feinen Nuancen der menschlichen Stimme fehlen. Aber auch der Zugang zu Wissen entspricht nicht den Qualitätserwartungen der Profis: „Eine verantwortungsvolle Recherche ist nicht zu ersetzen“, meint etwa Karsten Möbius. „Eine, die ein Mensch macht, die mit Skepsis arbeitet, die nicht allem traut. Eine Recherche, die nach Kohärenz und Widersprüchen schaut. In dieser Hinsicht bin ich bei der KI eher misstrauisch.“ Neben den Einschätzungen der Experten liefern auch empirische Studien Erkenntnisse darüber, wie Hörer*innen KI-generierte Stimmen bewerten.
Aktuelle Studien zu KI-Stimmen
In einer Studie der Landesanstalt für Medien NRW (2022) wurden über 1.000 Personen befragt4. Ziel war, die Akzeptanz von KI-Inhalten in der Medienbranche zu evaluieren. Proband*innen sahen und hörten Beiträge mit KI-generierten oder menschlichen Stimmen. Die Ergebnisse zeigten, dass KI-Beiträge oft als „authentisch, sympathisch und informativ“ bewertet wurden. Weniger als 30 Prozent der Befragten erkannten die KI-Stimmen, teilweise wurde sogar der menschliche Moderator für eine KI gehalten.
Bei reinen Stimmbeiträgen schnitt KI in vielen Aspekten besser ab als das „menschliche Original“. 55 Prozent der Teilnehmer*innen akzeptierten KI-generierte Stimmen, aber nur 37 Prozent KI-generierte Moderatoren. Die Studie zeigt, dass der Einsatz von KI grundsätzlich akzeptiert wird. Jedoch legt die Unsicherheit der Hörerinnen nahe, dass KI-gesteuerte Produktionen von Redakteur*innen kontrolliert und ihre Inhalte gekennzeichnet werden sollten.
In einer Studie der Universität Zürich (2024) wurde mithilfe funktionaler Magnetresonanztomographie untersucht, welche Reaktionen auf natürliche und KI-generierte Stimmen im Gehirn nachgewiesen werden können5. Natürlichkeit wurde hier durch individuelle Merkmale wie Klangfarbe, Mikro-Fluktuationen oder Sprachrhythmus definiert.
Beim Hören menschlicher Stimmen wurde der Nucleus accumbens stärker aktiviert, ein Bereich des sogenannten „sozialen Gehirns“. KI-Stimmen lösten schwächere, aber ähnliche Reaktionen aus. Daher vermuten die Wissenschaftler*innen, dass sich Menschen über KI-Stimmen täuschen können, aber das Gehirn in diesem Prozess erkennbare Reaktionsunterschiede zeigt. Das Potenzial dieser Studie, so die Wissenschaftler, liegt in einer denkbaren Beeinflussung der menschlichen Widerstandfähigkeit gegenüber Deepfakes sowie in möglichen Lernprogrammen zur Identifizierung künstlicher Stimmen.
Fazit
Die Vorstellung, dass eine natürliche Stimme automatisch authentisch und eine KI-Stimme automatisch „Fake“ ist, greift also zu kurz. Die ausgewählten Studien zeigen vielmehr, dass KI-Stimmen durchaus als authentisch eingeschätzt werden können. Authentizität ist somit ein Werturteil, das unabhängig von der Quelle verwendbar ist.
Wenn die gesamte kommunikative Situation in einem Podcast glaubhaft erscheint, kann also auch eine KI-Stimme authentisch wirken. Gleichzeitig müssen KI-Stimmen bestimmte Merkmale der menschlichen Stimme nachbilden – Lautstärke, Tonhöhe, Rhythmus, Akzent und Klangfarbe – um überzeugend zu wirken. Dies gelingt bisher nicht durchgängig.
Momentan scheint das Potenzial der KI interessanter zu sein als die konkrete Umsetzung von Formaten, die breite Akzeptanz finden. Bisher werden KI-Stimmen nur in einzelnen Settings genutzt. Künftig bleibt daher zu untersuchen, welche Techniken breitere Akzeptanz finden und in welchen Kontexten der Wissenschaftskommunikation sie sich durchsetzen.
KI verändert Prozesse, Rezeption und Inhalte der Wissenschaftskommunikation. Entscheidend bleibt der hohe ethische Anspruch an Medien und die Beteiligung von Rezipient*innen, etwa durch Kennzeichnungspflichten. In der Praxis sind daher überzeugende Gesamtangebote nötig.
Gastbeiträge spiegeln nicht zwangsläufig die Meinung unserer Redaktion wider. Die Redaktion lag bei Anna Henschel.
Begriffsklärung
KI-Text-to-Speech (TTS)
TTS wandelt geschriebene Texte in gesprochene Sprache um. Ein LLM erzeugt per Sprachsynthese eine künstliche Stimme und erstellt Audiodateien. Anbieter sind etwa Wondercraft oder Mind-Verse, Murf AI, Natural Reader.
Stimmen-Cloning
Hierbei wird eine menschliche Stimme durch KI nachgebildet. Vorteil ist eine künstliche „Sprecher-Marke“ mit Wiedererkennungswert, nutzbar in vielfältigen Szenarien, etwa Podcasts. Beispiel: Podmon, RaskAI, ElevenLabs, Resemble AI.
KI-Stimmenbibliotheken
Alternativ können fertige synthetische Stimmen genutzt werden, die online verfügbar sind, z. B. über Podcastle (derzeit nur englische Stimmen), Play.ht, WellSaid Labs, All Voice Lab.
KI-generierte Dialoge & Interviews
Hier sprechen zwei KI-Stimmen in bestimmten Rollen miteinander, etwa Moderator*in und Expert*in. Grundlage können beliebige Textsorten sein. Anbieter sind Character AI, Podera oder InPodcast AI, die auch Gespräche mit historischen Persönlichkeiten erzeugen, ebenso wie HelloHistory.
- Deck, R. & Kunow, K. (2021) Digitalisierungsbericht Audio 2021. Baden-Baden: Landesanstalt für Kommunikation Baden-Württemberg. Verfügbar unter: https://www.lfk.de/fileadmin/PDFs/Publikationen/Studien/Digitalisierungsbericht-Audio-Video/digitalisierungsbericht-audio-2021.pdf [Zugriff: 21.09.2025]. ↩︎
- Rösch, H. (2021): Informationsethik. In: Informationsethik und Bibliotheksethik: Grundlagen und Praxis, Berlin, Boston: De Gruyter Saur, S. 55–227. Online unter: https://doi.org/10.1515/9783110522396-005; Online-Audio-Monitor (OAM) (2021): Online-Audio-Monitor 2021. Online unter: https://www.online-audio-monitor.de/wp-content/uploads/Bericht-OAM_2021.pdf [Zugriff: 21.09.2025]. ↩︎
- Reckwitz, A. (2019): Die Gesellschaft der Singularitäten. Zum Strukturwandel der Moderne. Berlin: Suhrkamp. ↩︎
- GIM – Gesellschaft für Innovative Marktforschung mbH (2023): Akzeptanz von Prozessautomatisierung und KI in der Medienbranche. Hrsg. von Landesanstalt für Medien NRW. ↩︎
- Roswandowitz, C., Kathiresan, T., Pellegrino, E. et al. (2024): Cortical-Striatal Brain Network Distinguishes Deepfake from Real Speaker Identity. Communications Biology, 7: 711. ↩︎