Foto: KI-generiert, Freepik

„Diese Bilder formen ein Geschichtsbild, das eine KI festgelegt hat“

Was tun, wenn historische Bilder fehlen? Terra X History setzt nun auf KI-generierte Szenen. Ein Schritt, den Historikerin Sabrina Alber in ihrem Gastbeitrag als verantwortungslos kritisiert: Solche Bilder verstärken Stereotype und verzerren das Geschichtsbild.

Historische Dokumentationen sehe ich grundsätzlich mit zwei zugekniffenen Augen. Ich unterscheide mich vermutlich drastisch von dem durchschnittlichen Publikum, das am Sonntagabend Freude an historischer Bildung empfindet, die Zugänglichkeit verspricht.  

Ich hingegen sitze da als Historikerin und Museumswissenschaftlerin, die gelernt hat, Darstellungen kritisch zu bewerten und schon lange keine Historienverfilmung mehr richtig genießen kann, wie sehr ich es auch versuche. Denn als jemand, die beruflich mit visuellen Narrativen arbeitet, weiß ich, wie Bilder das Geschichtsbild des Publikums verändern können.

Was viele als harmlose „historische Stimmung“ verbuchen, lese ich sofort als Eingriff ins kollektive Bildgedächtnis. Zu oft sind historische Fakten in Dokumentationen so lange vereinfacht und verdreht, bis sie Stereotype reproduzieren. Gleichzeitig weiß man offenbar auch um die Bedeutung dieser Wiederholung: Wir lieben es, unsere vorhandenen Geschichtsbilder bestätigt zu sehen.1

Tempo, Effekte, KI – Geschichte im Entainmentwahn

Ein konkretes Beispiel ist die Terra X Dokumentation „Weltberühmt & depressiv: Von Sisi bis Adenauer“2. Inhaltlich empfand ich die Dokumentation mit dem Psychologen Leon Windscheid durchaus gelungen, das möchte ich ausdrücklich betonen. Doch bildlich ist es ein Ausflug in ein KI-Seminar. Historische Abbildungen? Fotos der Zeit? Dokumente? Offenbar traut man mir nicht zu, auf ein Standbild in Form einer historischen Abbildung oder gar ein vergilbtes Dokument die Aufmerksamkeit halten zu können. Stattdessen gibt es KI-generierte Inhalte mit Tempo, Effekten und dem Gefühl, man müsse Geschichte wie eine Social-Media-Timeline konsumieren. 

YouTube

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

Zur Rettung eilen Interview-Sequenzen mit Expert*innen, die leider immer wieder von den teilweise haarsträubenden Spielszenen zur Seite gedrängt werden. Gerade hat man begonnen, einer historischen Erklärung zu folgen, schon wird man in eine Szene geworfen, in der mutmaßlich eine akkurate Rekonstruktion dargestellt wird.  Das Gesagte dringt schwer durch den dichten Nebel visueller Stimulation und erreicht mein Langzeitgedächtnis nicht.3 Die emotionalisierten Bilder aus dem süßen Rezept von Klischeebestätigung, abenteuerlichem Kostümdesign und ausgeschmücktem Storytelling jedoch legen sich wie ein hartnäckiger, fast unsichtbarer Schleier über meinen mentalen Aktenschrank mit der Aufschrift „Geschichtsbilder”.

Solche Spielszenen lösen regelmäßig einen inneren Konflikt aus. Selbstverständlich weiß ich um die Stärke von Emotionen im Lernprozess4 und wünsche mir den gut gewählten Einsatz sehr und nutze ihn bei meinen Projekten ebenso. Aber wie großartig wäre eine Dokumentation, in der sich Wissenschaft und emotionale Kommunikation die Hand reichen würden?
Mein Luftschloss der perfekten historischen Dokumentation zerschellt auf weichgezeichneten Gesichtern, agierend im Wahnsinn des KI-Unverständnisses von Details. Billig und lieblos abgespeist fühle ich mich beim Schauen. Es wirkt, als wolle man sagen: „Es ist bunt, es bewegt sich und das reicht dir doch?“

Geschichtsverständnis a lá KI

Diese Bilder formen ein Geschichtsbild, das eine KI festgelegt hat. Oder eines, das wir als Kollektiv mit uns tragen und die KI reproduziert? Weil sie die statistisch wahrscheinlichste Bildversion erzeugt, die ihr Datensatz hergibt. Bildgenerative KI-Modelle arbeiten nicht mit historischem Quellenmaterial, sondern mit statistischen Wahrscheinlichkeiten. Sie berechnen Bilder, indem sie Rauschen schrittweise in Muster zurückverwandeln, die sie aus Milliarden Trainingsbildern gelernt haben.5 Keine raffinierte Zeitreise, kein Faktencheck, kein Archiv.

Dieser Datensatz ist nicht kuratiert, nicht kritisch geprüft, nicht historisch eingeordnet. Er ist einfach nur groß. Und groß klingt irgendwie auch wie ein Synonym für einen gemeinsamen Konsens, aber nicht der wissenschaftliche. Vielmehr ist es genau das, was seit der ersten Spielritterburg und dem letzten Mittelaltermarkt in meinem Kopf spukt. Wir wissen längst, dass solche Datenmengen Verzerrungen erzeugen, Stereotype verstärken, westliche Ästhetiken reproduzieren und historische Vielfalt glätten.6

Wie viel Transparenz in der Dokumentation landet? Keine. Keine Einordnung. Keine Distanzierung. Kein Hinweis darauf, dass diese Bilder mehr über digitale Bildkulturen erzählen als über die dargestellte Epoche. Moment, doch… das Video ist gut sichtbar als „Szene KI-generiert“ gekennzeichnet. Ein Glück, dann ist alles gut, die Verantwortung ist erfolgreich beim Konsumenten gelandet.  

Es geht es mir nicht darum, ob das Geschirr von Sissis Kutsche aus schwarzem oder braunem Leder war.  Es geht um Wissenschaftlichkeit. Es geht darum, dass Dokumentationen, die von öffentlichen Geldern finanziert werden, eine Verantwortung tragen. Denn die Bilder wirken. Sie emotionalisieren. Sie prägen. Sie schieben sich als scheinbar authentische Darstellungen in den Erinnerungsraum der Zuschauenden, egal, wie groß der Hinweis am unteren Bildschirmrand war. 

Jetzt ist es leicht zu kritisieren, wer historische Szenen nachstellt, erzeugt immer Bilder, die die historische Realität verzerren. Dem stimme ich völlig zu. Bei klassischen Spielszenen, mit menschlichen Darsteller*innen lässt sich aber zumindest nachvollziehen, wer an der Darstellung beteiligt war, auf welcher Grundlage Entscheidungen getroffen wurden und wer dafür Verantwortung trägt, etwa historische Beratung, Kostümbild oder Regie. Auch wenn solche Szenen immer interpretierend sind, bleiben sie in diesem Sinne überprüfbar und verortbar. Auch wenn diese in der Vergangenheit oft berechtigte Kritik provoziert haben (siehe den YouTube-Account „Geschichtsfenster“ zum Beispiel Aufgeblasen durch Pseudowissenschaft – ZDF-Info über Raubritter Mittelalter).

Trotzdem glaube ich an den verantwortungsbewussten Einsatz von Spielszenen. Ich möchte erwarten dürfen, dass die Bilder, die ich zu sehen bekomme, mindestens eine intensive Recherche und Kuration erfahren haben. 

Visualisierungen um jeden Preis?

Der Einsatz von KI-Bildern ist bequem. Ein Prompt dauert weniger als die Organisation eines Drehtages. Die KI trifft die Entscheidungen, Kostüm- und Setauswahl wird outgesourct an etwas, das nicht bezahlt werden möchte. Dafür bezahlen wir mit unserem Bildungsauftrag und der Schuh drückt.  

Visualisierung um jeden Preis ist kein Qualitätskriterium in der Geschichtsvermittlung, das betrifft sowohl mangelhaft entwickelte Spielszenen oder KI-generiertes Material. Wenn etwas fehlt, ist es nicht die Aufgabe der Wissenskommunikation, die Lücke mit buntem Rauschen zu kaschieren. Es ist ihre Aufgabe, die Lücke sichtbar zu machen und dabei zu unterstützen, diese Auszuhalten.  Abwesenheit ist ein historischer Fakt. 

Natürlich wirken Videos. Natürlich wecken sie Emotionen und natürlich sollten sie gezielt zur Vermittlung eingesetzt werden. Aber bitte in Qualität, mit geklärter Frage der Verantwortung: Was erzählt mein Bildmaterial? 

Die guten Darstellenden und Ausstattungen gibt es. Die Fotografien gibt es. Die archivalischen Quellen gibt es. Die Objekte gibt es. Es fehlt nicht an Möglichkeiten. Es fehlt an der Bereitschaft, sie zu inszenieren. Selbstverständlich lässt sich die Vergangenheit in keiner Spielszene abbilden und das kursierende Material vor dem Einsatz von KI ließ mehr als oft zu wünschen übrig. Aber es fehlte nicht viel, dieses auf eine neue Qualitätsstufe zu heben.  

Die redaktionelle Verantwortung für diesen Beitrag lag bei Sabrina Schröder. Gastbeiträge spiegeln nicht zwangsläufig die Meinung unserer Redaktion wider. Eine Kurzversion des Textes veröffentlichte Sabrina Alber zuerst über ihren Linkedin Kanal.  

  1. Volker Kirchberg beschreibt, bezugnehmend auf den Psychologen Rolf Klein, das Bestätigen von 
    Vorwissen beim Besuch von Ausstellungen. Vgl. Kirchberg, Volker: Besucherforschung in Museen: Evaluation von Ausstellungen, in: Joachim Baur (HG.): Museumsanalyse. Methoden und Konturen eines neuen Forschungsfeldes, 2015, S. 173- 184, S. 174f.  ↩︎
  2. ZDF: Weltberühmt & depressiv: Von Sisi bis Adenauer. Terra X History. Doku, mit Leon Windscheid.
    Regie: Kai Christiansen, 2025. 
    (Zugriff am: 02.12.2025)  ↩︎
  3. Oates, Jane M. & Reder, Lynne M.: Memory for Pictures: Sometimes a Picture is Not Worth a Thousand Words, 2010/2014, S. 3ff., https://www.cmu.edu/dietrich/psychology/memorylab/publications/10.1.1.646.3474.pdf?utm_source=chatgpt.com ↩︎
  4. Tyng, Chai M.; Amin, Hafeez U.; Saad, Mohd N. M.; Malik, Aamir S. zeigen anhand neurowissenschaftlicher und psychologischer Studien, dass emotionale Reize Aufmerksamkeit, Kodierung und Gedächtniskonsolidierung verstärken und dadurch Inhalte langfristig besser erinnert werden als neutrale Informationen. Vgl. Tyng, Chai M.; Amin, Hafeez U.; Saad, Mohd N. M.; Malik, Aamir S.: The Influences of Emotion on Learning and Memory, in: Frontiers in Psychology, 2017, insb. Abschnitte „Emotion and Memory“ sowie „Amygdala–Hippocampus Interaction“,  https://www.frontiersin.org/articles/10.3389/fpsyg.2017.01454/full  ↩︎
  5. Vgl., Ho, Jonathan; Jain, Ajay, Abbeel,  Denoising Diffusion Probabilistic Models, in: Advances in Neural Information Processing Systems 33 (NeurIPS 2020), 2020, S. 6840–6851, https://arxiv.org/abs/2006.11239. ↩︎
  6. Birhane, Abebe; Prabhu, Vinay Uday: Large Image Datasets: A Pyrrhic Win for Computer Vision?, in: H. 
    Larochelle and M. Ranzato and R. Hadsell and M.F. Balcan and H. Lin (Hg.): Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 1536–1546, https://arxiv.org/pdf/2006.16923, S. 6f.  ↩︎