Marlene Bodemer und ihr Team schreiben einfache Texte über psychologische Forschung. Nun haben sie auch mit Chatbots experimentiert. Welche Kriterien sie der Maschine beigebracht hat, verrät Bodemer im Interview.
Psychologie rein, ein guter Text raus?
Psychologie wird häufig im sogenannten Lifestyle-Journalismus trivialisiert. Soll Ihre Plattform KLARpsy eine Gegenbewegung dazu darstellen?
Ja, genau. Unser großer Motivationspfeiler ist, ein verlässliches Informationsangebot zu bieten. Denn es gibt sehr viele Informationen zur Psychologie, vor allem im Netz und in den sozialen Medien. Diese sind aber häufig nicht valide oder schwer verständlich.

Daher arbeiten wir mit Testleser*innen ohne psychologischen Hintergrund, die unsere Texte vor der Veröffentlichung prüfen. Oft sind sie überrascht, dass die statistischen Effekte der Studien so klein ausfallen. Genau darüber wollen wir aufklären: Effekte in der Psychologie sind nicht immer so groß. Das ermöglicht den Leser*innen ein besseres Einordnen.
Den Alltagsbezug des Lifestyle-Journalismus versuchen wir trotzdem hinzukriegen. Zum Beispiel haben wir gerade die Frage beantwortet: Macht Koffein ängstlich?
Als Grundlage für Ihre gut verständlichen Texte über psychologische Forschung nutzen Sie Metaanalysen, also Studien, die die Ergebnisse mehrerer Studien zu einer gemeinsamen Fragestellung zusammenfassen. Wie kam es zu dieser Entscheidung?
Uns war wichtig, aktuell zu bleiben und zugleich eine solide Evidenzbasis zu haben. Metaanalysen bilden den Forschungsstand umfassend ab und geben einen zuverlässigen Überblick, statt sich auf einzelne Studien zu stützen, die Effekte möglicherweise über- oder unterschätzen.
Der Nachteil von Metaanalysen ist, dass dafür bereits Forschung existieren muss, auf deren Grundlage eine Metaanalyse erstellt werden kann. Ein brandaktuelles Thema wird daher nicht sofort auf unserer Webseite erscheinen.
Nach welchen Kriterien suchen Sie die Forschungsarbeiten aus?
Wir legen den Fokus auf psychologische Forschung aus dem deutschsprachigen Raum, achten aber vor allem auf die Relevanz für unsere Leser*innen. In einer Umfrage haben wir ermittelt, welche Themen sie besonders interessieren, und daraus einen Themenkatalog erstellt. Zusätzlich können Leser*innen uns Themenvorschläge schicken, zu denen wir dann passende Metaanalysen recherchieren und Texte erstellen.
Wie erzielen Sie die gute Lesbarkeit der Texte?
Bevor unser Angebot online ging, haben wir dazu ein Forschungsprojekt durchgeführt. In dem haben wir untersucht, wie Texte gestaltet sein müssen, damit sie verständlich sind und Wissen vermitteln. Daraus haben wir eine Richtlinie entwickelt, mit der wir die Lesbarkeit unserer Texte sichern.
Wichtig ist zum Beispiel, nicht über zu viele Ergebnisse einer Studie zu berichten. Zwischen ein und vier Effekte sind angemessen, damit der Text nicht überfordert. Wir haben auch getestet, wie sich Fachbegriffe auf die Verständlichkeit auswirken. Ein paar sind in Ordnung, sollten aber immer erklärt werden.
Zusätzlich messen wir die Lesbarkeit objektiv anhand des Flesch-Werts. Der Wert wird besser, wenn Sätze kürzer und Wörter einfacher sind. Und schließlich durchläuft jeder Text ein Review. Erst von psychologisch geschulten Kolleg*innen und dann von einer Person ohne Fachkenntnisse.
Würden Sie die Verwendung von Lesbarkeitsindikatoren allgemein empfehlen?
Diese Werte und Indizes sind auf jeden Fall hilfreich. In der Wissenschaft tendieren wir zu langen Schachtelsätzen. Wenn man sie in drei kürzere Sätze aufteilt, verbessert sich der Flesch-Wert. Gleichzeitig lässt sich so ein Index aber auch künstlich manipulieren, zum Beispiel, indem man viele Abkürzungen benutzt. Man muss weiterhin prüfen, ob Inhalt und Logik noch stimmen. Der Indikator ersetzt nicht das Nachdenken über den Text, aber als Orientierung ist er sehr nützlich.

Für die Texte haben Sie einige Kriterien definiert, die eine hohe Qualität der Informationen sichern sollen. Könnten Sie drei besonders wichtige aufgreifen, die Sie Wissenschaftskommunikator*innen mehr ans Herz legen würden?
Das ist tatsächlich schwierig, weil wir 37 Kriterien haben. Drei, die mir besonders wichtig erscheinen, sind:
Erstens: ein verständlicher Sprachstil. Dazu gehört die Wortkonsistenz. Wir merken oft, dass Autor*innen verschiedene Begriffe für dasselbe Konzept verwenden. Wir haben aber gelernt, dass es sinnvoll ist, konsistent zu bleiben. Außerdem achten wir auf kurze Sätze und möglichst wenige Füllwörter.
Zweitens: die Textlänge. Es ist wichtig, sich Gedanken zu machen, wie viele Wörter für das jeweilige Format angemessen sind. Ein Limit hilft, Inhalte prägnant zu halten und Texte einheitlich zu gestalten. Als Wissenschaftler*innen neigen wir oft dazu, alles erklären zu wollen und viel zu schreiben, daher ist es hilfreich, bewusst zu kürzen.
Drittens: die Zuverlässigkeit der Informationen. Wir machen transparent, welche Limitationen eine Studie hat, wie sie finanziert wurde, ob Interessenkonflikte bestehen oder ob Publikationsbias relevant ist.
Sie kommunizieren bei LinkedIn und Instagram. Wie erzielen Sie Reichweite für Ihre Inhalte auf Plattformen, die von der Aufmerksamkeitsökonomie geprägt sind und Clickbait belohnen?
Ehrlich gesagt ist das eine Herausforderung für uns. Uns ist wichtig, verlässliche Informationen zu liefern, ohne Inhalte zu übertreiben oder Fragen zu stellen, die mehr versprechen, als der Text dann liefert. Das ist schwierig, weil die Algorithmen der Plattformen kurze, auffällige, bewegte oder extreme Inhalte bevorzugen.
Wir versuchen, dem mit ansprechendem, modernem Design entgegenzuwirken und deutlich zu machen, warum die Informationen relevant sind. Außerdem analysieren wir kontinuierlich, welche Inhalte gut ankommen, und greifen Themenwünsche aus Kommentaren auf.
Einige Forschende warnen davor, Chatbots für die Zusammenfassungen von Studien zu nutzen, da sie in der Tendenz stark verallgemeinern. Sie experimentieren bereits mit durch Sprachmodelle gestützten Zusammenfassungen. Was waren Ihre Erfahrungen damit?
Wir haben zunächst experimentiert, um zu sehen, was die verschiedenen verfügbaren Tools können. Schnell sind wir zu dem Schluss gekommen: mit den gängigen Chatbots funktioniert es nicht richtig gut.
Anfang 2025 hatten wir dann die Möglichkeit, ein Forschungsprojekt aufzuziehen und uns ernsthaft damit zu beschäftigen. Über ein Jahr hinweg haben wir mit Computerlinguist*innen daran gearbeitet, ein Schreibtool zu entwickeln, in das man eine Metaanalyse eingibt und das einen KLARpsy-Text daraus erstellt.
Und wie klappt es mit dem eigenen Tool?
Ich war überrascht, dass es schon recht gut funktioniert, aber trotzdem teilweise noch Informationen erfindet. Auch die Tonalität ist trotz unserer Bemühungen nicht immer neutral. Manchmal taucht wertende oder erzählende Sprache auf.
Momentan können wir also noch nicht darauf vertrauen, dass die produzierten Texte korrekt sind. Selbst nach unserer eigenen Entwicklung werden sie vor der Veröffentlichung geprüft werden müssen. Wir hoffen, dass wir noch weiter daran arbeiten können, um das zu verbessern.
Dabei war eigentlich Ihre Ausgangslage mit dem detaillierten Kriterienkatalog ideal, oder?
Genau. Für jedes Kriterium haben wir genau beschrieben, wie wir es definieren, mit Beispielen und so weiter. Trotzdem lässt sich das nicht eins zu eins umsetzen. Das ist, glaube ich, ein wichtiger Punkt für alle Bereiche, in denen wir mit generativen Programmen arbeiten. Man kann nicht automatisch richtige oder wahre Ergebnisse erwarten.
Natürlich ist es ein Vorteil, dass man dadurch skalieren kann: Mehr Texte können produziert und mehr Themen abgebildet werden. Das Tool soll als App langfristig auch öffentlich zugänglich sein, sodass Menschen selbst Metaanalysen eingeben und auswerten lassen können.
Wie kann man mit der Unsicherheit, die in den generierten Texten steckt, umgehen?
Momentan nutzen wir das Tool noch nicht, um Texte für unsere Website zu schreiben. Sollten wir jedoch irgendwann tatsächlich Texte veröffentlichen, die vollständig automatisch produziert wurden, werden wir sie mit einem Warnhinweis versehen. In diesem weisen wir darauf hin, dass die Texte nicht von Expert*innen geprüft wurden und nicht unbedingt korrekt sind. Zusätzlich arbeiten wir daran, dass das Tool selbst einen Score ausgibt, der anzeigt, wie wahrscheinlich die einzelnen Textabschnitte korrekt sind. Dann können wir es in den Arbeitsalltag einbinden und besser einschätzen, wo wir noch genauer prüfen müssen.