Foto: Bill Oxford

Lässt sich der Medienerfolg von Studien vorhersagen?

Kann ein Algorithmus berechnen, welche wissenschaftlichen Publikationen von den Medien aufgegriffen werden? Das haben Forschende am Karlsruher Institut für Technologie* gemeinsam mit dem Science Media Center erprobt. Der Kommunikationswissenschaftler Nikolai Promies berichtet über das Experiment.

Herr Promies, Sie haben ein Prognoseverfahren mitentwickelt, mit dessen Hilfe man vorhersagen kann, welche Forschungsarbeiten es in die Medien schaffen. Wie funktioniert es?

Wir haben einerseits Daten über wissenschaftliche Studien gesammelt und andererseits Informationen darüber, welche dieser Studien von den Medien aufgegriffen wurden. Damit haben wir einen Algorithmus trainiert und anschließend an einem neuen Datensatz untersucht, wie gut das Verfahren den medialen Erfolg von Studien vorhersagen kann.

Welche Studien haben Sie untersucht und welche Eigenschaften haben Sie sich konkret angesehen?

Grundlage waren sämtliche zwischen August 2016 und Juli 2017 veröffentlichten wissenschaftlichen Studien, die in der Literaturdatenbank Scopus verzeichnet sind. Das waren fast zwei Millionen Publikationen. Wir haben jeweils den Abstract gespeichert sowie das Journal, in dem die Studien erschienen sind. Parallel dazu haben wir versucht zu erfassen, zu welchen Publikationen es eine Pressemitteilung gab. Dazu haben wir die Portale Eurekalert und Alpha Galileo genutzt, die Pressemeldungen aus der Wissenschaft aggregieren. Um die Berichterstattung zu erfassen, haben wir den sogenannten „Mainstream Media Score“ der Firma Altmetric verwendet. Sobald eine Studie in mindestens einem der dort erfassten mehr als 2.000 – hauptsächlich englischsprachigen – Medientitel erwähnt wurde, haben wir das als mediale Aufmerksamkeit gewertet.

Porträt Nikolai Promies
Nikolai Promies ist wissenschaftlicher Mitarbeiter am Lehrstuhl für Wissenschaftskommunikation in digitalen Medien am Karlsruher Institut für Technologie. Zuvor hat er dort den Masterstudiengang Wissenschaft – Medien – Kommunikation abgeschlossen. In seiner Forschung untersucht er unter anderem die Nachrichtenauswahl im (Wissenschafts-)Journalismus, wofür er vor allem automatisierte, datengestützte Verfahren verwendet. Foto: Nicolaz Groll

Welche Faktoren waren denn am wichtigsten – also was macht eine Studie international für den Wissenschaftsjournalismus interessant?

Erwartungsgemäß spielte das Journal eine wichtige Rolle: Was in Nature oder Science erscheint, wird eher von den Medien aufgegriffen. Journalistinnen und Journalisten halten Publikationen in bestimmten wissenschaftlichen Zeitschriften offenbar generell für wichtiger. Ob es eine Pressemitteilung gab, war ebenfalls von Bedeutung. Nur anhand dieser beiden Faktoren – Journal und Pressemeldung – ließ sich bereits recht gut vorhersagen, welche Studie keine mediale Aufmerksamkeit erhält. Die umgekehrte Vorhersage war dagegen genauer, wenn der Algorithmus nicht diese beiden Eigenschaften berücksichtigte, sondern nur die Abstracts der Studie.

Welche Themen oder Formulierungen in den Abstracts waren denn besonders erfolgversprechend?

Das kann ich so gar nicht beantworten, weil wir zur Auswertung der Abstracts ebenfalls ein Verfahren aus dem maschinellen Lernen genutzt haben. Eine echte inhaltliche oder thematische Einordnung wäre bei zwei Millionen Abstracts nicht mit vertretbarem Aufwand machbar. Unsere technischen Partner im SMC Lab, das zum Science Media Center gehört, haben deshalb eine Methode entwickelt, um den Inhalt der Abstracts vollautomatisch in die Berechnungen einfließen lassen zu können. Das heißt, der Algorithmus transformiert jeden Abstract in eine berechenbare Größe, aber man kann nicht ohne Weiteres verstehen, wie das mit konkreten Inhalten oder Formulierungen zusammenhängt. So erhalten wir am Ende nur die Aussage, dass der Abstract wichtig ist, aber nicht, was genau drinstehen sollte.

Wie gut ist die Vorhersagekraft des Verfahrens?

Wie schon gesagt, war die Genauigkeit bei der negativen Vorhersage besser. Sprich, der Algorithmus kann es ziemlich gut vorhersagen, wenn eine Studie nicht in den Medien beachtet wird. Die hohe Trefferquote hat allerdings auch statistische Gründe. Denn über die allermeisten der 5.500 Studien, die jeden Tag neu publiziert werden, gibt es nun mal keine Presseberichte. Deshalb ist – vereinfacht gesagt – die Prognose, dass es kein Medienecho geben wird, per se eine gute Wahl. Bei der positiven Vorhersage war es beim besten Modell so, dass wir drei Viertel der Studien, über die die Medien später berichteten, richtig erkannten.

„Die Pressestellen von wissenschaftlichen Einrichtungen spielen eine sehr wichtige Rolle dafür, von welcher Forschung die breite Öffentlichkeit Notiz nimmt.“Nikolai Promies
Reicht diese Trefferquote für eine praktische Anwendung?

Das kommt darauf an, was man damit machen möchte. Wir hatten mal überlegt, ob das Science Media Center das Verfahren für sich nutzen könnte, um vorherzusagen, welche Studien ein großes Medienecho hervorrufen werden. Dann könnten sie sich darauf besser vorbereiten. Dafür reicht die Genauigkeit der Vorhersage aber noch nicht aus. Wir wollten allerdings auch unabhängig davon einfach einmal testen, was so ein maschinelles Verfahren uns über die Nachrichtenauswahl im Wissenschaftsjournalismus sagen kann. Da ist die negative Vorhersagekraft doch interessant. Sie besagt, dass es nur selten mediale Berichterstattung gibt, wenn zu einer Studie keine Pressemitteilung veröffentlicht wird. Das heißt im Umkehrschluss, die Pressestellen von wissenschaftlichen Einrichtungen spielen eine sehr wichtige Rolle dafür, von welcher Forschung die breite Öffentlichkeit Notiz nimmt und von welcher nicht. Mit unserem Werkzeug könnten sie die Wahrscheinlichkeit einer Medienberichterstattung zu einer Studie vorhersagen, abhängig davon, ob sie eine Pressemitteilung dazu verfassen. Das könnte helfen, Ressourcen sinnvoll zu verteilen.

Ließe sich die Genauigkeit noch verbessern, etwa mit mehr Daten oder einem anderen Verfahren?

Es gibt noch ein paar Faktoren, die wir gern untersuchen würden, etwa für welche Universität oder welche Institution die Autorinnen und Autoren einer Studie arbeiten. Diese Informationen liegen in der Literaturdatenbank Scopus zwar vor, aber in sehr uneinheitlichem Format. So kann es für eine Hochschule unterschiedliche Schreibweisen geben. Zu manchen Studien gibt es auch Keywords, die eine thematische Eingrenzung ermöglichen, aber diese werden ebenfalls sehr uneinheitlich vergeben. Außerdem sind wir mit der Auswertung von Altmetric noch nicht ganz zufrieden. Denn dort wird Berichterstattung vor allem dann erfasst, wenn in einem Medienbeitrag auch die DOI-Kennziffer der Studie auftaucht oder über den DOI zur Studie verlinkt wird. Schreibt ein Medium nur „Forschende der Harvard-Universität haben festgestellt …“, dann bleibt das für Altmetric unentdeckt. Wir wollen diesen Score daher künftig durch eigene Recherche in Pressedatenbanken wie der von LexisNexis ersetzen.

Im Video: Meik Bittkowski vom SMC Lab des Science Media Centers stellt das Prognosetool in einem Vortrag am KIT vor.

Wie fügt sich Ihre Arbeit in die Journalismusforschung ein?

Aus Sicht der Forschung zur Nachrichtenauswahl haben wir eine ganze besondere Ausgangslage. Wir sehen uns an, über welche aktuelle Studien der Wissenschaftsjournalismus berichtet. Durch Datenbanken wie Scopus können wir gut abschätzen, wie groß die Zahl der möglichen „Ereignisse“ ist, aus denen die Journalistinnen und Journalisten auswählen können. In den meisten anderen Bereichen der Nachrichten geht das nicht. Wenn man etwa genauso umfassend untersuchen wollte, welche politischen Ereignisse es in die Medien schaffen und welche nicht, ginge das nicht – denn es gibt keine Sammlung aller politischen Ereignisse auf der Welt, und es ist auch gar nicht so einfach zu definieren, was überhaupt ein politisches Ereignis ist. Das Kriterium „in Fachzeitschriften publizierte Studien“ ist dagegen schon sehr eindeutig. Die Forschung zu Nachrichtenfaktoren etwa kann sich deshalb meist nur ansehen, welche Eigenschaften die Ereignisse haben, die letztlich ausgewählt wurden. Aber die Grundgesamtheit ist unbekannt, weshalb solche umfassenden Input-Output-Analysen wie bei uns bislang dort nicht möglich waren.

Es gibt aber auch Wissenschaftsjournalismus, der sich nicht mit aktuellen Studien beschäftigt?

Ja, klar. Markus Lehmkuhl, der den Lehrstuhl für Wissenschaftskommunikation in digitalen Medien am KIT innehat und die Idee zu dem Prognosetool hatte, unterscheidet in einer Typologie vier verschiedene Arten von Wissenschaftjournalismus: dieser kann zeitlich aktuell oder ohne aktuellen Anlass sein; sowie entweder „wissenschaftsgeneriert“ oder „nicht wissenschaftsgeneriert“. Letzteres bezieht sich darauf, ob die Ereignisse innerhalb des Wissenschaftssystems stattfinden – wie eben Forschung, Kongresse und so weiter –, oder ob es externe Ereignisse sind wie das Reaktorunglück von Fukushima, zu deren Einordnung man wissenschaftliche Expertise braucht. Wir haben uns also nur eine von vier Spielarten des Wissenschaftsjournalismus angesehen, nämlich den, bei dem es um aktuelle Forschungsergebnisse geht.

„Diese Tools können das Fachwissen von Menschen nicht ersetzen. Aber beides kann sich ergänzen.“Nikolai Promies
Nutzen Sie automatisierte Methoden noch für andere Forschungsprojekte?

Wir beschäftigen uns hier am Lehrstuhl mit der Entwicklung von Tools für den Wissenschaftsjournalismus. Zum Beispiel haben wir jüngst den „Consensus Explorer“ entwickelt. Damit kann man Umfragen erstellen, verschicken und auswerten, die den wissenschaftlichen Konsens zu einer bestimmten Fragestellung ermitteln, beispielsweise zum Gesundheitsrisiko durch multiresistente Keime. Das Verfahren nutzt die Publikationsdaten von Forschenden, also wie viel sie zum Thema veröffentlicht haben und in welchen Fachzeitschriften, um relevante Expertinnen und Experten für die automatisierte Befragung auszuwählen. Ganz ähnlich arbeitet der „Expert Explorer“, der auch schon online verfügbar ist. Er soll Journalistinnen und Journalisten dabei helfen, geeignete wissenschaftlichen Expertinnen und Experten zu finden, basierend auf deren Publikationen.

Ist das denn sinnvoller, für so etwas Technik zu bemühen, als einfach jemanden zu fragen, der sich auf dem Gebiet auskennt?

Aktuell sind diese Tools auf jeden Fall nur als Hilfsmittel zu verstehen. Sie können das Fachwissen von Menschen nicht ersetzen. Aber beides kann sich ergänzen. Der Expert Explorer kann zum Beispiel eine Expertin oder einen Experten nennen, den man dann als Ausgangspunkt für die weitere Recherche nach geeigneten Forschenden nehmen kann. Natürlich müssen Medienschaffende dafür aufgeschlossen sein, diese neuen Werkzeuge in ihre Arbeitsabläufe zu integrieren.

 

* Das Karlsruher Institut für Technologie (KIT) ist einer der drei Träger des Portals Wissenschaftskommunikation.de. Der Autor des Interviews arbeitet am Lehrstuhl für Wissenschaftskommunikation mit dem Schwerpunkt Linguistik des KIT.