Evaluationen als projektbegleitende Lernprozesse

„Je mehr sich die Wissenschaftskommunikation professionalisiert, je mehr Formate entstehen, sich verstetigen und je mehr Projekte gefördert werden, desto stärker wächst der Bedarf an ihrer Evaluation und an der Analyse ihrer Wirkungen.“

Zu diesem Schluss kam der Siggener Kreis 2018 in seiner Impulsschrift (S. 5) und die Expertinnen und Experten dieser Runde sind nicht allein mit dieser Ansicht. Dass gute Evaluationen eine Schlüsselrolle einnehmen, um künftige Projekte wirkungsorientiert und effektiv zu gestalten, wird in internationalen Forschungskreisen (Jensen & Gerber, 2020; King et al., 2015; Fischhoff, 2018) wie auch im Grundsatzpapier zur Wissenschaftskommunikation des Bundesministerium für Bildung und Forschung von 2019 thematisiert.

Doch wo setzt man an, um die Evaluation von Wissenschaftskommunikation zu inspirieren und produktiv voranzutreiben? Mit dieser Frage beschäftigt sich die „Impact Unit“ von Wissenschaft im Dialog* seit einigen Monaten. Unser Team befasst sich mit dem „state of the art“ und offenen Fragen zur Wirkungsorientierung und Evaluation in der Wissenschaftskommunikation, plant Anlässe zum Austausch zu diesen Themen und arbeitet an Tools zur konkreten Unterstützung der Praxis. Aber hierfür braucht es zunächst ein Bild des Status Quo der Evaluationsvorhaben in der deutschsprachigen Wissenschaftskommunikation.

Erfahrungen und Meinungen der Community dazu haben wir über Stakeholderworkshops und eine Communitybefragung¹ bereits gesammelt. Trotzdem blieb unklar, wie solche Evaluationen üblicherweise in der Praxis aussehen. Insbesondere wollten wir herausfinden, wie beziehungsweise welche Projektziele in den Evaluationen vorgestellt werden, welchen Zweck die Evaluation erfüllen soll und wie sie ausgestaltet ist, etwa in Hinblick auf die Erhebungsmethoden. Der beste Weg, um an Antworten zu kommen und damit auch Stärken und Problemfelder zu identifizieren, ist die Analyse solcher Evaluationsberichte.

Nach einer breit angelegten, systematischen Internetrecherche² lagen uns 55 Evaluationen vor, die den nötigen Detailgrad mitbrachten, unserer Eingrenzung von Wissenschaftskommunikation folgten und unterschiedliche Projekte einbezogen (auch wenn einige Formate stärker vertreten sind als andere³).

Doch ein Hinweis vorab: Die Stichprobengröße und die Tatsache, dass sie online generiert wurde, lässt natürlich keine generalisierenden Aussagen über die gesamte Evaluationspraxis zu. Trotzdem haben wir Denkanstöße bekommen, die Herausforderungen in der Evaluation betreffen und unsere Arbeit begleiten werden. Vier dieser Learnings aus den Ergebnissen stellen wir vor.

1. Ziele der Projekte lassen nicht zwangsläufig auf die Projektgestaltung schließen

Im Rahmen der Analyse haben wir uns angeschaut, welche Ziele für die Projekte und Maßnahmen benannt wurden. Die Ergebnisse zeigen, dass die Vermittlung von Informationen über Wissenschaft und Forschung deutlich häufiger als Ziel genannt wird, als dialog- oder beteiligungsorientierte Ziele. Besonders interessant ist dieser Fokus, da die überwiegende Mehrheit der Projekte interaktive Gestaltungselemente einbindet (44 von 51⁴). Und das, obwohl sich nur wenige Projektverantwortliche ihren Berichten zufolge explizit Interaktion oder Dialog zum Ziel gesetzt hatten (14 von 55). Zum einen spricht dies dafür, dass interaktive Elemente gerade im Kontext von Lernformaten verschiedene Funktionen einnehmen. Zum anderen mag es auf die vielen Faktoren hindeuten, die in der Projektentwicklung mitbedacht werden, etwa Trends in der Wissenschaftskommunikation, Besonderheiten der Zielgruppe oder schlichtweg der Spaßfaktor des Programms. Wie Ressourcen entlang der gesetzten Ziele strategisch eingesetzt werden, um sicherzustellen, dass Projektziele und Projektgestaltung zusammenpassen, sollte allerdings dabei nicht aus den Augen verloren werden.

Abbildung 1. Genannte Ziele: In der Analyse wurden die Ziele in vier verschiedenen Dimensionen betrachtet. Zwei sind hier abgebildet: Zum einen die Verteilung in der Wirkungsdimension. Darin werden Ziele in Anlehnung an das Logik-Modell in direkte Leistungen (Output), Ziele auf Individualebene (Outcome) oder Ziele auf gesellschaftlicher Ebene (Impact) unterschieden werden. Zum anderen in der Gestaltungsdimension, die anzeigt, inwieweit die Teilnehmenden involviert werden sollen: Geht es darum zu informieren, den Dialog anzuregen oder Menschen zu beteiligen. Dabei sind Mehrfachnennungen möglich: Eine Evaluation kann mehrere Ziele in unterschiedlichen Dimensionen verfolgen und ein Ziel kann sich in verschiedenen Dimensionen wiederfinden. N = 55 Evaluationsprojekte. Grafik: WiD

2. Der Unterschied zwischen Visionen und Zielen

In den 55 Evaluationsdokumenten wurden 25 Mal Impact-Ziele gezählt, sprich: Durch das Projekt sollten Veränderungen auf gesellschaftlicher Ebene erreicht werden. Aus Gründen, die mit der generellen (Nicht-)Messbarkeit solcher Vorsätze zusammenhängen, kann keine der Evaluationen ein abschließendes Urteil zu seiner gesellschaftlichen Tragweite fällen. Impact-Ziele scheinen oftmals eher als Vision zu dienen, die ein Projekt legitimieren und dessen Relevanz aufzeigen und weniger als klare Referenzen für die Einordnung des Projekterfolgs.

Eine explizite Trennung von messbaren Zielen und solchen mit „visionärem Charakter“ ist für die Evaluation und allgemeine Projektkommunikation erstrebenswert. Ein Projekt, das sich „zum Ziel setzte“, einen prägenden Einfluss auf das Bildungssystem oder das Bewusstsein der Bevölkerung zu nehmen und sich selbst als „erfolgreich“ bezeichnet, ohne diese Impacts in der Evaluation einzubeziehen, kann schließlich falsche Erwartungen an die Potenziale und Grenzen von Wissenschaftskommunikation wecken. Wie Impacts in mess- und erreichbare Ziele heruntergebrochen und wie dies transparent nach außen kommuniziert werden kann, wird uns noch weiter beschäftigen.

3. Zur Wirkungsmessung fehlen Vergleiche

Um gesicherte Aussagen über die Wirkung von Wissenschaftskommunikation zu treffen, sind Vergleichswerte notwendig. Interessanterweise wurden bei den uns vorliegenden Evaluationen oftmals Ziele festgelegt, die Veränderungen bei Einzelpersonen anvisieren (in 44 der 55 Evaluationen), gleichzeitig wurden 31 Fälle gezählt, die lediglich einmalige Erhebungen durchführten und auch ohne Vergleichswerte durch Kontrollgruppen oder externe Gruppenvergleiche arbeiteten. Alternativ wurde in einigen Fällen die Teilnehmenden gebeten, die Veränderungen, die das Projekt bei ihnen ausgelöst hat, selbst einzuschätzen.

Mehrfacherhebungen und Kontrollgruppendesigns erfordern Ressourcen und einen hohen Planungsaufwand. Doch wer die Wirkungseinordnung seinen Teilnehmenden überlässt, lässt viel Spielraum für subjektive Verzerrung. Denn was als leichte oder starke Meinungsänderung gilt, liegt im Auge des Betrachtenden und die Frage, wie man das eigene Interesse an Gentechnik vor dem Event einschätzt, ist rückwirkend schwierig zu bewerten. Für zuverlässige Aussagen über Veränderungen kommt man an der Messung von Vergleichswerten nicht vorbei.

Für uns stellt sich damit die Frage, wie die Umsetzung fundierter Wirkungsmessungen üblicher werden kann. An dieser Stelle soll betont werden, dass sich diese Anmerkung natürlich insbesondere an die viel vertretenen quantitativen Evaluationen richtet. Qualitative Interviews mögen beispielsweise Anhaltspunkte für die Wirkung ermöglichen, die eine einmalige Selbsteinschätzung über Fragebögen nicht leisten kann. Damit kommen wir aber zum nächsten Punkt.

Abbildung 2. Häufigkeitsverteilung der Erhebungsdesign-Merkmale, also die Strategie, mit der Daten erhoben werden. In einer Evaluation konnten mehrere Merkmale gezählt werden. N = 55 Evaluationsprojekte. Grafik: WiD

4. Der Selbstreport als Maßstabgeber

Selbstreport-Instrumente sind zur Einschätzung von Meinungen, Absichten und ähnlichen, nicht direkt erhebbaren Konstrukten eine gängige Erhebungsmethode. Dazu gehören etwa Fragebögen und Interviews. Das spiegelt sich auch in unserer Stichprobe (siehe Abb. 3). Doch wenn diese Tendenz auch allgemein in der Evaluationspraxis zutrifft (und die Communitybefragung von Wissenschaft im Dialog stützt diese These, siehe Abb. 4), dann wird ein Großteil der Wirkungsaussagen in der Wissenschaftskommunikation durch Methoden generiert, die einige Schwachstellen teilen: Die Güte ihrer Daten ist vornehmlich abhängig von der Motivation, dem einheitlichen Verständnis der Fragen und der gewissenhaften Beantwortung vonseiten der Teilnehmenden.

Darum gilt es eine Frage weiterzuverfolgen: Wie können durch beispielsweise Mixed-Methods-Verfahren, den Einsatz von Beobachtungen, Tests oder narrativen Zugängen diese Selbstauskünfte noch um weitere Perspektiven ergänzt werden?

Abbildung 3. Häufigkeitsverteilung der Erhebungsmethoden. In einer Evaluation konnten mehrere Erhebungsmethoden gezählt werden. N = 55 Evaluationsprojekte. Grafik: WiD

Abbildung 4. Zum Vergleich: Antworten aus der Community-Befragung von Wissenschaft im Dialog, November/Dezember 2019. N = 81; 28 Teilnehmende haben diese Frage nicht beantwortet. Eine Mehrfachauswahl war bei der Beantwortung möglich. Grafik: WiD

Dies sind nur einige Gedanken, die wir aus der Analyse mitnehmen. Wer mehr über unser Vorgehen, die Ergebnisse und unsere Schlussfolgerungen lesen möchte, kann bald hier einen Blick in den Bericht werfen. Insgesamt wird deutlich, dass viele Optimierungspotenziale nicht nur in der Verantwortung der Praktikerinnen und Praktiker liegen. Einige Umstände, etwa die fehlenden Ressourcen für elaborierte Wirkungsmessung, die Tatsache, dass wenige Evaluationen transparent gemacht werden oder der scheinbare Anspruch, große, wenn auch schwer messbare Ziele zu setzen, deuten ein Evaluationsverständnis an, dessen Veränderung in den Händen vieler Stakeholder und nicht zuletzt auf Fördererebene liegt. Ein Verständnis, das bisher Evaluationen eher als „Erfolgsgeschichte“ eines Projekts positioniert und weniger als projektbegleitenden Lernprozess. Es werden also pragmatische Lösungsansätze, aber auch kulturelles Umdenken nötig sein, um die Evaluationspraxis nachhaltig zu prägen.

Praxisbeispiele, Herausforderungen und Fragen zur Evaluation von Wissenschaftskommunikation diskutiert das Team des Impact Unit auch im Online-Workshop „Wisskomm evaluieren – Aktuelle Praxis und offene Fragen für Praktiker*innen.“

Gastbeiträge spiegeln nicht zwangsläufig die Meinung der Redaktion wider.

*Wissenschaft im Dialog ist auch einer der drei Träger des Portals Wissenschaftskommunikation.de.

¹ Ende 2019 hat Wissenschaft im Dialog eine Onlinebefragung zum Thema Evaluation und Wirkung in der Wissenschaftskommunikation gestartet, an der 109 Praktikerinnen und Praktiker teilnahmen.
² Wir haben 68 Stichwort-Kombinationen durchsucht und 3.400 Google-Treffer einbezogen. Details zum methodischen Verfahren, Maßnahmen zur Umgehung von Aktivitätenverfolgung und Ähnlichem sowie die komplette Liste der Stichwort-Kombinationen sind im Bericht nachzulesen.
³ In der Stichprobe sind unterschiedliche Formate der Wissenschaftskommunikation vertreten, doch dritte Lernorte für Kinder und Jugendliche tauchten am häufigsten auf. Es scheint, als wären diese am leichtesten im Internet aufzufinden. Ein Faktor ist die auffällige Zahl an Dissertationen, in deren Rahmen zum Beispiel Schülerlabore entwickelt werden. Mehr Gedanken hierzu werden im Bericht vorgestellt.
⁴ In vier Fällen war eine eindeutige Zuordnung der Gestaltungsmerkmale nicht möglich, daher wurden sie an dieser Stelle ausgeschlossen.