„Es ist wichtig, bei jedem Schritt einen Plausibilitätscheck zu machen“

Frau Buttkus, was ist eigentlich Evaluation?

Evaluieren bedeutet, dass man etwas untersuchen und bewerten will. Wenn es beispielsweise um Projekte oder bestimmte Maßnahmen geht, will man herausfinden, wie gut sie funktionieren und welche Veränderungen sie bewirken. Dazu werden Daten erhoben, auf deren Grundlage beschrieben werden kann, ob und warum eine Veränderung zustande gekommen ist. Diese wird in der Regel anhand vorher festgelegter Kriterien bewertet. Es geht darum, aus den Ergebnissen Handlungsempfehlungen abzuleiten, also Verbesserungsvorschläge zu machen.

Die Europawissenschaftlerin und Trainerin Charlotte Buttkus verantwortet bei Phineo unter anderem das digitale Lernangebot zu „Wirkung analysieren“ und ist für die Weiterbildung Wirkungsmanagement zuständig. Phineo ist ein gemeinnütziges Analyse- und Beratungsunternehmen. Foto: PHINEO gAG

Zuerst müssen also die Kriterien festgelegt werden, nach denen evaluiert werden soll, oder?

Ja, die Evaluation kann unterschiedlichen Zwecken dienen. Wenn ich ein neues Projekt durchführe, möchte ich vielleicht wissen: Erreiche ich dadurch die Ziele, die ich mir vorgenommen habe? Evaluation kann zum Lernen, Lenken oder Legitimieren eingesetzt werden. Wenn ich lernen will, interessiert mich: Welche Aspekte funktionieren besonders gut, welche nicht? Beim Lenken und Steuern ist zum Beispiel das Ziel, eine Entscheidung zwischen verschiedenen Varianten eines Projektes zu treffen. Oder wenn ich als Träger mehrere Projekte durchführe, möchte ich vielleicht wissen: Mit welchem erreiche ich mehr Wirkung? Die Legitimierungsfunktion von Evaluation ist dann wichtig, wenn man seinen Auftraggebern zeigen will: Ich erreiche mit einer bestimmten Intervention das, was ich versprochen habe.

Wirkung ist ein wichtiges Stichwort. Was meinen Sie genau damit?

Gemeint ist eine Veränderung, die ich bei Zielgruppen auf Basis einer Intervention erreiche. Es gibt einen kausalen Zusammenhang zwischen einer Maßnahme oder einem Programm, das ich anbiete, und einer erreichten Veränderung bei den Zielgruppen. Diese Veränderung kann auf verschiedenen Ebenen passieren. Um das anschaulich zu machen, nutzen wir ein Stufenmodell, die sogenannte Wirkungstreppe. Sie hat sieben Stufen. Die ersten drei Stufen beschreiben die Leistungsebene. Ab der vierten Stufe sprechen wir von Wirkung. Die vierte Stufe beschreibt dabei die kognitiv-emotionale Ebene der Veränderung, also Wissen, Kompetenzen, Einstellungen und Bewusstsein. Die fünfte Stufe steht für das veränderte Handeln. Dabei gucke ich zum Beispiel, ob nach einer Schulung in der Praxis neue Methoden eingesetzt werden. Auf der nächsten Stufe geht es um Veränderungen der Lebenslage – zum Beispiel, dass für die Teilnehmenden nach einer Maßnahme spürbar wird, dass sich Ihr sozialer Status verändert. Außerdem gibt es auf der siebten Stufe die Ebene der gesellschaftlichen Wirkung, also des Impacts.

Die Wirkungstreppe zeigt, dass Veränderungen auf verschiedenen Ebenen stattfinden können. Grafik: PHINEO gAG

Können Sie das an einem Beispiel erklären?

Ein Beispiel sind Projekte zur Wissensvermittlung. Wenn ich zum Beispiel Schüler*innen Umweltbewusstsein vermitteln will, geht es darum, dass erstens eine Veranstaltung stattfindet, dass ich zweitens Teilnehmer*innen habe und dass diese drittens zuhören und mitmachen. Wenn das passiert, ist aber noch kein Wissen vermittelt worden. Ab der vierten Stufe der Treppe geht es um Wirkung, in diesem Fall um das veränderte Wissen zu Umweltbedrohungen. Im fünften Schritt würde es darum gehen, ob dieses Wissen auch in der Praxis angewendet wird. Die Schüler*innen stoßen Veränderungen an, indem sie mit ihren Eltern sprechen. Im Haushalt werden nun tatsächlich energiesparende Geräte eingesetzt, dies zeigt sich auch in einer geringeren Stromrechnung. Hier hat sich die Lebenslage verändert, die sechste Stufe der Wirkungstreppe. Auf der siebten Stufe wird gefragt: Wie wirkt sich das veränderte Umweltbewusstsein von Schüler*innen gesamtgesellschaftlich aus? Dieses Modell lässt sich auf unterschiedliche Projekte anwenden. Aber natürlich steckt der Teufel im Detail, wenn es darum geht: Was sind die Indikatoren, die darauf hinweisen, dass etwas eingetreten ist?

Wie definieren Sie Indikatoren hier genau?

Schwerpunkt Evaluation Alle Beiträge zum Thema

Indikatoren sind meist unvollständige Hinweise auf einen Sachverhalt, den ich nicht direkt erfassen kann. Ein Beispiel sind gelb werdende Blätter. Sie sind ein Indikator für Herbst, aber sie sind nicht der Herbst selbst. Möglicherweise gibt es andere Ursachen dafür, dass die Blätter gelb werden – Trockenheit zum Beispiel. Wenn man sicher sein möchte, braucht es weitere Indikatoren. Vor allem komplexe sozialen Veränderungen erkennt man nicht sofort. Man muss sich ihnen annähern. Worin drückt sich beispielsweise eine verbesserte Sozialkompetenz aus? Woran erkenne ich, dass jemand selbstbewusster ist? Um solche Fragen beantworten zu können, braucht es Indikatoren.

Wie geht man an eine Evaluation heran?

Bei einer Lehrveranstaltung hat man ein konkretes Ziel: Man möchte seinen Studierenden Wissen vermitteln. Aber bei anderen Projekten, die auf mehreren Ebenen wirken, geht es erst einmal darum, sich zu fokussieren: Welches sind meine wichtigsten Ziele? Mithilfe der Wirkungstreppe oder anderer Instrumente kann ich Ziele operationalisieren, also greifbar machen, um dazu Daten erheben zu können. Wenn ich messen will, ob die Wirkung tatsächlich mit meiner Intervention zu tun hat, brauche ich verschiedene Erhebungszeitpunkte. Ich muss wissen: Wie war es vorher? Wie ist es nach der Maßnahme? Dafür könnte ich beispielsweise Befragungen oder ein Wissensquiz vor und nach einer Veranstaltung durchführen. Dann muss ich noch herausrechnen, was sowieso passiert wäre. Dreijährige Kinder entwickeln sich auch weiter, ohne dass sie beispielsweise bei einem Kindergartenprogramm zur Prävention von Gewalt mitgemacht haben. Es ist methodisch anspruchsvoll, herauszufinden, was sowieso passiert wäre. Dafür brauche ich eine zufällig ausgewählte Kontrollgruppe. Anhand derer kann ich prüfen, ob es bei anderen Kindern ähnliche Effekte gibt.

Es gibt verschiedene Begriffe, die Bewertungs- und Beobachtungsmethoden bezeichnen. Was unterscheidet Evaluation beispielsweise von Monitoring oder Kommunikationscontrolling?

„Den Zusammenhang zwischen meinem übergeordnete Ziel und dem herzustellen, was ich in meiner täglichen Arbeit tue, ist sehr sinnstiftend.“ Charlotte Buttkus

Monitoring dokumentiert eher, was passiert und nicht so sehr, warum oder wie gut. Das lässt sich meistens während einer Maßnahmendurchführung intern dokumentieren. Zum Beispiel geht es beim Monitoring darum zu erfassen, dass Veranstaltungen stattfinden und wie viele Teilnehmende dabei sind. Dabei werden beispielsweise auch die Kosten und leicht zu erhebende Veränderungen erfasst – zum Beispiel, ob nach einer Arbeitsmarktmaßnahme Arbeitssuchende einen Arbeitsvertrag bekommen. Insgesamt bleibt das Instrument aber eher auf die Durchführung des Projektes bezogen. Kommunikationscontrolling ist noch etwas anderes und kann auch etwas breiter aufgestellt sein. Dabei stehen Unternehmenskommunikation und ihre Ziele im Mittelpunkt – beispielsweise eine gute Reputation. Man würde erfassen, wie hoch die Kosten dafür sind, dass man bestimmte Medieninhalte produziert, und wie hoch die Reichweite ist. Man könnte auch schauen: Entsteht eine veränderte Wahrnehmung in der Bevölkerung oder bei den jeweiligen Zielgruppen? Ist das auf meine Maßnahmen zurückzuführen? Aber in der Regel bleibt es bei den erstgenannten Untersuchungszielen: Welche Kosten haben ich und welche Reichweite erziele ich damit?

Welche Fehler können typischerweise bei Evaluationen passieren?

Auch hier gibt es verschiedene Ebenen. Wenn man selbst in einem Projekt arbeitet, kann es sein, dass bei Interviews zur Datenerhebung „sozial erwünscht“ geantwortet wird, also nicht so, wie die Person es tatsächlich empfindet, sondern so, wie sie glaubt, dass man es hören will Da kann eine externe Evaluation helfen. Auch, wenn es darum geht, einen Fragebogen zu designen, gibt es viele Fehlerquellen. Beispielsweise muss die Skala bei den Antworten so differenziert designt werden, dass man Unterschiede überhaupt feststellen kann. Bei der Datenauswertung kann es passieren, dass man falsch codiert oder Mittelwerte berechnet, obwohl die Datengrundlage das gar nicht hergibt. Wenn man bei qualitativen Erhebungen Interviews mit Einzelpersonen geführt hat, kann es zu unzulässigen Verallgemeinerungen kommen. Zum Beispiel, indem man sagt, 80 Prozent hätten irgendetwas erreicht, wenn man nur mit zehn Personen gesprochen hat. Das sind plakative Beispiele, aber in versteckter Form schleicht sich so etwas öfter ein. Deshalb ist es wichtig, bei jedem Schritt einen Plausibilitätscheck zu machen und auch dritte heranzuziehen.

Was kann ich selbst machen und wann sollte ich Externe hinzuziehen?

„Die Frage ist: Wen will ich erreichen? Wer sind meine Zielgruppen? Was genau sind ihre Bedarfe? Wie wirken sich einzelne Projekte auf meine übergeordneten Visionen aus?“ Charlotte Buttkus

Wenn es darum geht, den Nachweis zu erbringen, dass eine Wirkung auf die eigene Intervention zurückzuführen ist, wird es methodisch so kompliziert, dass man jemanden im Team braucht, der das wissenschaftlich exakt aufsetzen und auswerten kann. Oder man behilft sich dadurch, dass man externe Evaluator*innen hinzuzieht, die ihre Methoden durch ihre Erfahrung in anderen Organisationen auch auf dieses Projekt anwenden können.

Phineo bietet unterschiedliche Möglichkeiten, sich im Bereich der Evaluation fortzubilden. Wie sieht das aus?

Wir haben eine große Bandbreite an unterschiedlichen Angeboten für Anfänger*innen und Fortgeschrittene: Workshops und eine Lernplattform, bei der die Lerninhalte niedrigschwellig aufbereitet und kostenlos zugänglich sind. Es gibt eine Lernreise, in der es darum geht, Wirkungen zu analysieren. Außerdem bietet wir einen Wirkungsmanagement-Kurs an, eine einjährige Weiterbildung, an der vor allem Projektleitungen, Geschäftsführungen oder Vorstände teilnehmen. Das sind häufig Vertreter*innen von kleinen gemeinnützigen Organisationen im Bereich Umwelt- und Klimaschutz, aber auch von großen sozialen Trägern wie der Caritas oder den Maltesern. Zum Teil sind auch kommunale Vertreter*innen dabei. Das Schöne ist, dass man die Wirkungstreppe auf unterschiedliche Kontexte anwenden kann.

In den Workshops setzen sich die Teilnehmenden intensiv mit der Wirkung eigener Projekte auseinander. Wobei stoßen sie in diesem Prozess auf Herausforderungen?

Das ist immer sehr spannend. Die Frage ist: Wen will ich erreichen? Wer sind meine Zielgruppen? Was genau sind ihre Bedarfe? Wie wirken sich einzelne Projekte auf meine übergeordnete Vision aus? Den Zusammenhang zwischen meinem übergeordnete Ziel und dem, was ich in meiner täglichen Arbeit tue, herzustellen, ist sehr sinnstiftend. Entsprechend ist immer total viel Energie im Raum, wenn man in einem solchen Rahmen darüber diskutieren kann. Schwierigkeiten gibt es oft dabei, die Ziele einzugrenzen. Kompliziert wird es auch, wenn ich in einem Projekt verschiedene Zielgruppen habe, also zum Beispiel Schüler*innen, Eltern und Lehrkräfte gleichermaßen erreichen möchte.