Die graue Maus Eine empirische Untersuchung, ob eine Skalenbewertung bei der Bewertung von Deutschreferaten zu höherer Übereinstimmung zwischen Beurteilern führt
Summary
In der weiterführenden Schule führt die Bewertung der mündlichen Leistungen im Fach Deutsch häufig zu unerwünschten Situationen: Die Schüler/innen werden von unterschiedlichen Lehrkräften für eine vergleichbare mündliche Leistung unterschiedlich zensiert. Während eine Lehrkraft eine Leistung mit einer 2 benotet, wird die gleiche Leistung bei einer anderen Lehrkraft mit einer 6 benotet. In dieser empirischen Studie wurde in explorativem Sinne untersucht, ob es möglich ist, mit einer Skalenbewertung die Übereinstimmung in der Bewertung bei den Lehrkräften für Deutsch zu erhöhen.
12 Lehrkräfte für Deutsch haben an dieser empirischen Studie teilgenommen. Das Alter der Lehrkräfte (durchschnittlich 50,7 Jahre) sowie die Unterrichtserfahrung (2 bis 49 Jahre, durchschnittlich 22,9) variierten stark. Die 12 Lehrkräfte bekamen die Aufgabe, (Audio-) Aufnahmen von Referaten von 25 Zehntklässlern eines Gymnasiums in zwei Runden zu bewerten: In der ersten Runde wurden die Referate ganzheitlich, das heißt auf der Grundlage ihrer eigenen nicht-expliziten Kriterien, beurteilt. In der zweiten Runde, die einige Wochen später stattfand, bewerteten sie dieselben Referate mit der sogenannten „grauen Maus“ (das Referat, das mit der Note 5 und damit dem Durchschnitt des niederländischen Notensystems bewertet wurde).
In der zweiten Bewertungsrunde wurde eine bestimmte Form der Skalenbewertung angewendet, die von Stevens (1975) entwickelte Potenzfunktion. Dabei haben die Lehrkräfte jedes Mal ein bestimmtes Referat entweder schlechter oder besser als die „graue Maus“ eingestuft; zudem haben sie angegeben, wie viele Male schlechter bzw. besser das Referat war.
Es wurde angenommen, dass in der zweiten Runde mit der Skalenbewertung eine höhere Übereinstimmung in der Bewertung erzielt werden würde, da die Lehrkräfte einen festen Bezug in Form der „grauen Maus“, an der sie sich orientieren konnten, zur Verfügung hatten, dies war in der ersten Bewertungsrunde nicht der Fall.
Aus den Ergebnissen folgte allerdings, dass im Vergleich zu der Skalenbewertung die ganzheitliche Bewertung zu einer höheren Übereinstimmung führte. Die empirische Studie führte allerdings auch zu einem positiven Ergebnis: Sowohl die ganzheitlichen Bewertungen als auch die „graue Maus“-Bewertungen unterscheiden sich, von der Bedeutung her, nicht voneinander, sodass geschlussfolgert werden kann, dass die Lehrkräfte bei beiden Bewertungen, obwohl methodisch abweichend, genau dieselben Kriterien angewendet haben.
Eine plausible Erklärung für das Scheitern der Hypothese wird darin gesehen, dass die Lehrkräfte durchschnittlich sehr viele Jahre an Unterrichtserfahrung mitbrachten. Die Folge davon ist, dass sie im Laufe der Jahre einen mehr oder weniger festen Referenzrahmen für sich erstellt haben. In der ersten Bewertungsrunde konnten sie auf den vertrauten Referenzrahmen zurückgreifen, in der zweiten Bewertungsrunde jedoch musste ihre Beurteilung auf eine ganz neue Art und Weise durchgeführt werden, hier fehlte ihnen ihre Erfahrung. Das würde bedeuten, dass vor allem junge Lehrkräfte mit wenig Unterrichtserfahrung von der Skalenbewertung profitieren könnten.