Erfüllen Ziffernnoten die erwarteten Funktionen von Leistungsbeurteilung?

Eine Kurzzusammenfassung einiger Studien zum Thema und welche Schlüsse wir daraus ziehen können

Um die Eignung von Ziffernnoten zu bewerten, muss man zuerst einmal betrachten, welche Funktionen die Leistungsbeurteilung hat. Die wichtigste Funktion ist zweifellos die Rückmeldung an die SchülerInnen, die sich positiv auf den Lernprozess und die Motivation auswirken soll. Für die Eltern erfüllt die Leistungsbeurteilung eine Berichtsfunktion, indem sie zeigt, wo die Schüler*in steht und sie dient de facto der Selektion, der Auslese, denn die Noten entscheiden etwa über die Zulassung zu einer bestimmten Schulart.

Damit man Leistung überhaupt bewerten kann, braucht es immer einen Vergleichsmaßstab. Das heißt, die Leistung muss an irgendetwas gemessen werden. Es gibt im Grunde drei Maßstäbe:

die Leistung im Vergleich zu anderen,
die Leistung im Vergleich zu inhaltlichen Kriterien (gemessen am Lernstoff)
und die Leistung im Vergleich zum Wissen/Können früher (gemessen am Lernfortschritt)

Abhängig vom gewählten Maßstab wird dieselbe Leistung unterschiedlich bewertet.

Studien zeigen, dass in der Schule bei der Vergabe der Noten im Allgemeinen der Vergleich zu den Leistungen innerhalb der Klasse dominiert. (vgl. Brügelmann et al, 2006; Eder et al., 2009). Denn das Wissen im Vergleich zu früher, also den Lernfortschritt, in einer Note auszudrücken ist kaum möglich. Und sieht man sich den großen Umfang des Lernstoffs in einem Semester oder gar einem ganzen Jahr an wird ebenfalls deutlich, dass das Zusammenführen aller Leistungen in einer einzigen Note, kaum noch aussagekräftig ist.

Für den Lernprozess förderlich gilt aber Feedback auf genau jene Bereiche, die durch Noten nicht berücksichtigt werden (können): nämlich Feedback, bezogen auf den Lernfortschritt und bezogen auf den Lernstoff. Doch darauf werden wir später noch näher eingehen.

Betrachten wir zuerst noch die Qualität der Noten und die Frage: Wie aussagekräftig sind Noten wirklich? Eine Reihe von Studien [1] untersuchte Noten anhand der wissenschaftlichen Kriterien Objektivität, Gültigkeit und Verlässlichkeit. Mit

Objektivität ist gemeint, ob die Leistungsbeurteilung unabhängig von der beurteilenden Person ist.
Mit Gültigkeit ist gemeint, ob das tatsächlich gemessen wird, was zu messen vorgegeben wird.
Mit Verlässlichkeit ist die Leistungsbeurteilung unabhängig von äußeren Umständen wie z.B. des Beurteilungszeitpunkts gemeint.

Zusammengefasst: die Studien belegen allesamt, dass es Noten an diesen Kriterien mangelt.

Was die Objektivität betrifft: Noten beruhen auf Lehrer*innenurteilen. Demnach sind sie in höchstem Maße personenabhängig. Bereits in den 70ern (Ingenkamp 1976) wurde nachgewiesen, dass für dieselbe Arbeit von unterschiedlichen Lehrpersonen die gesamte Notenskala ausgeschöpft wird. Dieser Befund konnte in vielen Studien der letzten Jahrzehnte repliziert werden. Das gilt übrigens nicht nur für offenere Formate wie Deutsch-Aufsätze, sondern auch für Mathematik-Arbeiten. Darüber hinaus spielen sachfremde Informationen (wie z.B. der Sprachstil bei naturwissenschaftlichen Arbeiten) eine große Rolle und es gibt eine nachgewiesene, systematische Verzerrung der Notengebung durch Merkmale wie Geschlecht oder soziale Herkunft.

Die Frage nach der Gültigkeit, also ob tatsächlich gemessen wird, was zu messen vorgegeben wird, offenbart ein grundsätzliches Problem. Denn Noten geben vor, den Lernstand anzugeben. Nun ist der Lernstoff eines Semesters oder gar Jahres in den meisten Fächern aber so umfangreich, dass die Zeugnisnote den Lernstand einfach nicht adäquat abbilden KANN.

Andere Studien versuchten die Gültigkeit von Noten aufgrund ihrer Vorhersagekraft zu überprüfen. Das heißt, wie gut geben Noten darüber Auskunft, wie erfolgreich Schüler*innen in späteren Abschnitten des Bildungssystems sein werden? Auch hier ist der Zusammenhang und damit die Gültigkeit gering.[2]

Schließlich mangelt es auch an Verlässlichkeit, also an der Unabhängigkeit von äußeren Umständen. So haben die Zahl von Prüfungen und deren Reihenfolge wesentlichen Einfluss auf die Noten. Dieselbe Arbeit wurde anders beurteilt, je nachdem ob sie nach sehr guten oder nach weniger guten Arbeiten bewertet wurde. Es konnte auch gezeigt werden, dass dieselbe Arbeit von derselben Lehrperson unterschiedlich beurteilt wurde, wenn sie mit zeitlichem Abstand zweimal benotet wurde.[3]

Basierend auf diesen Analysen erweisen sich Ziffernnoten als unzureichend. Welche Rückschlüsse lassen sich daraus also auf die eingangs erwähnten Funktionen Rückmeldung, Bericht und Selektion ziehen?

Rückmeldung ist zweifellos die fundamentalste Funktion der Leistungsbeurteilung für das Lernen. Man geht heute davon aus, dass inhaltliche Rückmeldungen im Lernprozess überragend wichtig sind für effektives Lernen. Damit sie lernförderlich sind, sollten Rückmeldungen möglichst unmittelbar und lernbegleitend erfolgen. Sie sollten einen klaren Bezug zu den Lernzielen herstellen und in einem Dialog erfolgen.[4] Darüber hinaus wird Feedback erst wirksam, wenn sich der oder die Lernende auch tatsächlich damit auseinandersetzt[5]. Das alles spricht eindeutig für eine differenzierte Leistungsbeurteilung, wie es die ADELE an der ILB ist, und gegen Ziffernnoten.

Aber wie ist es, wenn Ziffernnoten durch differenzierte Rückmeldungen ergänzt werden, wie es das Bildungsministerium seit 2018 vorsieht?

In einer neuseeländischen Studie von 2008[6] wurde die Wirkung von Noten und/oder Feedback auf die Lernfortschritte untersucht. Das Ergebnis war eindeutig:

Wer gar keine Rückmeldung erhält, lernt am langsamsten denn er/sie wird allein gelassen.
Wer nur Noten bekommt, lernt ein wenig besser.
Bei Noten und differenziertem Feedback wird schon deutlich schneller gelernt.
Wer nur differenziertes Feedback erhält, lernt mit Abstand am besten.

Der Grund dafür ist laut Studie, dass Noten die gesamte Aufmerksamkeit auf sich ziehen. Die Lernenden setzen sich durch Noten nicht mehr mit dem Inhalt des Feedbacks auseinander. Damit verblassen die Vorteile der differenzierten Leistungsbeurteilung.

In ihrer Berichtsfunktion sollen Noten vor allem die Eltern informieren, wo ihre Kinder stehen. Doch wie bereits dargelegt, KANN eine Jahresnote die tatsächlichen Leistungen in einem Fach nicht adäquat abbilden und ist deshalb nicht aussagekräftig.

Bezüglich der Auslesefunktion wird in einer zusammenfassenden Analyse angemerkt, dass die geringe Vorhersagekraft und die mangelnde Objektivität und Zuverlässigkeit, den Noten die Grundlage für Selektionsentscheidungen“ entziehen.[7] Deshalb müssen bei der Leistungsbeurteilung „die Förder- und Berichtsfunktion Vorrang haben“.

Schlussfolgerung

Noten sind weder objektiv noch aussagekräftig oder zuverlässig. Sie geben maximal Auskunft über die Leistungsunterschiede innerhalb der einzelnen Klassen, taugen aber nicht als motivierende oder lerndienliche Rückmeldungen, was doch Sinn und Zweck von Leistungsbeurteilung ist.

Es geht also nicht darum, dass Noten einfach „böse“ sind. Wir wollen auch keine Schule ohne Leistung, ohne sich anstrengen, ohne lernen.

Noten sind in der Schule schlicht und einfach: das falsche Messinstrument.

[1] Brügelmann et al; Sind Noten nützlich – und nötig? Ziffernzensuren und ihre Alternativen im empirischen Vergleich. Eine Expertise der Arbeitsgruppe Primarstufe an der Universität Siegen im Auftrag des Grundschulverbands e. V., 2006, Frankfurt;
Ferdinand Eder, G H Neuweg, Josef Thonhauser; Leistungsfeststellung und Leistungsbeurteilung, 2009, Graz;
Hesse, Ingrid; Latzko, Brigitte; Diagnostik für Lehrkräfte, 2017, Leipzig;
Karl-Heinz Ingenkamp, Urban Lissmann; Lehrbuch der Pädagogischen Diagnostik, 2008, Weinheim

[2] Eder et al 2009, Brügelmann et al 2006

[3] Brügelmann et al 2006

[4] Winter, F., Lerndialog statt Noten. Neue Formen der Leistungsbeurteilung (Pädagogikpraxis), 2015, Weinheim

[5] Hattie, John; Timperley, Helen; The Power of Feedback, 2007, Review of Educational Research, 2007, Auckland
Nicol, David; Macfarlane, Debra; Formative Assessment and Self-Regulated Learning: A Model and Seven Principles of Good Feedback Practice, 2006, Studies in Higher Education

[6] Anastasiya A. Lipnevich, Jeffrey K. Smith; Response to Assessment Feedback: The Effects of Grades, Praise, and Source of Information, 2009, ETS Research Report

[7] Ebd. S. 27