Gute Multiple Choice Prüfungen gestalten

Marina Haller, Psychologisches Institut, hat in einem spannenden Webinar auf unserem Open Channel Distance Learning vorgestellt, wie sie Multiple Choice Prüfungen gestaltet. Sie hat eine Leidenschaft für ihr Gebiet und für das Unterrichten – perfekt, um auch Ungeübten das Thema näher zu bringen.

Im Webinar stellte sie uns verschiedene Fragetypen und Bewertungsmethoden vor. Damit diese verschiedenen Fragetypen adäquat eingesetzt werden, macht es Sinn, sich schon vor Beginn der Fragenformulierung und Typenwahl eine Übersicht über die eigenen Lerninhalte zu verschaffen. Nicht nur, welche thematischen Blöcke unterrichtet, sondern auch, auf welchen Ebenen des Lernens diese abgefragt werden sollen. Dazu eignet sich ein «Blueprint» besonders gut:

	Dimension 2: Taxonomie
Dimension 1: Thema	Kennen	Verstehen	Anwenden	Anteil Fragen
Thema 1				40%
Thema 2				40%
Thema 3				20%
Total	20%	30%	50%

Abb 1: Blueprint einer fiktiven Veranstaltung.

Die Zeilen bilden die verschiedenen thematischen Blöcke der Veranstaltung ab, die Spalten die Ebenen des Lernens. In diesem Beispiel sind sie auf drei Stufen aufgeteilt: Kennen, Verstehen, Anwenden. Nun möchte man im Beispiel im ersten Thema 40% der Fragen ansiedeln. Davon wiederum sollen 20% nur Wissensfragen sein, 30% Verstehensfragen und 50% Fragen, die die Anwendung des Gelernten prüfen.

Ist dieser Blueprint der Prüfung einmal angelegt, kann die Anzahl Fragen pro Block schnell und übersichtlich ermittelt werden. Dies macht es wiederum einfacher, die angemessene Frageform für jeden Block zu finden.

Fragen sollen fokussiert und authentisch sein

Fragen sollten inhaltlich keine Spitzfindigkeiten oder Trivialitäten abfragen, sondern Themen, die häufig vorkommen, häufige Fehlerquellen sind oder gravierende Folgen bei Nichtwissen haben. Die Fragestellung soll «authentisch» sein, d.h. bottom-up (nicht von der Theorie her kommend), fokussiert auf die eigentliche Frage und möglichst real bzw. konkret sein. Dazu gehört auch, dass keine Fangfragen gestellt werden, doppelte Verneinungen und vage Quantifizierungen wie «häufig», «oft», etc., aber auch umgekehrt «nie», «immer» vermieden werden.

Am Psychologischen Institut werden die Prüfungen nach der Bewertung mit statistischen Tests analysiert, u.a. indem ermittelt wird, wie viele Studierenden welche Antwortmöglichkeit gewählt haben – so kann man z.B. feststellen, ob die richtige Antwort genug «weit weg» von den falschen Antworten war oder ob Studierende gleich häufig die falschen Antworten gewählt haben wie richtige. Sollte dies der Fall sein, wäre es – so Haller – gut zu überlegen, ob in den Antwortmöglichkeiten womöglich verwirrende Hinweise enthalten waren und damit eine Reformulierung benötigen.

Die Fragetypen

Typ A+: Die positive Einfachwahl

Dieser Fragetyp fragt einen Sachinhalt ab. Es ist eine Single Choice Frage, d.h. von den vorgegebenen Antworten ist genau eine Antwort die «beste Antwort». Wichtig ist, dass die beste Antwort eine grosse Distanz zur zweitbesten Antwort hat. Distanz heisst, dass das unterscheidende Kriterium gut erkennbar sein muss. Dennoch dürfen die falschen Antworten, die sogenannten Distraktoren, nicht einfach Lückenfüller sein, sondern sollten ebenfalls plausibel sein, so dass das unterscheidende Kriterium für die richtige Wahl wirklich notwendig wird. Umgekehrt muss bei jeder falschen Antwort klar werden, weshalb diese nicht gut genug für die «beste Antwort» ist.

Typ A-: Die negative Einfachwahl

Mit diesem Fragetypen können gut wichtige Ausnahmen abgefragt werden, da man fragt, welche Antwort ist nicht korrekt ist. Es gelten dieselben Bedingungen wie bei Typ A+. Zusätzlich sollten die Antworten zwingend positiv formuliert werden, um doppelte Verneinungen und damit unnötige Verwirrung zu verhindern. Auch diese Fragen brauchen eine grosse Distanz zwischen der richtigen (d.h. falschen) Antwort und den Distraktoren. Wichtig ist bei diesem Fragetypen, dass graphisch hervorgehoben wird, dass es sich um eine Negativwahl handelt (z.B. das NICHT in der Frage gross oder fett schreiben).

Typ B: Zuordnung

Bei diesem Typ hat man mehrere kurze Aussagen vorgegeben und muss dann Begriffe oder Kurzantworten zuordnen, z.B. Antwort A gehört zu Aussage B etc. Er eignet sich gut, wenn unterschiedliche Aspekte eines Themas bedeutsam sind. Die Aussagen sollten positiv formuliert werden. Wichtig ist hier, dass plausible Aussagen formuliert werden, die nicht gegenseitig Definitionen oder Eigenschaftsbeschreibungen mitliefern, da man sonst mit der Beantwortung eines Teils der Fragen gleich die anderen Antworten erraten kann. Als Richtwert wird vorgeschlagen, für fünf Wahlantworten nicht mehr als drei Fragen zu stellen.

Typ PickN

Der Fragetyp funktioniert ähnlich wie die positive Einfachwahl, hat aber mehr als eine richtige Antwort, nämlich N richtige Antworten. So kann man später mehr Teilpunkte vergeben – zu den Bewertungen später mehr. In jedem Fall soll man hier explizit nennen, wie viele Antworten aus der Auswahl korrekt sind. Wie bei Typ A Fragen sollte hier die Distanz zwischen den richtigen und falschen Antworten genügend gross sein.

Typ Kprim

Es werden vier Antwortalternativen vorgelegt. Im Unterschied zu den vorherigen Fragetypen wird hier nicht eine «beste Antwort» abgefragt, sondern es muss für jede Frage richtig/falsch angekreuzt werden. Man macht vier verschiedene Aussagen, die möglichst verschiedene Aspekte eines Themas abfragen. Jede Aussage muss eindeutig richtig oder falsch sein. Man weist nicht darauf hin, wie viele Antworten richtig oder falsch sind. Auch sollte jede Aussage unabhängig von der anderen sein, damit andere Fragen die nächste nicht mitbeantworten. Über die ganze Prüfung hinweg macht es Sinn, die Anzahl richtigen/falschen Antworten ungefähr auszubalancieren (d.h. ca. 50% richtige und umgekehrt).

Wie kann man diese Fragen nun bewerten?

Es wurden vier Bewertungsmethoden vorgestellt:

Pattern: Hier gilt alles oder nichts, d.h. 1 Punkt oder kein Punkt wird vergeben. Diese Bewertung eignet sich für Single Choice Fragen (positiv oder negativ) oder für die Zuordnung. Wichtig ist, dass bei dieser Bewertungsmethode viele Fragen gestellt werden (rund 40).
Partial Credit: Hier werden Teilpunkte vergeben, dies eignet sich für den Typ PickN. Werden alle richtigen Antworten angewählt (d.h. alle richtigen sind korrekt angekreuzt, alle falschen Antworten sind nicht angekreuzt), gibt es 3 Punkte. Bei einem Fehler (eine korrekte Antwort nicht angekreuzt oder eine falsche Antwort angekreuzt) gibt es 2 Punkte, etc. Diese Bewertungsmethode sollte nicht angewendet werden, wenn es nur zwei Antwortmöglichkeiten gibt und davon nur eine richtig ist, da die Studierenden dann i.d.R. alles ankreuzen, um noch Teilpunkte zu erhalten.
Response Options: Jede korrekte Antwort gibt einen Punkt – d.h. pro Frage können die Studierenden so viele Punkte machen, wie Antworten da sind. Dies kann zu sehr vielen Punkten führen.
Kprim: Die Frage wird mit einem Punkt bewertet, wenn alle Antwortalternativen korrekt beurteilt worden sind. Bei drei von vier korrekten Antworten gibt es noch einen halben Punkt, bei weniger als drei korrekten Antworten noch 0 Punkte. Werden in einer Frage beide Antworten angekreuzt (d.h. richtig und falsch), gilt die Frage als falsch beantwortet. Es hat sich gezeigt, so Haller, dass die Studierenden diesen Fragetypen als sehr fair finden und ist auf OLAT auch zu finden.

Ein Auswertungsbeispiel zeigt – hier am Beispiel einer Single Choice Frage – wie unterschiedlich die Punktezahlen mit unterschiedlichen Bewertungsmethoden sein können. So wird bei der Pattern-Methode nur bei einer vollständig richtigen Antwort ein Punkt vergeben, mit Response Options erhält man hingegen gleich 5 Punkte. Eine Partial Credit-Methode macht hier keinen Sinn, da es nur eine beste Antwort gibt und dann auch hier nur die volle Punktzahl oder keine vergeben werden kann.

Abb. 2: Ausschnitt eines Auswertungsbeispiels für eine Single Choice Frage Typ A+ (positive Einfachwahl)

Bei der folgenden PickN Frage mit zwei korrekten Antworten wird die Verteilung schon ausgeglichener, dennoch scheint hierfür die Partial Credit-Methode am Geeignetsten zu sein:

Abb. 3: Ausschnitt eines Auswertungsbeispiels für eine PickN Frage mit zwei richtigen Antworten

Insgesamt zeigt es sich, dass es nicht trivial ist, eine gute Multiple Choice Prüfung zu entwerfen. Nicht allen stehen statistische Tests zur Verfügung, um die Prüfungen im Anschluss in diesem Detaillierungsgrad auszuwerten. Doch mit einem Blueprint und passenden Fragetypen und Bewertungsmethoden sind schon einige Hürden in der Planung überwunden. Marina Haller zeigte uns, dass Statistik nicht nur Prüfungsstoff sein kann, sondern auch dazu verwendet werden kann, die Fairness der Prüfungen für die Studierenden sicherzustellen!

Marina Haller bietet die Möglichkeit an, Feedback auf Ihre Prüfungsfragen zu geben und beantwortet Ihre Fragen: dlf@phil.uzh.ch.

Fragen sollen fokussiert und authentisch sein

Die Fragetypen

Wie kann man diese Fragen nun bewerten?

Ein Gedanke zu „Gute Multiple Choice Prüfungen gestalten“