Multiple-Choice-Antwortformat im Dorsch Lexikon der Psychologie

Kubinger, Klaus D.

Multiple-Choice-Antwortformat

[engl. «Mehrfachwahl-Antwortformat»], [DIA, FSE], bei Leistungstests kommt als Antwortformat, d. h. die Art und Weise, mit der die Testperson auf Aufgaben reagieren kann, grundsätzlich das freie Antwortformat oder das Multiple-Choice-Antwortformat infrage. Während beim freien Antwortformat die Testperson den Lösungsvorschlag zur gestellten Testaufgabe selbst formuliert, werden ihr beim Multiple-Choice-Antwortformat versch. Antwortmöglichkeiten angeboten, aus denen sie die richtige(n) auswählen soll. Dem Multiple-Choice-Antwortformat wird gegenüber dem freien Antwortformat aus folg. Gründen oft der Vorzug gegeben: (1) Es ist ökonomisch (Gütekriterien), indem es den Auswertungsaufwand minimiert (eine computerisierte Auswertung selbst bei Papier-Bleistift-Tests (Papier-Bleistift-Test) mittels Scanner ist möglich), wohingegen freies Antwortformat (derzeit) gewöhnlich eine fachkompetente Person zur Bewertung jeder Antwort notwendig macht; (2) es ist bei Gruppentestungen immer einsetzbar, wohingegen zumindest mündliches freies Antworten bei Gruppentestungen ausgeschlossen ist; (3) es ist verrechnungssicher (vgl. Gütekriterien) , d. h. – fehlerloses Vorgehen vorausgesetzt –, jeder Auswerter kommt zu exakt denselben Testwerten, wohingegen die Verrechnung bei freiem Antwortformat dem Auswerter für gewöhnlich eine mehr oder weniger große Ermessensfreiheit einräumt (Objektivität, Beurteilerübereinstimmung). Dem stehen allerdings außerordentlich große Nachteile des Multiple-Choice-Antwortformats entgegen (vgl. Kubinger, 2014): (1) Es erfasst grundsätzlich nur die Fähigkeit des Wiedererkennens der Lösung, nicht die des (Re-)Produzierens einer solchen (und damit wohl meistens eine relevanzmäßig untergeordnete Fähigkeit); (2) es ermöglicht selbst Personen mit nur sehr geringer Ausprägung der geprüften Fähigkeit, durch Raten zufällig zur Lösung zu kommen (bei einer geringen Anzahl von Aufgaben und gleichzeitig geringer Anzahl von Antwortmöglichkeiten, z. B. nur 3, 4 oder 5, und nur einer einzigen Lösung je Aufgabe kann dabei die Wahrscheinlichkeit relativ groß werden, einen entsprechend hohen Testwert zu erzielen); (3) Testpersonen mit moderatem Fähigkeitsniveau können dabei zumeist einzelne Distraktoren (falsche Antwortmöglichkeiten) leicht ausschließen, sodass beim anschließenden Raten die Wahrscheinlichkeit, ohne die Lösung genau zu (er-)kennen zur richtigen Antwort zu kommen, oft bis auf ½ ansteigt; (4) die Erkenntnis, dass andere beim Raten mehr Glück als man selbst haben könnten, verringert die Akzeptanz des Tests bzw. reduziert dessen Image in Bezug auf wiss. Seriosität und Verbindlichkeit; (5) zumeist sind mehrere, qual. versch. Lösungsstrategien möglich, was dem Streben nach eindimensionalen Messungen zuwiderläuft (Skalierung, testtheoretisches Gütekriterium).

Um die Trefferwahrscheinlichkeit, also die Wahrscheinlichkeit für bloß zufällig richtiges Ankreuzen möglichst gering zu halten, empfiehlt es sich, (1) die Anzahl der Distraktoren zu erhöhen (zumeist nur 4, besser 7) und/oder (2) die Anzahl der Lösungen je Aufgabe (z. B. 2 von 5 Antwortmöglichkeiten sind richtig, die Aufgabe wird nur dann als gelöst verrechnet, wenn beide Lösungen und kein Distraktor angekreuzt wurden) – abgesehen davon, dass eben alle Distraktoren gleich «attraktiv» konstruiert werden. Als bewährt erwies sich neben dem Format «2 aus 5» das Format «x aus 5» (je Aufgabe eine der Testperson unbekannte Anzahl zw. 0 und 5 Lösungen bei insges. 5 Antwortmöglichkeiten; auch hier zählt eine Aufgabe nur dann als gelöst, wenn sämtliche Lösungen, aber kein Distraktor angekreuzt wurden). Schließlich können (3) die einzelnen Antwortmöglichkeiten sequenziell geboten werden, wobei die Testperson eine nach der anderen als richtig oder falsch zu beurteilen hat (entscheidet sie einmal für richtig, werden die übrigen nicht mehr vorgegeben).

Davon abgesehen gibt es die Möglichkeit, etwaige Rateeffekte rechnerisch unter Kontrolle zu bringen – nicht gemeint sind willkürliche Punktabzüge im Testwert bei Wahl einer falschen Antwort, sondern der Einsatz best. Modelle der Item-Response-Theorie (IRT). Sie kalkulieren bei der Schätzung des jew. gesuchten Fähigkeitsparameters aufgabenspezif. das faktische Erfolgsausmaß beim Versuch des Lösungerratens mit ein. Damit kommt es zu einer fairen Verrechnung der Testleistungen (Skalierung, testtheoretisches Gütekriterium).

Referenzen und vertiefende Literatur

Die Literaturverweise stehen Ihnen nur mit der Premium-Version zur Verfügung.

Über die Premium-Version