Teststärke im Dorsch Lexikon der Psychologie

Erdfelder, Edgar

Teststärke

[engl. statistical power], [FSE], die Teststärke eines stat. Tests (Signifikanztest) ist die Wahrscheinlichkeit1-β eines signifikanten Testergebnisses bei Gültigkeit der Alternativhypothese (H1). Sie bildet das Komplement zur Typ-II-Fehlerwahrscheinlichkeit β, d. h. der Wahrscheinlichkeit, bei Gültigkeit von H1 fälschlich zugunsten der Nullhypothese (H0) zu entscheiden (Fehler zweiter Art). Die Kenntnis der Teststärke ist wichtig für eine fehlerfreie Interpretation von Signifikanztestergebnissen. Dies gilt unabhängig davon, ob ein Test signifikant (zugunsten von H1) oder insignifikant (zugunsten von H0) ausfällt. Bei insignifikantem Ausgang ist überzeugende Evidenz für die H0 nur dann gegeben, wenn die Teststärke für kleine Abweichungen von H0 bereits ausreichend hoch ist. Umgekehrt lässt ein signifikanter Ausgang nicht zwangsläufig auf einen bedeutsamen Effekt (Effektgröße) schließen, dann nämlich nicht, wenn die Teststärke bereits für vernachlässigbare Abweichungen von H0 sehr hoch ist. Skepsis ist bei signifikantem Testausgang natürlich auch dann geboten, wenn die Teststärke für bedeutsame Abweichungen von H0 nur unwesentlich größer als die Typ-I-Fehlerwahrscheinlichkeit α ausfällt (Fehler erster Art). In diesem Fall kann der Test zw. H0 und H1 nicht vernünftig diskriminieren, sodass der signifikante Testausgang möglicherweise auf der fälschlichen Behauptung eines Effekts (Typ-I-Fehler) statt auf der korrekten Aufdeckung eines Effekts beruht. Somit ist bei stat. Tests eine routinemäßige Kontrolle der Teststärke unabhängig vom Testausgang geboten. Cohen (1988) hat hierfür zwei Formen der Teststärkeanalyse vorgeschlagen, A-priori- und Post-hoc-Analysen. Bei A-priori-Teststärkeanalysen wird vor der Durchführung einer empirischen Untersuchung der Stichprobenumfang (Stichprobe) berechnet, der erforderlich ist, um einen bedeutsamen Populationseffekt (d. h. eine bedeutsame Abweichung von H0) bei gewähltem Typ-I-Fehlerrisiko α mit gewünschter Teststärke (1-β) aufzudecken (optimaler Stichprobenumfang). Umgekehrt wird bei Post-hoc-Teststärkeanalysen für bereits vorliegende bzw. veröffentlichte Untersuchungen berechnet, wie groß die hierbei erzielte Teststärke bei gegebenem α, gegebener Populationseffektgröße (Population) und gegebenem Stichprobenumfang ausfällt. Für die wichtigsten stat. Tests hat Cohen (1988) zudem Effektgrößenkonventionen vorgeschlagen, die def., was unter kleinen, mittleren und großen Effektstärken zu verstehen ist. Zusammen mit den von Cohen (1988) vorgelegten Tab. wird auf dieser Basis eine schnelle, überschlagsmäßige Teststärkekontrolle möglich. Als Daumenregel empfiehlt Cohen, Stichprobenumfänge mind. so groß zu wählen, dass die Teststärke bei konventionellem α = ,05 und einer mittleren Populationseffektstärke mind. 1-β = ,80 beträgt. Für die Anwendung empfiehlt sich die Verwendung von Teststärkeprogrammen wie G*Power, die genauer, flexibler und (bei ausreichender Fachkenntnis) auch schneller bedienbar sind als Tabellenwerke.

Referenzen und vertiefende Literatur

Die Literaturverweise stehen Ihnen nur mit der Premium-Version zur Verfügung.

Über die Premium-Version