Stichprobengröße beim Zweistichproben-t-Test mit G*Power

Im Vorfeld jeder statistischen Untersuchung sollte mittels einer Poweranalyse sichergestellt werden, dass eine hinreichend große Menge an Probanden/Beobachtungen vorliegt. Warum? Kurz gesagt, damit der Test auch die Chance hat, einen Effekt erkennen zu können. Diese Chance nennt man auch statistische Power.

Inhaltsverzeichnis

1 Vorbemerkungen

1.1 Statistische Power (Teststärke)

Teststärke (sog. statistische Power) beschreibt die Fähigkeit eines Tests, einen in der Stichprobe tatsächlich vorhandenen Effekt auch erkennen zu können und ist essenziell – nur leider ist das zu wenig bekannt. Beim t-Test ist der Effekt offensichtlich ein Unterschied zwischen den Gruppen.

1.2 Alpha-Fehler

Der Alpha-Fehler (auch Fehler 1. Art) ist das fälschliche Ablehnen der Nullhypothese. Typisch ist als Grenze für Alpha 5% (0,05). Man akzeptiert also eine maximale Alpha-Fehlerwahrscheinlichkeit von 5%. Weitere typische Grenzen sind 1%, 0,1% oder sogar 10%. Achtung, es kommt hier häufig auf den Kontext an. Niedriger kann pauschal als besser erachtet werden – es geht ja um die Fehlervermeidung.

1.3 Effektstärke

Im Vorfeld benötigt man die Effektstärke, also wie stark der beobachtete Effekt wohl sein wird bzw. vermutet wird. Im Kontext des Zweistichproben-t-Tests verwendet man Cohens d nach Cohen (1988)/Cohen (1992)
Es gibt hierzu verschiedene Herangehensweisen zur Festlegung im Rahmen der Poweranalyse:

Der einfachste Weg ist eine Orientierung an Vergleichsstudien und Verwendung der dort angegebenen Effektstärke. Sollte keine angegeben sein, kann man die mitunter nachträglich mit den angegebenen Populationsparametern ermitteln.
Der praktische Weg ist das Festlegen auf Basis der Erfahrung des Forschers. Dies ist aber subjektiv und eine Begründung mit persönlicher Erfahrung kann bei Gutachtern schnell zu einer ablehnenden Haltung führen.
Der pragmatische Weg ist die Annahme eines mittleren Effektes (d = 0.5). Auch hier ist eine Begründung notwendig und kann nicht einfach so getroffen werden – nicht selten findet man aber keine.

Die Konventionen nach Cohen sind folgende:

d > 0,2 – kleiner Effekt
d > 0,5 – mittlerer Effekt
d > 0,8 – großer Effekt

1.4 Gerichtetheit der Hypothese

Typischerweise testet man ungerichtet, also zweiseitig. Man weiß also nicht, welche Gruppe einen höheren mittleren Wert der Testvariable aufweist (Gruppe A und B unterscheiden sich). Testet man einseitig, vermutet man im Vorfeld, dass Gruppe A einen höheren Wert der Testvariable hat als Gruppe B (oder umgekehrt).

2 Die Mindeststichprobengröße mit G*Power

Zunächst ist der richtige Test auszuwählen, was am einfachsten über das obere Menü funktioniert.

3 Powertabellen

3.1 Zweiseitiges Testen

Hier eine Übersicht für verschiedene Effektstärken bei unterschiedlichen Power-Niveaus bei zweiseitigem Test:

Zweistichproben t-Test (2-seitig)Cohens d Alpha Power (1-Beta) n1 n2N0,8 0,05 0,95 42 42840,5 0,05 0,95 105 1052100,2 0,05 0,95 651 65113020,8 0,05 0,8 26 26520,5 0,05 0,8 64 641280,2 0,05 0,8 394 3947880,2 0,01 0,95 893 893 1786

Es ist recht deutlich erkennbar, dass mit sinkender Effektstärke bei gleichbleibender Power die notwendige Stichprobengröße (N) stark steigt. Der “worst case” wäre eine kleine Effektstärke von 0,2 bei einem Alphafehler von 1% sowie einer Power von 95%. Hier wären insgesamt 1786 Beobachtungen notwendig.

3.2 Einseitiges Testen

Die Übersicht für verschiedene Effektstärken bei unterschiedlichen Power-Niveaus bei einseitigem Test:

Zweistichproben t-Test (1-seitig)Cohens d Alpha Power (1-Beta) n1 n2N0,8 0,05 0,95 35 35700,5 0,05 0,95 88 881760,2 0,05 0,95 542 54210840,8 0,05 0,8 21 21420,5 0,05 0,8 51 511020,2 0,05 0,8 310 3106200,2 0,01 0,95 790 790 1580

Man kann hier gut erkennen, dass man bei einseitigen Tests ein wenig an der Mindeststichprobengröße “sparen” kann. Es hilft also im Vorfeld gerichtete Hypothesen aufzustellen.

4 Videotutorial

Dieses Video auf YouTube ansehen.

5 Literatur

Cohen, J. (1988). Statistical power analysis for the behavioral sciences. New York, NY: Psychology Press, Taylor & Francis Group
Cohen, J. (1992). A power primer. Psychological bulletin, 112(1), 155-159.

Stichprobengröße beim Zweistichproben-t-Test mit G*Power - Björn Walther (2024)