Stichprobengröße beim Zweistichproben-t-Test mit G*Power - Björn Walther (2024)

Stichprobengröße beim Zweistichproben-t-Test mit G*Power - Björn Walther (1)
Im Vorfeld jeder statistischen Untersuchung sollte mittels einer Poweranalyse sichergestellt werden, dass eine hinreichend große Menge an Probanden/Beobachtungen vorliegt. Warum? Kurz gesagt, damit der Test auch die Chance hat, einen Effekt erkennen zu können. Diese Chance nennt man auch statistische Power.

Inhaltsverzeichnis

1 Vorbemerkungen

1.1 Statistische Power (Teststärke)

Teststärke (sog. statistische Power) beschreibt die Fähigkeit eines Tests, einen in der Stichprobe tatsächlich vorhandenen Effekt auch erkennen zu können und ist essenziell – nur leider ist das zu wenig bekannt. Beim t-Test ist der Effekt offensichtlich ein Unterschied zwischen den Gruppen.

Die Power berechnet sich aus 1 abzüglich des Beta-Fehlers.
Der Beta-Fehler beschreibt das fälschliche Beibehalten der Nullhypothese. Hier kann man gut erkennen, dass Power und Beta-Fehler (auch Fehler 2. Art) direkt zusammenhängen. Ich erhöhe die Power, wenn ich den Beta-Fehler minimiere. Hier sind 5% Fehlerwahrscheinlichkeit erstrebenswert, somit ist die Power 1 – 0,05 = 0,95 (95%). Mehr ist kaum praktikabel. Als Kompromiss findet man als Untergrenze 0,8 – also 80%. Eine geringere Power im Vorfeld anzunehmen, ist kaum rechtfertigbar. Auch 0,8 muss begründet sein.

1.2 Alpha-Fehler

Der Alpha-Fehler (auch Fehler 1. Art) ist das fälschliche Ablehnen der Nullhypothese. Typisch ist als Grenze für Alpha 5% (0,05). Man akzeptiert also eine maximale Alpha-Fehlerwahrscheinlichkeit von 5%. Weitere typische Grenzen sind 1%, 0,1% oder sogar 10%. Achtung, es kommt hier häufig auf den Kontext an. Niedriger kann pauschal als besser erachtet werden – es geht ja um die Fehlervermeidung.

1.3 Effektstärke

Im Vorfeld benötigt man die Effektstärke, also wie stark der beobachtete Effekt wohl sein wird bzw. vermutet wird. Im Kontext des Zweistichproben-t-Tests verwendet man Cohens d nach Cohen (1988)/Cohen (1992)
Es gibt hierzu verschiedene Herangehensweisen zur Festlegung im Rahmen der Poweranalyse:

  • Der einfachste Weg ist eine Orientierung an Vergleichsstudien und Verwendung der dort angegebenen Effektstärke. Sollte keine angegeben sein, kann man die mitunter nachträglich mit den angegebenen Populationsparametern ermitteln.
  • Der praktische Weg ist das Festlegen auf Basis der Erfahrung des Forschers. Dies ist aber subjektiv und eine Begründung mit persönlicher Erfahrung kann bei Gutachtern schnell zu einer ablehnenden Haltung führen.
  • Der pragmatische Weg ist die Annahme eines mittleren Effektes (d = 0.5). Auch hier ist eine Begründung notwendig und kann nicht einfach so getroffen werden – nicht selten findet man aber keine.

Die Konventionen nach Cohen sind folgende:

  • d > 0,2 – kleiner Effekt
  • d > 0,5 – mittlerer Effekt
  • d > 0,8 – großer Effekt

1.4 Gerichtetheit der Hypothese

Typischerweise testet man ungerichtet, also zweiseitig. Man weiß also nicht, welche Gruppe einen höheren mittleren Wert der Testvariable aufweist (Gruppe A und B unterscheiden sich). Testet man einseitig, vermutet man im Vorfeld, dass Gruppe A einen höheren Wert der Testvariable hat als Gruppe B (oder umgekehrt).

2 Die Mindeststichprobengröße mit G*Power

Zunächst ist der richtige Test auszuwählen, was am einfachsten über das obere Menü funktioniert.

Means -> Two Independent Groups

Stichprobengröße beim Zweistichproben-t-Test mit G*Power - Björn Walther (2)

Bei Type of Power Analysis ist zwingend a priori auszuwählen.
Entsprechend sind nun Gerichtetheit des Tests, Effektstärke (vermutetes Cohens d, siehe oben), Alphafehler (typisch 5%), statistische Power (typisch 95%) und Allocation Ratio einzutragen. Letzteres kann man mit 1 annehmen oder wenn man die Aufteilung der Grundgesamtheit kennt, kann man diese hier eintragen.

Bei einem zweiseitigen Test mit mittlerer Effektstärke von d = 0,5, Alpha 5%, Power 95% und Allocation Ratio von 1 ergibt dies einen mindestens notwendigen Stichprobenumfang von n = 210 Beobachtungen. Je Gruppe also 105 Beobachtungen.

Stichprobengröße beim Zweistichproben-t-Test mit G*Power - Björn Walther (3)

3 Powertabellen

3.1 Zweiseitiges Testen

Hier eine Übersicht für verschiedene Effektstärken bei unterschiedlichen Power-Niveaus bei zweiseitigem Test:

Zweistichproben t-Test (2-seitig)Cohens d Alpha Power (1-Beta) n1 n2N0,8 0,05 0,95 42 42840,5 0,05 0,95 105 1052100,2 0,05 0,95 651 65113020,8 0,05 0,8 26 26520,5 0,05 0,8 64 641280,2 0,05 0,8 394 3947880,2 0,01 0,95 893 893 1786

Es ist recht deutlich erkennbar, dass mit sinkender Effektstärke bei gleichbleibender Power die notwendige Stichprobengröße (N) stark steigt. Der “worst case” wäre eine kleine Effektstärke von 0,2 bei einem Alphafehler von 1% sowie einer Power von 95%. Hier wären insgesamt 1786 Beobachtungen notwendig.

3.2 Einseitiges Testen

Die Übersicht für verschiedene Effektstärken bei unterschiedlichen Power-Niveaus bei einseitigem Test:

Zweistichproben t-Test (1-seitig)Cohens d Alpha Power (1-Beta) n1 n2N0,8 0,05 0,95 35 35700,5 0,05 0,95 88 881760,2 0,05 0,95 542 54210840,8 0,05 0,8 21 21420,5 0,05 0,8 51 511020,2 0,05 0,8 310 3106200,2 0,01 0,95 790 790 1580

Man kann hier gut erkennen, dass man bei einseitigen Tests ein wenig an der Mindeststichprobengröße “sparen” kann. Es hilft also im Vorfeld gerichtete Hypothesen aufzustellen.

4 Videotutorial

5 Literatur

  • Cohen, J. (1988). Statistical power analysis for the behavioral sciences. New York, NY: Psychology Press, Taylor & Francis Group
  • Cohen, J. (1992). A power primer. Psychological bulletin, 112(1), 155-159.
Stichprobengröße beim Zweistichproben-t-Test mit G*Power - Björn Walther (2024)

References

Top Articles
Latest Posts
Article information

Author: Ouida Strosin DO

Last Updated:

Views: 5537

Rating: 4.6 / 5 (76 voted)

Reviews: 91% of readers found this page helpful

Author information

Name: Ouida Strosin DO

Birthday: 1995-04-27

Address: Suite 927 930 Kilback Radial, Candidaville, TN 87795

Phone: +8561498978366

Job: Legacy Manufacturing Specialist

Hobby: Singing, Mountain biking, Water sports, Water sports, Taxidermy, Polo, Pet

Introduction: My name is Ouida Strosin DO, I am a precious, combative, spotless, modern, spotless, beautiful, precious person who loves writing and wants to share my knowledge and understanding with you.