Biometrische Planung von Versuchsvorhaben...Johannes Hain Biometrische Planung und Poweranalyse Einleitung Determinanten von Signiﬁkanztests Poweranalyse Posthoc-Poweranalyse A priori-Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Biometrische Planung von Versuchsvorhaben

Einfuhrung in das Prinzip der Poweranalyse

Johannes Hain

Lehrstuhl fur Mathematik VIII – Statistik

http://statistik.mathematik.uni-wuerzburg.de/~hain

Johannes Hain Biometrische Planung und Poweranalyse

http://statistik.mathematik.uni-wuerzburg.de/~hain


Poweranalyse

Ziel des Vortrags

Im nachfolgenden Vortrag sollen

die Bedeutung der Poweranalyse im Kontext vonSignifikanztests motiviert und

die Grundprinzipien dieser Vorgehensweise dargestellt werden.

Die Poweranalyse stellt ein praktisches Werkzeug dar fur denUmgang mit den folgenden biometrischen Parametern aus denTierversuchsantragen:

Wahrscheinlichkeit fur den Fehler 1. Art

Wahrscheinlichkeit fur den Fehler 2. Art

Biologisch relevante Differenz

Annahmen zu Variabilitat der Hauptzielgroßen



Poweranalyse

Sinn von Signifikanztests

Ziel von Signifikanztests

Bei der Durchfuhrung von Studien und Untersuchungen soll nichtnur eine Aussage uber die erhobene Stichprobe getroffen werden,sondern naturlich eine allgemeine Aussage uber die zugrundeliegende Gesamtpopulation – und das mit hoher Sicherheit.

Prinzip:

→ Stelle eine (Null-)Hypothese H0 auf, deren Wahrheitsgehaltdann mit einem Testverfahren auf Basis der Stichprobeuberpruft werden soll.

→ Uber die Gultigkeit von H0 entscheidet man dann mit demp-Wert, der die Wahrscheinlichkeit fur das Auftreten derbeobachteten Daten unter der Annahme der Gultigkeit von H0

darstellt. Ist der p-Wert kleiner als 0.05, wird H0 verworfen.



Poweranalyse

Fehler bei der Testentscheidung

Bei einer Entscheidung basierend auf einem Signifikanztest hatman niemals absolute Sicherheit – egal wie man sich entscheidet esbesteht also immer die Gefahr eine Fehlentscheidung zu treffen:

H0 ist wahr H0 ist nicht wahr

Entscheidung fur H0 kein Fehler Fehler 2. Art

Entscheidung fur H1 Fehler 1. Art kein Fehler

Bei einem Signifikanztest kann man leider immer nur einenFehler kontrollieren, namlich den Fehler 1 Art.

Der Fehler 2. Art hingegen kann unter Umstanden relativ großwerden.



Poweranalyse

Der Fehler 1. Art

Definition Fehler 1. Art

Der Fehler 1. Art ist das irrtumlich Verwerfen der Nullhypothese.Die Wahrscheinlichkeit α fur den Fehler 1. Art kann mit denSignifikanztests kontrolliert werden und soll moglichst gering sein.

→ Weil man die Wahrscheinlichkeit fur den Fehler 1. Art gutkontrollieren kann, wird H0 so formuliert, dass dieser Fehlerder

”schlimmere“ der beiden moglichen Fehler ist.

→ α wird im Regelfall stets auf 0.05 gesetzt. Ausnahmen sindhier sehr selten.



Poweranalyse

Der Fehler 1. ArtGrafische Veranschaulichung

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

Der Fehler 1. Art beim zweiseitigen Test



Poweranalyse

Der Fehler 1. ArtGrafische Veranschaulichung

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

Der Fehler 1. Art beim einseitigen Test



Poweranalyse

Fehler 2. Art und Power eines Tests

Definition Fehler 2. Art und Power

Der Fehler 2. Art ist das irrtumliche Beibehalten derNullhypothese. Die Wahrscheinlichkeit fur diesen Fehler soll mit βbezeichnet werden. Die Power eines Tests ist dieGegenwahrscheinlichkeit 1− β, d.h. die Wahrscheinlichkeit dafur,dass der Test tatsachlich vorhandene Unterschiede auch wirklicherkennt.

H0 ist wahr H0 ist nicht wahr

Entscheidung fur H0 1-α β

Entscheidung fur H1 α 1-β



Poweranalyse

Fehler 2. Art und Power eines TestsGrafische Veranschaulichung

��

�� αβ



Poweranalyse

Korrekte Interpretation des Testergebnisses

Ein Signifikanztest gestattet nur eine der beiden folgendenEntscheidungen:

Ablehung von H0 = Annahme von H1

oder

Nicht-Ablehnung von H0 6= Annahme von H0

Dies bedeutet also:

⇒ Die Nicht-Ablehnung von H0 darf keinesfalls als ein Nachweisder statistischen Richtigkeit der Nullhypothesefehlinterpertiert werden.

⇒ Streng genommen bedeutet eine Nicht-Ablehnung von H0 alsoeine Stimmenthaltung, d.h. das Stichprobenergebnis ist mit

der Nullhypothese vereinbar.



Poweranalyse

Was tun bei nichtsignifikanten Ergebnissen?

In der wissenschaftlichen Praxis stoßt man bei der Verwendunginferenzstatistischer Verfahren oft auf das Problem, dass bei einemdurchgefuhrten Test H0 nicht verworfen werden kann.

→ Dieses Ergebnis bedeutet aber nicht, dass H0 gultig ist.

→ Gibt es hier nun tatsachlich keinen Unterschied oder wurdehier nur kein Unterschied erkannt?

Es muss in einem solchen Fall eine Moglichkeit geben, dieNullhypothese nicht nur nicht abzulehnen sondern mit einergewissen Wahrscheinlichkeit auch annehmen zu konnen.

⇒ Die Losung fur dieses Problem ist die Poweranalyse.



Poweranalyse

Die Effektgroße als weitere Determinante

Neben den beiden Wahrscheinlichkeiten fur den Fehler 1. und 2.Art spielt bei der Poweranalyse eine weitere Große eineentscheidende Rolle: die Effektgroße

Definition Effektgroße

Die Effektgroße beurteilt die Frage der”praktischen

Bedeutsamkeit“ von vorliegenden Unterschieden zwischen zweioder mehreren Untersuchungseinheiten

→ Wie deutlich mussen sich zwei Gruppen in einer untersuchtenVariable unterscheiden, dass dieser Unterschied fachlichrelevant ist?

→ Die Effektstarke hangt vom Abstand der Gruppenmittelwerteund von der Varianz der beiden Gruppen ab.



Poweranalyse

Die Effektgroße als weitere DeterminanteBeispiel mit dem t-Test

Fur die drei verschiedenen t-Tests berechnet sich die Effektstakewie folgt:

d =|X1 − X2|

S,

wobei S =

√

n1S21+n2S

22

n1+n2.

Beispiel

n1 = 21 X1 = 4.3 S1 = 1.9n2 = 21 X2 = 4.7 S2 = 2.4

Dann gilt: d = 0.18.

n1 = 27 X1 = 6.7 S1 = 3.4n2 = 34 X2 = 9.8 S2 = 3.9

Dann gilt: d = 0.84.



Poweranalyse

Die Effektgroße als weitere DeterminanteEffektstarkekonventionen

Zur Beurteilung der Effektstarke d gibt es die bekanntenEffektstarkekonventionen nach Cohen (1988), mit deren Hilfeman den Wert von d leichter einschatzen kann:

d ≥ 0.2 kleiner Effektd ≥ 0.5 mittlerer Effektd ≥ 0.8 großer Effekt

→ Zur Beurteilung, welcher Effekt fur die eigene Studie relevantist, bedarf es ein wenig an Erfahrung im Umgang mit diesemGroßen.

→ Empfehlung:Berechnen einiger Effektstarken aus vergangenen Versuchenmit ahnlichem Aufbau um ein besseres Gefuhl fur den Effektzu bekommen.



Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

Poweranalysen

Poweranalysen sind in der Praxis immernoch sehr selten

⇒ Bedenkliche Konsequenzen fur die Publikationspraxis:veroffentlich werden nur signifikante Befunde – Studien indenen H0 nicht verworfen werden kann, bleiben

”in der

Schreibtischschublade liegen“.

Nichtsignifikanten Testergebnisse sollten aber stets mitTeststarkeanalysen einhergehen.

Zur Verdeutlichung noch ein Zitat von Greenwood (1993):

”Power calculations are as important as significance calculations“



Poweranalyse


Poweranalyse – zwei Ausgangssituationen

Es existieren mehrere Arten von Poweranalysen. Zwei davon sollenim Folgenden besprochen werden:

1 Posthoc-Poweranalyse:In diesem Fall befindet man sich bereits nach demdurchgefuhrten Testverfahren. Es liegt ein nichtsignifikantesErgebnis vor. Gesucht ist hier die Wahrscheinlichkeit, dasstatsachlich keine (bedeutsamen) Unterschiede vorliegen.

2 A priori-Poweranalyse:Dies ist der Idealfall: man befindet sich noch vor derDatenerhebung in der Versuchsplanung. Gesucht ist deroptimale Stichprobenumfang um vorher festgelegete Effektemit einer bestimmten Sicherheit auch zu entdecken.



Poweranalyse


Posthoc-PoweranalyeVorliegen eines nichtsignifikanten Ergebnisses

Liegt ein nichtsignifikantes Ergebnis vor, kann nicht geschlossenwerden, dass es keine Unterschiede (= keinen Effekt) zwischen denGruppen gibt.

→ Ist die Power gering und β somit hoch, besteht die Gefahr,einen tatsachlich existierenden Effekt zu

”ubersehen“.

⇒ Losung: Berechnung der Power 1− β und Beantwortung derFrage:

Wie hoch war die Wahrscheinlichkeit den beobachteten Effekt

d bei gegebenem Signifikanzniveau α und Stichprobenumfang

n uberhaupt zu entdecken?



Poweranalyse


Posthoc-PoweranalyeBezug auf den Tierversuchsantrag

Gegeben sind also:

Fehlerwahrscheinlichkeit 1. Art α: 0.05

Stichprobenumfang n

Effektstarke d :Berechnung von d mit einer FormelBiologisch relvante Differenz und Variabilitat derHauptzielgroßen konnen hier direkt aus den Daten entnommenwerden.Alternative: theoretischer Wert fur d (z.B. 0.5 fur mittlereEffekte)

⇒ Mit diesen Großen kann man nun die Wahrscheinlichkeit furden Fehler 2. Art β bestimmen (z.B. mit dem ProgrammG*Power).



Poweranalyse


Posthoc-PoweranalyeBeispielrechnung mit G*Power



Poweranalyse


Posthoc-PoweranalyeBeispielrechnung mit G*Power



Poweranalyse


Posthoc-PoweranalyeInterpretation von β

Hat man auf Basis der Stichproben den Wert von β bestimmtsteht man vor zwei Alternativen:

(i) Ist β klein (z.B. β < 0.2):Nehme H0 mit einer Fehlerwahrscheinlichkeit von β an.

(ii) Ist β groß:Hier ist leider erneut keine Testentscheidung moglich.



Poweranalyse


Posthoc-PoweranalyeVorliegen eines signifikanten Ergebnisses

Liegt ein signifikantes Ergebnis vor, entscheidet man sich fur H1

mit der Fehlerwahrscheinlichkeit von α.

Eine Poweranalyse ist in diesem Fall nicht ublich, weil man H0 javerwerfen konnte und somit eine eindeutige Interpretation desTestergebnisses moglich ist (vor allem wenn n

”groß“ ist).



Poweranalyse


A priori-Poweranalyse

Problematik der Signifikanztests

Genau genommen gilt H0 niemals!Wahlt man namlich den Stichprobenumfang n nur groß genug,kann jede beliebige Nullhypothese verworfen werden.

⇒ Losung: Bestimmung eines optimalen Stichprobenumfangsnopt um vorher festgelegte Effekte mit einer gewissenWahrscheinlichkeit auch zu entdecken. Beantwortung derFrage:

Wie hoch muss der Stichprobenumfang mindestens sein, dass

bei gegebenem Signifikanzniveau α eine gegebene Effektstarke

d mit einer Wahrscheinlichkeit von 1− β auch erkannt wird?



Poweranalyse


A priori-PoweranalyeBezug auf den Tierversuchsantrag

Gegeben sind also:

Fehlerwahrscheinlichkeit 1. Art α: 0.05

Fehlerwahrscheinlichkeit 2. Art β: 0.2 (machmal auch 0.05)Effektstarke d :

Berechnung von d mit einer FormelBiologisch relvante Differenz und Variabilitat derHauptzielgroßen konnen hier entweder aus Daten einerPilotstudie oder aus einer vergleichbaren Studie entnommenwerden.Alternative: liegen uberhaupt keine Daten vor, kann dieBestimmung von d auch mit Erfahrungen und Vermutungenbegrundet werden.

⇒ Mit diesen Großen kann man nun den optimalenStichprobenumfang nopt bestimmen (z.B. mit G*Power).



Poweranalyse


A priori-PoweranalyeBeispielrechnung mit G*Power



Poweranalyse


A priori-PoweranalyeBeispielrechnung mit G*Power



Poweranalyse


A priori-PoweranalyeEindeutige Interpretation des Testergebnisses

Der wesentliche Vorteil der a priori-Poweranalyse wird nun deutlich:Hat man nopt vorher bestimmt und fuhrt nun die Datenerhebungund -auswertung durch, kann das erhaltene Ergebnis immereindeutig interpretiert werden:

(i) Es liegt ein signifikantes Testresultat vor:Die Alternativhypothese H1 gilt mit einerFehlerwahrscheinlichkeit von hochstens α.

(ii) Es liegt ein nichtsignifikantes Testresultat vor:Die Nullyhpothese H0 gilt mit einer Fehlerwahrscheinlichkeitvon hochstens β.



Poweranalyse


Nichtparametrische Poweranalyse

Die oben geschilderten Poweranalysen wurden nur furparametrische Testverfahren entwickelt. Beispiele fur dieseTestverfahren sind t-Test, Varianzanalyse, Korrelationsanalyse,usw..

→ Fur parametrische Tests kann die Power relativ leichterrechnet werden, oder man kann sie sich mit Programmenberechnen lassen (z.B. G*Power).

→ Fur nichtparametrische Testverfahren (z.B. Wilcoxon-Test,Kruskal-Wallis-Test, usw.) ist dies nicht so leicht moglich.



Poweranalyse


Nichtparametrische PoweranalyseLosung mit Monte-Carlo-Simulationen

Die Losung dieses Problems besteht in der Durchfuhrung vonumfangreichen und rechenintensiven(Monte-Carlo-)Simulationen:

Nichtparametrische Poweranalyse mittels Simulationen

Auf Basis der Daten einer Pilotstudie oder einer vergleichbarenStudie simuliert man eine große Anzahl von weiteren Stichproben(z.B. 10.000 weitere Stichproben).

Fur jede dieser Stichproben wird dann das entsprechendeTestverfahren durchgefuhrt. Auf diese Weise enthalt man empirischeinen sehr genauen Schatzer fur die Power.



Poweranalyse


Nichtparametrische PoweranalyseLosung mit Monte-Carlo-Simulationen

Mit Monte-Carlo-Simulationen kann sowohl die Power alsauch der optimalen Stichprobenumfang bestimmt werden.

Die Durchfuhrung der Simulation ist zeit- undrechenaufwendig und nicht mit jeder Statistik-Software zuempfehlen.

Die Programme und Kapazitaten stehen aber am Lehrstuhlfur Statistik bereit!



Poweranalyse


Vielen Dank fur IhreAufmerksamkeit!



Poweranalyse


Literaturubersicht

Cohen, J. (1988). Statistical Power Analysis for the behavioral

Sciences. Acad. Press, New York.

Greenwood, J.J.D. (1993). Statistical Power. Animal Behaviour 46,1011, 1993.


Biometrische Planung von Versuchsvorhaben...Johannes Hain Biometrische Planung und Poweranalyse Einleitung Determinanten von Signiﬁkanztests Poweranalyse Posthoc-Poweranalyse A priori-Poweranalyse

Documents