Einleitung Determinanten von Signifikanztests Poweranalyse Biometrische Planung von Versuchsvorhaben Einf¨ uhrung in das Prinzip der Poweranalyse Johannes Hain Lehrstuhl f¨ ur Mathematik VIII – Statistik http://statistik.mathematik.uni-wuerzburg.de/ ~ hain Johannes Hain Biometrische Planung und Poweranalyse
32
Embed
Biometrische Planung von Versuchsvorhaben...Johannes Hain Biometrische Planung und Poweranalyse Einleitung Determinanten von Signifikanztests Poweranalyse Posthoc-Poweranalyse A priori-Poweranalyse
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
die Bedeutung der Poweranalyse im Kontext vonSignifikanztests motiviert und
die Grundprinzipien dieser Vorgehensweise dargestellt werden.
Die Poweranalyse stellt ein praktisches Werkzeug dar fur denUmgang mit den folgenden biometrischen Parametern aus denTierversuchsantragen:
Wahrscheinlichkeit fur den Fehler 1. Art
Wahrscheinlichkeit fur den Fehler 2. Art
Biologisch relevante Differenz
Annahmen zu Variabilitat der Hauptzielgroßen
Johannes Hain Biometrische Planung und Poweranalyse
EinleitungDeterminanten von Signifikanztests
Poweranalyse
Sinn von Signifikanztests
Ziel von Signifikanztests
Bei der Durchfuhrung von Studien und Untersuchungen soll nichtnur eine Aussage uber die erhobene Stichprobe getroffen werden,sondern naturlich eine allgemeine Aussage uber die zugrundeliegende Gesamtpopulation – und das mit hoher Sicherheit.
Prinzip:
→ Stelle eine (Null-)Hypothese H0 auf, deren Wahrheitsgehaltdann mit einem Testverfahren auf Basis der Stichprobeuberpruft werden soll.
→ Uber die Gultigkeit von H0 entscheidet man dann mit demp-Wert, der die Wahrscheinlichkeit fur das Auftreten derbeobachteten Daten unter der Annahme der Gultigkeit von H0
darstellt. Ist der p-Wert kleiner als 0.05, wird H0 verworfen.
Johannes Hain Biometrische Planung und Poweranalyse
EinleitungDeterminanten von Signifikanztests
Poweranalyse
Fehler bei der Testentscheidung
Bei einer Entscheidung basierend auf einem Signifikanztest hatman niemals absolute Sicherheit – egal wie man sich entscheidet esbesteht also immer die Gefahr eine Fehlentscheidung zu treffen:
H0 ist wahr H0 ist nicht wahr
Entscheidung fur H0 kein Fehler Fehler 2. Art
Entscheidung fur H1 Fehler 1. Art kein Fehler
Bei einem Signifikanztest kann man leider immer nur einenFehler kontrollieren, namlich den Fehler 1 Art.
Der Fehler 2. Art hingegen kann unter Umstanden relativ großwerden.
Johannes Hain Biometrische Planung und Poweranalyse
EinleitungDeterminanten von Signifikanztests
Poweranalyse
Der Fehler 1. Art
Definition Fehler 1. Art
Der Fehler 1. Art ist das irrtumlich Verwerfen der Nullhypothese.Die Wahrscheinlichkeit α fur den Fehler 1. Art kann mit denSignifikanztests kontrolliert werden und soll moglichst gering sein.
→ Weil man die Wahrscheinlichkeit fur den Fehler 1. Art gutkontrollieren kann, wird H0 so formuliert, dass dieser Fehlerder
”schlimmere“ der beiden moglichen Fehler ist.
→ α wird im Regelfall stets auf 0.05 gesetzt. Ausnahmen sindhier sehr selten.
Johannes Hain Biometrische Planung und Poweranalyse
EinleitungDeterminanten von Signifikanztests
Poweranalyse
Der Fehler 1. ArtGrafische Veranschaulichung
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
Der Fehler 1. Art beim zweiseitigen Test
Johannes Hain Biometrische Planung und Poweranalyse
EinleitungDeterminanten von Signifikanztests
Poweranalyse
Der Fehler 1. ArtGrafische Veranschaulichung
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
Der Fehler 1. Art beim einseitigen Test
Johannes Hain Biometrische Planung und Poweranalyse
EinleitungDeterminanten von Signifikanztests
Poweranalyse
Fehler 2. Art und Power eines Tests
Definition Fehler 2. Art und Power
Der Fehler 2. Art ist das irrtumliche Beibehalten derNullhypothese. Die Wahrscheinlichkeit fur diesen Fehler soll mit βbezeichnet werden. Die Power eines Tests ist dieGegenwahrscheinlichkeit 1− β, d.h. die Wahrscheinlichkeit dafur,dass der Test tatsachlich vorhandene Unterschiede auch wirklicherkennt.
H0 ist wahr H0 ist nicht wahr
Entscheidung fur H0 1-α β
Entscheidung fur H1 α 1-β
Johannes Hain Biometrische Planung und Poweranalyse
EinleitungDeterminanten von Signifikanztests
Poweranalyse
Fehler 2. Art und Power eines TestsGrafische Veranschaulichung
������������ �� �� � � � � � �
���� � � �������αβ
Johannes Hain Biometrische Planung und Poweranalyse
EinleitungDeterminanten von Signifikanztests
Poweranalyse
Korrekte Interpretation des Testergebnisses
Ein Signifikanztest gestattet nur eine der beiden folgendenEntscheidungen:
Ablehung von H0 = Annahme von H1
oder
Nicht-Ablehnung von H0 6= Annahme von H0
Dies bedeutet also:
⇒ Die Nicht-Ablehnung von H0 darf keinesfalls als ein Nachweisder statistischen Richtigkeit der Nullhypothesefehlinterpertiert werden.
⇒ Streng genommen bedeutet eine Nicht-Ablehnung von H0 alsoeine Stimmenthaltung, d.h. das Stichprobenergebnis ist mit
der Nullhypothese vereinbar.
Johannes Hain Biometrische Planung und Poweranalyse
EinleitungDeterminanten von Signifikanztests
Poweranalyse
Was tun bei nichtsignifikanten Ergebnissen?
In der wissenschaftlichen Praxis stoßt man bei der Verwendunginferenzstatistischer Verfahren oft auf das Problem, dass bei einemdurchgefuhrten Test H0 nicht verworfen werden kann.
→ Dieses Ergebnis bedeutet aber nicht, dass H0 gultig ist.
→ Gibt es hier nun tatsachlich keinen Unterschied oder wurdehier nur kein Unterschied erkannt?
Es muss in einem solchen Fall eine Moglichkeit geben, dieNullhypothese nicht nur nicht abzulehnen sondern mit einergewissen Wahrscheinlichkeit auch annehmen zu konnen.
⇒ Die Losung fur dieses Problem ist die Poweranalyse.
Johannes Hain Biometrische Planung und Poweranalyse
EinleitungDeterminanten von Signifikanztests
Poweranalyse
Die Effektgroße als weitere Determinante
Neben den beiden Wahrscheinlichkeiten fur den Fehler 1. und 2.Art spielt bei der Poweranalyse eine weitere Große eineentscheidende Rolle: die Effektgroße
Definition Effektgroße
Die Effektgroße beurteilt die Frage der”praktischen
Bedeutsamkeit“ von vorliegenden Unterschieden zwischen zweioder mehreren Untersuchungseinheiten
→ Wie deutlich mussen sich zwei Gruppen in einer untersuchtenVariable unterscheiden, dass dieser Unterschied fachlichrelevant ist?
→ Die Effektstarke hangt vom Abstand der Gruppenmittelwerteund von der Varianz der beiden Gruppen ab.
Johannes Hain Biometrische Planung und Poweranalyse
EinleitungDeterminanten von Signifikanztests
Poweranalyse
Die Effektgroße als weitere DeterminanteBeispiel mit dem t-Test
Fur die drei verschiedenen t-Tests berechnet sich die Effektstakewie folgt:
Johannes Hain Biometrische Planung und Poweranalyse
EinleitungDeterminanten von Signifikanztests
Poweranalyse
Die Effektgroße als weitere DeterminanteEffektstarkekonventionen
Zur Beurteilung der Effektstarke d gibt es die bekanntenEffektstarkekonventionen nach Cohen (1988), mit deren Hilfeman den Wert von d leichter einschatzen kann:
Poweranalysen sind in der Praxis immernoch sehr selten
⇒ Bedenkliche Konsequenzen fur die Publikationspraxis:veroffentlich werden nur signifikante Befunde – Studien indenen H0 nicht verworfen werden kann, bleiben
”in der
Schreibtischschublade liegen“.
Nichtsignifikanten Testergebnisse sollten aber stets mitTeststarkeanalysen einhergehen.
Zur Verdeutlichung noch ein Zitat von Greenwood (1993):
”Power calculations are as important as significance calculations“
Johannes Hain Biometrische Planung und Poweranalyse
Es existieren mehrere Arten von Poweranalysen. Zwei davon sollenim Folgenden besprochen werden:
1 Posthoc-Poweranalyse:In diesem Fall befindet man sich bereits nach demdurchgefuhrten Testverfahren. Es liegt ein nichtsignifikantesErgebnis vor. Gesucht ist hier die Wahrscheinlichkeit, dasstatsachlich keine (bedeutsamen) Unterschiede vorliegen.
2 A priori-Poweranalyse:Dies ist der Idealfall: man befindet sich noch vor derDatenerhebung in der Versuchsplanung. Gesucht ist deroptimale Stichprobenumfang um vorher festgelegete Effektemit einer bestimmten Sicherheit auch zu entdecken.
Johannes Hain Biometrische Planung und Poweranalyse
Posthoc-PoweranalyeBezug auf den Tierversuchsantrag
Gegeben sind also:
Fehlerwahrscheinlichkeit 1. Art α: 0.05
Stichprobenumfang n
Effektstarke d :Berechnung von d mit einer FormelBiologisch relvante Differenz und Variabilitat derHauptzielgroßen konnen hier direkt aus den Daten entnommenwerden.Alternative: theoretischer Wert fur d (z.B. 0.5 fur mittlereEffekte)
⇒ Mit diesen Großen kann man nun die Wahrscheinlichkeit furden Fehler 2. Art β bestimmen (z.B. mit dem ProgrammG*Power).
Johannes Hain Biometrische Planung und Poweranalyse
Posthoc-PoweranalyeVorliegen eines signifikanten Ergebnisses
Liegt ein signifikantes Ergebnis vor, entscheidet man sich fur H1
mit der Fehlerwahrscheinlichkeit von α.
Eine Poweranalyse ist in diesem Fall nicht ublich, weil man H0 javerwerfen konnte und somit eine eindeutige Interpretation desTestergebnisses moglich ist (vor allem wenn n
”groß“ ist).
Johannes Hain Biometrische Planung und Poweranalyse
Genau genommen gilt H0 niemals!Wahlt man namlich den Stichprobenumfang n nur groß genug,kann jede beliebige Nullhypothese verworfen werden.
⇒ Losung: Bestimmung eines optimalen Stichprobenumfangsnopt um vorher festgelegte Effekte mit einer gewissenWahrscheinlichkeit auch zu entdecken. Beantwortung derFrage:
Wie hoch muss der Stichprobenumfang mindestens sein, dass
bei gegebenem Signifikanzniveau α eine gegebene Effektstarke
d mit einer Wahrscheinlichkeit von 1− β auch erkannt wird?
Johannes Hain Biometrische Planung und Poweranalyse
A priori-PoweranalyeBezug auf den Tierversuchsantrag
Gegeben sind also:
Fehlerwahrscheinlichkeit 1. Art α: 0.05
Fehlerwahrscheinlichkeit 2. Art β: 0.2 (machmal auch 0.05)Effektstarke d :
Berechnung von d mit einer FormelBiologisch relvante Differenz und Variabilitat derHauptzielgroßen konnen hier entweder aus Daten einerPilotstudie oder aus einer vergleichbaren Studie entnommenwerden.Alternative: liegen uberhaupt keine Daten vor, kann dieBestimmung von d auch mit Erfahrungen und Vermutungenbegrundet werden.
⇒ Mit diesen Großen kann man nun den optimalenStichprobenumfang nopt bestimmen (z.B. mit G*Power).
Johannes Hain Biometrische Planung und Poweranalyse
A priori-PoweranalyeEindeutige Interpretation des Testergebnisses
Der wesentliche Vorteil der a priori-Poweranalyse wird nun deutlich:Hat man nopt vorher bestimmt und fuhrt nun die Datenerhebungund -auswertung durch, kann das erhaltene Ergebnis immereindeutig interpretiert werden:
(i) Es liegt ein signifikantes Testresultat vor:Die Alternativhypothese H1 gilt mit einerFehlerwahrscheinlichkeit von hochstens α.
(ii) Es liegt ein nichtsignifikantes Testresultat vor:Die Nullyhpothese H0 gilt mit einer Fehlerwahrscheinlichkeitvon hochstens β.
Johannes Hain Biometrische Planung und Poweranalyse
Die oben geschilderten Poweranalysen wurden nur furparametrische Testverfahren entwickelt. Beispiele fur dieseTestverfahren sind t-Test, Varianzanalyse, Korrelationsanalyse,usw..
→ Fur parametrische Tests kann die Power relativ leichterrechnet werden, oder man kann sie sich mit Programmenberechnen lassen (z.B. G*Power).
→ Fur nichtparametrische Testverfahren (z.B. Wilcoxon-Test,Kruskal-Wallis-Test, usw.) ist dies nicht so leicht moglich.
Johannes Hain Biometrische Planung und Poweranalyse
Auf Basis der Daten einer Pilotstudie oder einer vergleichbarenStudie simuliert man eine große Anzahl von weiteren Stichproben(z.B. 10.000 weitere Stichproben).
Fur jede dieser Stichproben wird dann das entsprechendeTestverfahren durchgefuhrt. Auf diese Weise enthalt man empirischeinen sehr genauen Schatzer fur die Power.
Johannes Hain Biometrische Planung und Poweranalyse