Top Banner
„Datenmanagement – Teil II: Datenscreening und - transformation“ Dipl.-Psych. W. Igl & Dipl.-Psych. A. Reusch (Methodenberatung) Rehabilitationswissenschaftlicher Forschungsverbund Bayern (RFB) Referent: Dipl.-Psych. Wilmar Igl
28

„Datenmanagement – Teil II: Datenscreening und - transformation“

Jan 05, 2017

Download

Documents

nguyen_duong
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: „Datenmanagement – Teil II: Datenscreening und - transformation“

„Datenmanagement –Teil II: Datenscreening und -

transformation“Dipl.-Psych. W. Igl & Dipl.-Psych. A. Reusch

(Methodenberatung)

Rehabilitationswissenschaftlicher Forschungsverbund

Bayern (RFB)

Referent: Dipl.-Psych. Wilmar Igl

Page 2: „Datenmanagement – Teil II: Datenscreening und - transformation“

Einleitung

Zusammenhang von Qualität der Daten und Aussagekraft der statistischen Ergebnisse („garbage in, garbage out phenomenon“)

Data Screening („Datensichtung“): Untersuchung der erhobenen Daten auf mögliche Verzerrungen und (vorsichtige) Behebung dieser Verzerrungen zur Steigerung der Aussagekraft der Daten

Wichtige (sich wiederholende) Schritte:

1. Graphische Datenanalyse

2. Analyse und Behandlung von Ausreißern

3. Analyse und Behandlung von Fehlwerten (missing data = MD)

4. Datentransformationen zur Korrektur von Verletzungen der statistischen Voraussetzungen

Page 3: „Datenmanagement – Teil II: Datenscreening und - transformation“

1. Graphische Datenanalyse(GDA)

Page 4: „Datenmanagement – Teil II: Datenscreening und - transformation“

GDA - Histogramm

SF-36 Koerperliche Schmerzen (0-100)

80,0

70,0

60,0

50,0

40,0

30,0

20,0

10,0

0,0

50

40

30

20

10

0

Std.abw. = 16,51

Mittel = 37,5

N = 144,00

SPSS-MENÜ > Grafiken > Histogramm(+ NV anzeigen)

Anwendung:

• Beurteilung der (Normal)Verteilung

• Erkennen von Ausreißern

• Hinweise auf geeignete Datentransformationen

• Verzerrung durch Breiteder Intervalle möglich

Normalverteilung

Page 5: „Datenmanagement – Teil II: Datenscreening und - transformation“

GDA – P-P-Diagramm

Anwendung:

Beurteilung der (Normal-) Verteilung möglich bzgl.

n Kurtosis („Gipfligkeit“)

n Schiefe

P-P-Diagramm KSK x NV

Beobachtete Kum. Wahrsch.

1,0,8,5,30,0

Erw

arte

te K

um.

Wah

rsch

.

1,0

,8

,5

,3

0,0

SPSS-MENÜ > Grafiken > P-P-...

Normalverteilung

Page 6: „Datenmanagement – Teil II: Datenscreening und - transformation“

GDA – Box-and-Whisker-Plot

7074N =

Intervention

KontrolleIntervention

Gew

icht

180

160

140

120

100

80

60

40

20

0

139136

001

SPSS-MENÜ > Grafiken > Box-Plot

Anwendung:

n Erkennen von Ausreißern

n Beurteilen von Lageunterschieden

n Beurteilen der Verteilung

Box Whiskers

md

P(75%)

P(25%)

<1,5*IQB

>3*IQB

Page 7: „Datenmanagement – Teil II: Datenscreening und - transformation“

GDA – Scatterplots (Streudiagramm)

aktuelle Schmerzstaerke

1086420

Dep

ress

ivitä

t

3,5

3,0

2,5

2,0

1,5

1,0

,5

0,0

-,5

Geschlecht

weiblich

männlich

SPSS-MENÜ > Grafiken> Streudiagramm

Anwendung:

n Analyse von Zusammenhängen

n Beurteilung von Linearität

n Erkennen von einflussreichen Werten (influential values)

n Erkennen von Ausreißern

Page 8: „Datenmanagement – Teil II: Datenscreening und - transformation“

2. Ausreißer

Page 9: „Datenmanagement – Teil II: Datenscreening und - transformation“

Ausreißer (1)

n Def. „Ausreißer“:„... observations with a unique combination of characteristicsidentifiable as distinctly different from the other observations.“(Hair, 1998)

n Ausreißer als ...

n Fehler=> Aufblähung der Fehlervarianz, Verzerrung der Ergebnisse

n bedeutsames Ereignis => Generalisierbarkeit, Hinweise auf Wechselwirkungen, bedeutsamer Indikator (z.B. erhöhte Selbstmordrate als Hinweis auf erhöhte Depressivität einer Population)

Page 10: „Datenmanagement – Teil II: Datenscreening und - transformation“

Ausreißer (2)

n Faustregeln (univariat):

n n <= 80: Werte größer als +-2.5 * sd

n n > 80: Werte größer als +-3 bis +-4 * sd

n Behandlung:

n Wenn Ausreißer repräsentativ/ valide sind für die Stichprobe,dann Behalten

n Wenn Ausreißer nicht repräsentativ sind für die Stichprobe,dann Löschen

n alternativ: stabilere Statistiken verwenden (z.B. Median statt Mittelwert, Kendall‘s Tau statt Spearman‘sRho, non-parametrische statt parametrische Methoden)

Page 11: „Datenmanagement – Teil II: Datenscreening und - transformation“

3. missing data

Page 12: „Datenmanagement – Teil II: Datenscreening und - transformation“

missing data

n Definition: „...missing data liegt vor, wenn Werte wider Erwarten in der Datenmatrix fehlen.“ (Müller, 2002)

n Verzerrungen der Ergebnisse und Verringerung der Effizienz von statistischen Verfahren möglich

n Behandlung von MD abhängig von der Art des missing-data-Prozesses (Systematik?)

n Non-Random Missing (NRM)

n Missing At Random (MAR)

n Missing Completely At Random (MCAR)

Page 13: „Datenmanagement – Teil II: Datenscreening und - transformation“

MAR - Missing At Random

n Statistische Bedeutung: Fehlwerte der Variable Y hängen nicht von den Werten der Variable Y ab, sondern von einer anderen Variable X.

n Veranschaulichung:Datenmatrix als Leinentuch, das von Schrotkugeln durchsiebt wird=> Die Löcher bilden Linien oder Rechtecke

n waagrechte Linie: Hinweise patientenbezogene Ursachen

n senkrechte Linie: Hinweis auf itembezogene Ursachen

n Rechtecke: Hinweise auf klinikmitarbeiterbezogene Ursachen

n Beispiel:Angaben zum „Einkommen“ (Y) fehlen unabhängig von der Höhe des Einkommens (Y) , aber hängen trotzdem vom „Geschlecht“ (X) ab

Page 14: „Datenmanagement – Teil II: Datenscreening und - transformation“

MCAR – Missing Completely At Random

n Statistische Bedeutung:Fehlwerte von Y weisen keinen Zusammenhang mit einer anderen Variable auf

n Veranschaulichung:Datenmatrix als Leinentuch, das aus Fäden unterschiedlicher Dicke besteht; Fäden unterschiedliche Dicke werden gleich häufig getroffen

n Beispiel:Angaben zum „Einkommen“ (Y) fehlen unabhängig von der Höhe des Einkommens (Y) oder anderen Merkmalen wie „Geschlecht“ (X1), Alter (X2),... ab

Page 15: „Datenmanagement – Teil II: Datenscreening und - transformation“

Diagnose des missing-data-Prozesses (1)

n Screening der Datenmatrix (Fälle X Variablen):Häufige missings bei Fällen oder Variablen oder Kombinationen von Fällen und Variablen?

n Auswertung basaler Statistiken:

n gültige Werte: [f], [%], m, sd

n fehlende Werte: [f], [%], m, sd

Page 16: „Datenmanagement – Teil II: Datenscreening und - transformation“

Diagnose des missing-data-Prozesses (2)

n Erstellung einer Indikatormatrix:Codierung von gültigen Werten mit 1 und von fehlenden Werten mit 0 zur Bildung von Gruppen

n Analyse von Gruppenunterschieden in anderen Variablen

n Analyse von Korrelationen in der Indikatormatrix

n Bei signifikanten Unterschieden/ Zusammenhängen kann man nicht mehr von MCAR ausgehen.

=> Welche Maßnahmen können ergriffen werden?

Page 17: „Datenmanagement – Teil II: Datenscreening und - transformation“

Maßnahmen - Listenweiser Fallausschluss

n Vorgehen: Ausschluss aller unvollständiger Fälle/ Variablen („complete information approach“)

n Anwendung bei :

n MCAR

n große Stichprobe

n starke Effekte

n Nachteile: Reduktion der Stichprobe bis zur Unbrauchbarkeit möglich

Page 18: „Datenmanagement – Teil II: Datenscreening und - transformation“

Maßnahmen - Imputationsverfahren

n Definition: Verfahren, durch das Fehlwerte geschätzt und ersetzt werden

n Vorgehen: Schätzen von fehlenden Werten basierend auf den validen Werten von anderen Variablen /Fällen in der Stichprobe.

n Anwendung bei:

n MCAR

n intervallskalierten/metrischen Variablen

Page 19: „Datenmanagement – Teil II: Datenscreening und - transformation“

Imputation – Paarweiser Fallausschluss

n Vorgehen: Alle gültigen Fälle, der in die Berechnung eingehendenVariablen, werden ausgewertet. Übernehmen der Verteilungs-charakteristika der gültigen Werte (“all available approach”)

n Anwendung bei:

n MCAR

n Berechnung von Korrelationen, Mittelwerten, Standardabw.

n Nachteile:

n Statistiken können auf unterschiedlichen Stichproben von Beobachtungen basieren (unterschiedliches N !)

n mathematische Inkonsistenzen möglich (z.B. zwischen Korrelationen zweier Variablen X, Y und deren Partialkorrelationen mit Z)

Page 20: „Datenmanagement – Teil II: Datenscreening und - transformation“

Imputation - Regression

n Verfahren: Schätzen und Ersetzen von Fehlwerten durch (multiple) Regression unter Anwendung bekannter Beziehungen zwischen Variablen

n Anwendung bei:

n Vorliegen substantieller Zusammenhänge mit anderen Variablen

n mäßiger Grad von weit verstreuten missing data

n Nachteile:

n Unterschätzung der Varianz

n Verstärkung (Verzerrung) bestehender Zusammenhänge

n Werte ausserhalb des Wertebereichs möglich

n geringere Generalisierbarkeit

Page 21: „Datenmanagement – Teil II: Datenscreening und - transformation“

Weitere Imputationsverfahren

n Mittelwertersetzung: Ersetzen des fehlenden Wertes durch Mittelwert der gültigen Werte

n Vorteile: einfach, vollständiger Datensatz

n Nachteile: Verzerrung der wahren Verteilung, Unterschätzung derwahren Varianz, Unterschätzung der wahren Zusammenhänge

n Ersetzung aus externem Datensatz: Ersetzen des fehlenden Wertes durch Werte einer externen Quelle/ frühere Forschung, die valider ist als die untersuchte Stichprobe

n Fallersetzung: Ersetzen des fehlenden Wertes durch andere, neue (ähnliche) Beobachtung (Neurekrutierung)

Page 22: „Datenmanagement – Teil II: Datenscreening und - transformation“

missing data - Fazit

1. Diagnose des vorliegenden missing-data-Prozesses

2. Rationale, auf theoretischen Überlegungen und empirischen Fakten beruhende Auswahl eines Verfahrens

3. Vergleich der Effekte anderer Verfahren

4. (ggf. begründete Auswahl eines anderen Verfahrens)

=>„begründete Entscheidung“

Page 23: „Datenmanagement – Teil II: Datenscreening und - transformation“

4. Datentransformationen

Page 24: „Datenmanagement – Teil II: Datenscreening und - transformation“

Normalität u. Heteroskedaszität - Transformationen

n „Flache“ Verteilungen: y = 1/x

n „Schiefe“ Verteilungen

n y = �x (bei rechtssteilen Verteilungen geeignet)

n y = log (x) (bei linkssteilen Verteilungen geeignet)

n y = 1/ x

n falls noch Heteroskedaszität vorliegt: y = 2 arcsin�x

n Auswahl der Transformation nach bestem Ergebnis

Page 25: „Datenmanagement – Teil II: Datenscreening und - transformation“

Linearität – Transformationen

X

Y

X

Y

log Y

-1/y

sqrt(Y) log X

-1/X

sqrt(X)

X

Y

log Y

-1/y

sqrt(Y)

X

Y Y²

log X

-1/X

sqrt(X)

nach Hair et al. (1998)

Page 26: „Datenmanagement – Teil II: Datenscreening und - transformation“

Leitlinien für Datentransformationen

1. m(x)/sd(x) < 4

2. Bei Auswahl zwischen zwei Variablen, wähle die mit dem kleinsten Quotienten aus 1)

3. Transformationen sollten nur auf unabhängige Variablenangewendet werden.

4. Heteroskedaszität kann nur durch Transformation verringert werden.

5. Die Interpretation transformierter Variablen kann sich ändern.

Page 27: „Datenmanagement – Teil II: Datenscreening und - transformation“

Literatur

Bland, M. (2000). An Introduction to Medical Statistics (3rd edition). Oxford: University Press

Bühl, A. & Zöfel, P. (1998). SPSS für Windows Version 7.5. Bonn: Addison-Wesley

Diehl, J. M. & Staufenbiehl, T. (2001). Statistik mit SPSS Version 10.0 (1. Auflage). Eschborn: Klotz

Hair, J. F., Anderson, R. E., Tatham, R. L., Black, W. C. (1998). Multivariate dataanalysis. 5. Auflage. New Jersey: Prentice Hall.

Reusch, A., Zwingmann, Ch., Faller, H. (Hrsg.) (2002). Empfehlungen zum Umgang mit Daten in der Rehabilitationsforschung. Regensburg: Roderer Wilkinson, L. & TheTask Force on Statistical Inference (1999). Statistical Methods in PsychologyJournals – Guidelines and Explanations. American Psychologist, Vol. 54,594-604

Wirtz, M. Umgang mit fehlenden Werten (Vortrag). Methodenzentrum des Rehabilitationswissenschaftlichen Forschungsverbundes Freiburg/Bad Säckingen

Page 28: „Datenmanagement – Teil II: Datenscreening und - transformation“

Vielen Dank für

Ihre Aufmerksamkeit!

Kontakt: [email protected]