This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Die relative Häufigkeit hi von einer Merkmalsausprägung xi ist:die absolute Häufigkeit n der Merkmalsausprägung xdie absolute Häufigkeit ni der Merkmalsausprägung xidividiert durch die Gesamtzahl der Merkmalsträger n
Umgang mit fehlenden Antworten3 Monate vor der Fußball-WM 2006 war die Kampagne der Bild-Zeitung gegen den Bundestrainer Jürgen Klinsmann in vollem Gange. Auf der Online-Ausgabe "bild.de" konnte man bei der Sonntags-Frage zur WM am 12.3.2006 nachlesen:
"Nur fünf Prozent sind sehr zufrieden mit Klinsmann“"Nur fünf Prozent sind sehr zufrieden mit Klinsmann
Statistik 1 - Univariate Häufigkeitstabellen17
Korrekte Darstellung
5% aller Befragten ~ 6,9% aller Antwortenden
Beachte: Keine Angabe über die Zahl der RespondentenRepräsentativität ? Un friedene ä ßern sich B esentlich hä figer in
Statistik 1 - Univariate Häufigkeitstabellen18
Unzufriedene äußern sich z.B. wesentlich häufiger in Web-ForenManipulation: 54,1% der Antworter sind mit Klinsmann zufrieden oder sogar sehr zufrieden
Imputationsmethoden haben das Ziel fehlende Werte möglichst sinnvoll zu ergänzenGrundgedanke ist dabei das Ausnützen vonGrundgedanke ist dabei das Ausnützen von Abhängigkeiten zwischen MerkmalenUnterschiedliche Ergebnisse bei politischen Meinungsumfragen unterscheiden sich häufig nur in der methodischen Behandlung fehlender Werte:Wie werden die Unschlüssigen bzw. die Antwortverweigerer aufgeteilt?
Statistik 1 - Univariate Häufigkeitstabellen19
g gVergleiche in der jüngeren österreichischen Geschichte die Unterschätzung der FPÖ unter J. Haider in vielen Meinungsumfragen vor Wahlen
Absolute oder relative Häufigkeiten?
Für Vergleichszwecke eignen sich relative Häufigkeiten natürlich besserBei Stichproben interessieren meist die AnteileBei Stichproben interessieren meist die Anteile (~relativen Häufigkeiten), aber der Umfang der Stichprobe muss unbedingt kommuniziert werden, um die Relevanz der Ergebnisse beurteilen zu können.Absolute Häufigkeiten kommunizieren stärker die Betroffenheit:
Statistik 1 - Univariate Häufigkeitstabellen20
Im Jahresdurchschnitt 2006 gab es in Österreich laut AMS 239.000 als arbeitslos vorgemerkte Personen Im Jahresdurchschnitt 2006 betrug laut AMS die Arbeitslosenquote 6,8%
Im Gegensatz dazu kommt aber der horizontalen Achse eine geänderte Bedeutung zu.
Statistik 1 - Univariate Häufigkeitstabellen33
Numerische Skala!
Häufigkeitstabelle bei stetigen Merkmalen
Klassierung (Klassifizierung):Einteilung des Wertevorrates (Realisationsmöglichkeiten der Merkmalsausprägungen) in nicht überschneidende p g g )angrenzende KlassenNach Möglichkeit gleiche Breite !Absolute Häufigkeit der Klasse ist die Anzahl der Realisationen mit Werten, die zu dieser Klasse gehören:
Klasse i sei definiert durch (ui,oi]( )n(ui<X ≤oi)=ni
eindeutige Zuordnung durch halboffene IntervalleRelative Häufigkeit der Klasse
150+ bis 155 3 0,03155+ bis 160 4 0,04160+ bis 165 10 0,10165+ bis 170 16 0,16170+ bis 175 23 0,23175+ bis 180 20 0,20180+ bis 185 11 0,11185+ bis 190 10 0 10185+ bis 190 10 0,10190+ bis 195 1 0,01195+ bis 200 2 0,02Gesamt 100 1
35 Statistik 1 - Univariate Häufigkeitstabellen
Histogramm
Ein Histogramm ist die graphische Darstellung einer Häufigkeitstabelle, die sich durch die Klassierung eines stetigen Merkmals in Intervalle ergibt
In der Praxis sind Häufigkeitstabellen oft der Ausgangspunkt einer empirischen Untersuchung (Sekundärdaten)( )Achtung: Klassierte Daten haben nicht 1:1 den selben Informationsgehalt wie die Originaldaten, da die Verteilung innerhalb der Klassen unbekannt ist (vgl. Informationsgehalt von Stem & Leaf-Diagramm und Histogramm)Problem offener Klassen:z.B.: monatl. Einkommen größer als 100.000,-Generell: Ungleich große Klassenbreiten erfordern eine adäquate graphische Darstellung
39 Statistik 1 - Univariate Häufigkeitstabellen
Zusammenfassung von Klassen
Bereich ni hi
150+ bis 160 7 0,07,160+ bis 165 10 0,10165+ bis 170 16 0,16170+ bis 175 23 0,23175+ bis 180 20 0,20180 bi 185 11 0 11180+ bis 185 11 0,11185+ bis 200 13 0,13Gesamt 100 1
Prinzip der Flächentreue:Der Flächeninhalt der Histogramm-Blöcke muss proportional zur Häufigkeit seinp p gDie Höhe der Histogramm-Blöcke muss dann die Dichte darstellen Dichte ist allgemein eine Häufigkeit bezogen auf eine Einheit z.B. Bevölkerungsdichte Anzahl Einwohner je km²Häufigkeitsdichte ist die relative Häufigkeit dividiert durch die KlassenbreiteFläche = Höhe*Breite Fläche ~ HäufigkeitBei Klassen konstanter Breite ist diese Unterscheidung für die Visualisierung irrelevant
45 Statistik 1 - Univariate Häufigkeitstabellen
Berechnung der Häufigkeitsdichte
Bereich ni hi bi di=hi/bi
150+ bis 160 7 0,07 10 0,007, ,160+ bis 165 10 0,10 5 0,020165+ bis 170 16 0,16 5 0,032170+ bis 175 23 0,23 5 0,046175+ bis 180 20 0,20 5 0,040180 bi 185 11 0 11 5 0 022180+ bis 185 11 0,11 5 0,022185+ bis 200 13 0,13 15 0,009Gesamt 100 1
In der Praxis ist die Wahl der Klassengrenzen bzw. der Klassenanzahl relativ willkürlich.Klassenanzahl: je nach Datenlage und FragestellungKlassenanzahl: je nach Datenlage und Fragestellung 5 - 20Annäherung an die Klassenbreite: Spannweite (Differenz zwischen größtem und kleinsten Wert) bzw. durch gewünschte Klassenanzahl dividieren Klassenmitten sollten mit beobachteten WertenKlassenmitten sollten mit beobachteten Werten übereinstimmenWahl „schöner“ Grenzen im Sinne des dekadischen Systems
Das resultierende Bild von der Gestalt der Verteilung hängt von der letztlich willkürlichen Wahl der Anzahl der Intervalle und vom Startpunkt der Intervallbildungder Intervalle und vom Startpunkt der Intervallbildung ab
Verschieben der Klassen-IntervalleHistogram of Age
quen
cy
1015
20
Histogram of Age
quen
cy 1015
Age
Freq
20 40 60 80
05
Age
Freq
20 40 60 80
05
Histogram of Age
20
Histogram of Age
15
Statistik 1 - Univariate Häufigkeitstabellen55
Age
Freq
uenc
y
20 40 60 80
05
1015
Age
Freq
uenc
y
20 40 60 80
05
10
Alternative: Kernschätzer
56 Statistik 1 - Univariate Häufigkeitstabellen
Ein Kern bezeichnet eine symmetrische Funktion, die rund um den empirischen Datenpunkt aufgetragen wird. Das Bild der Verteilung ergibt sich dann durch die Summe über alle Funktionswerte im gesamten Bereich der x-Achse