Maße der zentralen Tendenz • Modalwert / Modus • häufigster Wert • bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse • Notation: X Mo • ab Nominalskala • Modus ist nicht die Häufigkeit, sondern die Variablenausprägung • bimodale Verteilungen: 2 häufige Werte
29
Embed
Maße der zentralen Tendenz Modalwert / Modus häufigster Wert bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse Notation: X.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Maße der zentralen Tendenz
• Modalwert / Modus
• häufigster Wert
• bei klassifizierten Werten: die Klassenmitte der am stärksten besetzten Klasse
• Notation: X Mo
• ab Nominalskala
• Modus ist nicht die Häufigkeit, sondern die Variablenausprägung
• bimodale Verteilungen: 2 häufige Werte
Modus klassifizierter Daten
Einkommensklassevon ... bis unter ...
l
Klassen-mitte
xl
absolute und relative Häufigkeiten
kumulierte absolute und relative Häufigkeiten
fl pl cfl cpl
0 - 2000 1000 1 0,083 1 0,083
2000 - 4000 3000 6 0,500 7 0,583
4000 - 6000 5000 3 0,250 10 0,833
6000 - 8000 7000 1 0,083 11 0,916
8000 und mehr (9000) 1 0,083 12 0,999
12 0,999
Verwende Klassenmitte der häufigsten Klasse: Modus = 3000
Median
~Notation: X (X Tilde)teilt Werte in 2 gleich große Hälftenab Ordinalskalabei ungeradem N: Wert der mittleren Personbei geradem N: Mittelwert der beiden mittleren
Personen (dies nur bei Intervallskala)bei mehrfach auftretenden Werten:3 6 7 8 8 8 9 9 10 12Uminterpretieren des Medians (mindestens die Hälfte
der Personen liegt unter/über 8)oder lineare Interpolation (Median=8.17 siehe
Benninghaus)
Median der 12 Einkommensangaben (1)
Als Beispiel dienen die Einkommensangaben aus Diekmann (1995). Die
Merkmalswerte müssen in sortierter Form vorliegen (primäre Liste). Der
Median entspricht bei ungerader Anzahl von Fällen dem Merkmalswert,
der in der sortierten (primären) Liste aller Merkmalswerte auf dem r-ten
Rangplatz steht (mit r=(n+1)/2). Dieser Wert teilt die Liste aller
Merkmalswerte exakt in zwei Hälften. Bei gerader Anzahl von Fällen
gibt es keinen Wert, der die Liste exakt in zwei Hälften unterteilt. Man
verwendet alternativ den Durchschnitt aus dem r-ten und (r+1)-ten Wert,
wobei r jetzt n/2 entspricht. Der Datensatz von Diekmann enthält zwölf
gültige Einkommensangaben, so dass wir in diesem Beispiel von einer
geraden Anzahl von Fällen ausgehen müssen.
Median der 12 Einkommensangaben (2)
Rang(i)
Ein-kommen
x(i)
1 1600
2 2300
3 2300
4 2400
5 2900
6 3200 Der Median liegt zwischen dem 6. und 7. Wert. Vereinbart ist der Durchschnitt beider Werte: Median = (3200+3500)/2 = 3350.
7 3500
8 4500
9 4600
10 5200
11 6500
12 12000
Median klassifizierter Daten (1)
Einkommensklassevon ... bis unter ...
l
Klassen-mitte
xl
absolute und relative Häufigkeiten
kumulierte absolute und relative Häufigkeiten
fl pl cfl cpl
0 - 2000 1000 1 0,083 1 0,083
2000 - 4000 3000 6 0,500 7 0,583
4000 - 6000 5000 3 0,250 10 0,833
6000 - 8000 7000 1 0,083 11 0,916
8000 und mehr (9000) 1 0,083 12 0,999
12 0,999
Daten: Diekmann (1995).
Verwende lineare Interpolation im Medianintervall
2000-4000 = Medianintervall
2000 = cmu (exakte untere Grenze des Medianintervalls)
12 = n (Stichprobenumfang)
1 = cfu (kumulierte Häufigkeit unterhalb des Medianintervalls)
6 = fm (Häufigkeit im Medianintervall)
2000 = cmo - cmu (Breite des Medianintervalls)
Median = cmu + [(n/2 - cfu) . (cmo - cmu) / fm]
3666,67 DM = 2000 + [(12/2 - 1) . 2000 / 6]
Median klassifizierter Daten (2)
Arithmetisches Mittel
Notation: x quer
ab Intervallskalenniveau
nicht robust gegenüber Ausreißern, alle Werte gehen ein
Arithmetisches Mittel der 12 Einkommensangaben
Als Beispiel dienen die Einkommensangaben aus Diekmann (1995) . Die folgende Tabelle enthält nur die Fälle mit gültigen Einkommensangaben. Das arithmetische Mittel entspricht der Summe aller Merkmalswerte geteilt durch die Anzahl der Fälle
Wenn es sich bei der Befragung von Diekmann nicht um eine Stichprobe, sondern um eine Totalerhebung gehandelt hätte, hätte man wie folgt rechnen müssen.
Zusammenfassung der Ergebnisse: Einkommen der Befragten
Es wurden 60 männliche Bedienstete der Verwaltung einer
westdeutschen Großstadt befragt. Insgesamt 58 Personen machten
Angaben über ihr monatliches Nettoeinkommen. Die Einkommen der
befragten Personen bewegen sich im Bereich von 1300 DM bis 4300
DM. Sieht man einmal von den extrem niedrigen und den extrem hohen
Einkommen ab, dann liegen die mittleren 50% der Einkommen zwischen
1700 DM und 2500 DM. Die Hälfte der befragten Personen verdient
weniger als 1950 DM. Im Durchschnitt verdienen die befragten Personen
2118,79 DM (Standardabweichung 619,60).
Mittelwerte und Streuungsmaße nach Messniveau (1)
Zentrale Tendenz (Mittelwerte)
Nominal Ordinal Intervall Verhältnis
Modus ja ja ja ja
Median nein Ja ja ja
Arithm. Mittel nein nein ja ja
Geom. Mittel nein nein nein ja
Mittelwerte und Streuungsmaße nach Messniveau (2)
Streuung (Streuungsmaße)
Nominal Ordinal Intervall Verhältnis
Spannweite nein (ja) ja ja
Quartilsabstand nein (ja) ja ja
Mittl. absolute Abweichung
nein nein ja ja
VarianzStandardabweichung
nein nein ja ja
Variationskoeffizient nein nein nein ja
Typische Verteilungsformen (1)
e) schmalgipflig f) breitgipflig
g) u-förmig h) -förmig
Typische Verteilungsformen (2)
a) unimodal c) bimodal
c) rechtssteil/linksschief d) linkssteil/rechtsschief
Weitere univariate Statistiken
• Schiefe: Maß für die Asymmetrie
• Exzess: Maß für die Steilheit
symmetrisch
linkssteil
x~x
h
x~xh
x~x h
rechtssteil
Die Lage der Mittelwerte in verschiedenen Verteilungen
Vergleich einer Verteilung mit der Standardnormalverteilung
• Wenn die relative Stellung einer Person bezogen auf eine Stichprobe in Einheiten der Standardabweichung ermittelt werden soll
• oder wenn die Werte zweier Tests einer Person, die mit verschiedenen Maßeinheiten gemessen wurden, verglichen werden sollen, werden die Werte z-transformiert: