2. A következtetési statisztika alapfogalmai

Tartalom

Statisztikai következtetések A véletlen minta fogalma Pontbecslés és hibája Intervallumbecslés A hipotézisvizsgálat alapfogalmai A legegyszerűbb statisztikai próbák Normalitásvizsgálat

A statisztikai következtetéskét fő típusa

Statisztikai becslés Statisztikai hipotézisvizsgálat

Statisztikai hipotézisvizsgálat

Van-e különbség a teljesítményátlag tekintetében a magyar pszichológus hallgató fiúk és lányok között?

Nullhipotézis (H0): nincs különbség

Ellenhipotézis (HA): van különbség a) A fiúk a jobbak b) A lányok a jobbak

Statisztikai becslés

Kb. mekkora egy egészséges felnőtt nő szisztolés vérnyomása?

Átlagosan hány próbálkozással tanul meg egy ivarérett patkány egy adott útvesztőt?

Hogyan következtünk?

Mintát veszünk a populációból és abból következtetünk arra, hogy milyen lehet a populáció.

Milyen legyen a minta?

Legyen olyan, mint a populáció. Képviselje jól a populációt (legyen

reprezentatív).

Mivel lehet a minta reprezentativitását biztosítani?

Ha a kiválasztás véletlenszerű Ezzel kizárjuk a szubjektivitást.

Ha a minta elég nagy Ezzel lehetővé tesszük, hogy a populáció

sokszínűsége a mintában is megjelenjen.

Hogyan lehet valódi véletlen mintát venni a populációból?

Némi véletlenszerűséget könnyű alkalmazni, de a szubjektivitást nehéz kizárni.

Az önmagában nem elég, hogy a minta nagy: USA elnökválasztás, 1936: Roosevelt versus

Landon. A Literary Digest folyóirat 2,4 millió kérdőív

feldolgozása alapján Landon nagyarányú győzelmét jósolta.

Ezzel szemben Roosevelt 62%-ot kapott és nyert. A Gallup kisebb, de jó minta alapján helyes becslést

adott.

Néhány jó tanács a megfelelő minta kiválasztásához

Minden olyan réteg arányosan képviselve legyen, amelyik a populációhoz tartozik.

Hólabda módszer (ismerős ismerősének az ismerőse).

A kényelmi és hozzáférhetőségi alapon összeállított minták (pl. egyetemisták) esetlegesek.

Az ideálistól eltérő mintaválasztást hibafaktorként számítsuk be a döntés bizonytalanságába.

Ha összeállt a minta, töprengjünk el azon, hogy az milyen populációt képvisel. (Pl. a jelen évfolyam?)

A valószínűségi döntés véletlen jellege

Az egyik urnából véletlenszerűen kiveszek egy golyót. Látjuk, hogy piros. Melyik urnából vettem ki?

A valószínűségi döntés véletlen jellege

Bárhogyan is döntök, nem lehetek teljesen biztos abban, hogy a döntésem helyes, vagyis hogy nem követek el hibát.

Ha piros golyót húzva a bal oldali urnát valószínűsítem, 2/3 az esélye, hogy igazam van, de 1/3 az esélye, hogy tévedek.

Sárga húzás esetén?

Példa: a depresszió két kezelési típusának összehasonlítása

Melyik a jobb kezelés?1. Placebo (napi 3x1, 3 hónapig)

2. Pszichoterápia (heti 3x1 óra, 3 hónapig)

Gyógyulók %-a

1. 2. 3. 4. 5.

Placebo 0 30 30 30 10

Pszicho-terápia 90 60 80 90 70

Következtetés

Melyik esetben jelenthetjük ki legalább 95%-os megbízhatósággal, hogy a pszichoterápia hatásosabb a placebónál?

1. 2. 3. 4. 5.

Placebo 0 30 30 30 10

Pszicho-terápia 90 60 80 90 70

Gyógyulók %-a

A STATISZTIKA RENDSZERE

LEÍRÓ STATISZTIKA

PONT-BECSLÉS

INTERVALLUM-BECSLÉS

BECSLÉS HIPOTÉZIS-VIZSGÁLAT

KÖVETKEZTETÉSISTATISZTIKA

STATISZTIKA

Szokásos jelölések

• Mintabeli (tapasztalati) átlag: x (ejtsd: x-vonás)• Populációbeli (elméleti) átlag: μ (ejtsd: mű)• Mintabeli (tapasztalati) szórás: s

• Populációbeli (elméleti) szórás: σ (ejtsd: szigma)

Következtetési statisztika két fő típusa

Becslés (Mekkora? Milyen nagy?) Pontbecslés (kb. 10,6 1,3) Intervallumbecslés (95%-os

megbízhatósággal 7,8 és 12,5 között)

Hipotézisvizsgálat (Igaz-e, hogy …?)

Statisztikai becslés

Mi a teljesítményátlaga az iménti memóriajátékban az összes magyar pszichológus hallgatónak?

Ha azt mondjuk, hogy kb. 4,3, akkor pontbecslést adunk.

Ha azt mondjuk, hogy 3 és 6 között van, akkor intervallumbecslést adunk.

Mit szoktak becsülni?

Populációátlag (elméleti átlag: μ, E(X)) Populációmedián (elméleti medián: Med(X)) Populációszórás (elméleti szórás: , D(X)) Elméleti variancia (2, Var(X)) Két elméleti átlag különbsége (μ1 – μ2)

Általában a populációk különféle kvantitatív jellemzőit szokták becsülni

Az elméleti átlag pontbecslése konkrét példával illusztrálva

Változó: félév végi statisztika vizsgajegy Populáció: I. éves pszichológus hallgatók Egy lehetséges véletlen minta (rendezve):

{2, 3, 3, 4, 4, 5, 5, 5, 5, 5} Néhány szóba jöhető pontbecslés az elméleti

átlagra: Módusz: Mo = 5 Medián: M = 4,5 Terjedelemközép: TK = (Min + Max)/2 = 3,5 Átlag: x = 41/10 = 4,1

Pontbecslés a μ elméleti átlagra

Következtetés: mintából a populációra. Mi van olyan a mintában, aminek köze van

(lehet) a populációátlaghoz? Becslés jelölése: a kalap (^) szimbólummal. Az elméleti átlag egy pontbecslése a mintaátlag:

μ = x

A pontbecslésről

Amit becsülünk (pl. μ, stb.), az egy konkrét szám.

Amivel becsülünk (mintaátlag, TK stb.), egy véletlen minta statisztikai mutatója, véletlen változó, melynek értéke a minta kiválasztása után lesz csak ismert.

1011121314

0 1 2 3 4 5 6 7 8 9 10

véletlen minták

10 véletlen minta átlaga: μ = ?

Hogyan mérhető a pontbecslés jósága (pontatlansága)?

Standard hiba (SH): körülbelül ennyit tévedünk

μ ≈ x SH Példa: ROPstat, részletesebb

statisztikák

A pontbecslés hibája

Hibavariancia = átlagos négyzetes eltérés a valódi értéktől

Standard hiba (SH) = Hibavariancia négyzetgyöke Egyfajta átlagos eltérés

Mit várunk el egy jó pontbecsléstől?

Ne torzítson szisztematikusan se pozitív, se

negatív irányban (torzítatlanság)

SH-ja legyen kisebb, mint a többi becslésé

(hatékonyság)

SH-ja az elemszám növelésével csökkenjen

és tartson 0-hoz (konzisztencia)

A mintaátlag standard hibájának meghatározása

Elméleti SH = /

Mintabeli SH = s/

Mi itt a „” és mi az „s”?

Ha X = IQ, n = 25, SH = ?

Mekkora elemszámnál lesz SH

1-nél kisebb?GYAK

Miért jó becslése a mintaátlag a populációátlagnak?

A véletlen minta átlaga a populációátlag

körül ingadozik (torzítatlanság)

A mintaátlag SH-ja az elemszám

növelésével csökken (konzisztencia)

A mintaátlag SH-ja sok esetben (pl. normális

eloszlású változók esetén) kisebb, mint más

pontbecsléseké (mediáné, TK-é stb.)

Intervallumbecslés

Definíció: Olyan intervallum (szakasz,

övezet), mely nagy megbízhatósággal

tartalmazza a becsülni kívánt értéket.

Intervallumbecslésaz elméleti átlagra

X-skála

• Vegyünk alkalmas övezetet a mintaátlag körül!• Milyen övezet lesz jó?• Ha nagyon szűk, könnyen kívül maradhat.• Ha nagyon tág (pl. 0-1000): semmitmondó állítás.

Szokásos kritérium

Olyan övezetet vegyünk a mintaátlag körül, amelyik nagy (90 vagy 95%-os) eséllyel tartalmazza az elméleti átlagot (azaz -t).

Ennek az övezetnek (intervallumnak) a neve: 90, illetve 95%-os konfidencia-intervallum.

Jelölés: C0,90, illetve C0,95.

A konfidencia-intervallummeghatározása

X-skála

C0,95 2SH

95%-os konfidencia-intervallum nagy minták esetén:

Egy következmény

Minél nagyobb az elemszám, annál keskenyebb lesz rögzített (pl. 90 vagy 95%-os) megbízhatósági szinten a konfidencia-intervallum, vagyis annál jobb lesz az intervallumbecslés.

SH = / n

Egy példa

Tegyük fel, hogy a MAWI-IQ az egyetemihallgatók populációjában közel normáliseloszlású, szórása 15, de a populációátlagotnem ismerjük. • Egy véletlen 25 fős mintában az átlag 110. • Mekkora lehet a populációátlag?

C0,95 110± ·SE110 ± 2·± ·

Statisztikai hipotézisvizsgálat

Igen-nem segítségével megválaszolható kérdések

1. Egyetemi hallgatók IQ-ja nagyobb-e az átlagosnál?

2. Van-e különbség férfiak és nők verbális intelligenciaszintje között?

3. Összefügg-e a nyugalmi vérnyomásszint és a CPI személyiségteszt Tolerancia skálájának szintje?

A hipotézisvizsgálat fő fogalmai az előző dia 2. kérdésével

szemléltetve1. Szakmai feltételezés: a nők verbális

IQ-jának átlaga nagyobb a férfiakénál.2. Szakmai hipotézis formulával:

E(IQ_nő) > E(IQ_férfi).3. Statisztikai nullhipotézis:

E(IQ_nő) = E(IQ_férfi).4. Indirekt gondolatmenet: szakmai

hipotézis igazolása a nullhipotézis elutasításával történik.

A hipotézisvizsgálat fő fogalmai az iménti dia 1. kérdésével

szemléltetve1. Szakmai feltételezés: az egyetemi

hallgatók IQ-ja nagyobb az átlagosnál.

2. Szakmai hipotézis formulával: E(IQ) > 100.

3. Statisztikai nullhipotézis: E(IQ) = 100.

4. Indirekt gondolatmenet: szakmai hipotézis igazolása a nullhipotézis elutasításával történik.

10 véletlenszerűen kiválasztott egyetemi hallgató

117, 137, 152, 149, 110, 135, 108, 120, 127, 127

E(IQ) = 100 esetén mi a valószínűsége, hogy 10 véletlenszerűen kiválasztott hallgató mindegyikének 100-nál nagyobb lesz az IQ-ja?

p = 1/210 = 1/1024 ≈ 0,001

Vagyis:

Ha igaz az a nullhipotézis, hogy az egyetemi hallgatók átlagos IQ-júak, akkor igen kicsi (p < 0,001) annak a valószínűsége, hogy ilyen nagy (csupa 100-nál nagyobb) adatokat kapjunk 10 megfigyelésből.

A statisztikai hipotézisvizsgálat alapgondolata

Ha a minta, illetve a mintából kiszámított valamely mutató értéke a nullhipotézis (H0) fennállása esetén igen kis valószínűségű, akkor a nullhipotézist elutasítjuk.

A statisztikai próba p-értéke

Mi a valószínűsége, hogy a nullhipotézis (H0) fennállása esetén ilyen, vagy ennél szélsőségesebb legyen a minta, illetve a mintából kiszámított valamely mutató értéke?

A szélsőségesség kétirányú

100-nál nagyobb

100-nál kisebb

Egy-oldalú

Két-oldalú

pEllentmond

H0-nak?

10 0 0,001 0,002 IGEN

9 1 0,011 0,022 IGEN

8 2 0,055 0,110 NEM

7 3 0,172 0,344 NEM

Mi is itt a nullhipotézis?

A próba neve: előjelpróba

Nullhipotézis: H0: E(IQ) = 100 Az IQ elméleti átlaga 100-zal egyenlő

Ekvivalens nullhipotézis normális eloszlású változók esetén:

H0: P(IQ < 100) = P(IQ > 100) A populációban ugyanolyan gyakran fordul elő

100-nál kisebb, mint 100-nál nagyobb IQ-érték Ez az előjelpróba szokásos alakú nullhipotézise Döntés az elemszám alapján statisztika táblázat

segítségével (lásd tankönyv)

A statisztikai döntés logikája

• Miért érezzük úgy, hogy 10-0 vagy 0-10

esetén elutasítható a nullhipotézis (H0)?

• Miért érezzük 10 egymás utáni fej dobás után azt, hogy a pénzérme szabályosságát

állító H0 elutasítható?

• Ha ilyen esetben H0-t elvetjük, mi az esélye

annak, hogy hibásan döntünk? • Ha elméletileg lehetséges ilyen sorozat, akkor miért lepődünk meg, ha bekövetkezik?

Eddig mit néztünka mintában?

Azt, hogy hány 100-nál nagyobb és hány 100-nál kisebb IQ-érték van.

Van más mutató is, ami mond valamit a nullhipotézis (H0) valószínűségéről?

Egy másik lehetséges mutató: t-statisztika

(100: a feltételezett elméleti átlag)

Próbastatisztika

A t-statisztikát és a statisztikai hipotézisvizsgálatokhoz használt hasonló – mintából kiszámított – mutatókat próbastatisztikáknak nevezzük.

Ha H0: μ = 100 igaz, akkor t eloszlása n = 10 esetén

-2,26 2,260

Hogyan döntsünk különböző t-értékekre n = 10 esetén?

-2,26 2,26

t = -2,50 t = 4,60t = 0,41

Széli p-értékek kétirányú döntésnél

t-értékt-értékhez tartozó

széli p-érték (kétold.)Ellentmond

H0-nak?

-2,50 0,034 IGEN

-2,26 0,050 IGEN

0,41 0,691 NEM

2,26 0,050 IGEN

4,60 0,001 IGEN***

Döntés H0-ról n = 10 esetén

-2,26 2,26

t = -2,50 t = 4,60t = 0,41

Kritikustartomány

Megtartásitartomány

A H0-ról szóló döntés logikája

Hova esik a t-érték?

Széli p A t-érték megítélése

Megtartási tartomány

Nem kicsi (> 0,05)

Nem mond ellent H0-nak

Kritikus tartomány

Kicsi (≤ 0,05)

Ellentmond H0-nak

Az előjelpróba és az egymintás t-próba nullhipotézise

‘A’: az X változó hipotetikus nagyságszintje Előjelpróba: H0: P(X < A) = P(X > A)

Az X változó esetében ugyanolyan gyakran fordul elő A-nál kisebb, mint A-nál nagyobb érték

Egymintás t-próba: H0: E(X) = A Az X változó elméleti átlaga A-val egyenlő

Az előjelpróba és az egymintást-próba alkalmazási feltételei

Előjelpróba: nincs, de kis minták esetén a próba kevéssé hatékony

Egymintás t-próba: X változó normalitása Mennyire fontos ez? Ha a minta nagyon kicsi (n < 20): fontos Ha a minta elég nagy (n > 50): nem igazán fontos

Az egymintás t-próba robusztus változatai

Mit tegyünk, ha erősen sérül az X változó normalitási feltétele?

Léteznek olyan próbák, amelyek a normalitás megsértésére kevésbé érzékenyek: robusztus alternatívák Lásd ROPstat, illetve tankönyv

Szokásos statisztikai szóhasználat

p < 0,05 (szignifikancia)

• H0-t 5%-os szignifikanciaszinten elutasítjuk• a próba 5%-os szinten szignifikáns

p < 0,01 (erős szignifikancia)

• H0-t 1%-os szignifikanciaszinten elutasítjuk• a próba 1%-os szinten szignifikáns

p < 0,10 (tendencia)• H0-t 5%-os szinten nem utasíthatjuk el• a próba 5%-os szinten nem szignifikáns• csak egy tendencia van arra, hogy H0 nem igaz

Normalitásvizsgálat (n = 500)

Változó Átlag St.hiba

Ferdeség

Csúcsos-ság

Szülsúly 3,21 0,0223 -0,331** 0,858***

Szülhosz 50,15 0,113 -0,352** 1,097***

Súly10 33,23 0,305 1,221*** 1,992***

Tmag10 138,7 0,288 0,198 0,278

Jelölés: *: p < 0,05 **: p < 0,01 ***: p < 0,001

2. A következtetési statisztika alapfogalmai

Documents

Statisztika példatár › files › 13222 ›...

Könyvtári statisztika

A Gepi Forgacsolas Alapfogalmai

Statisztika és informatika - Mi a statisztika és miért...

22. Statisztika -...

PC és az informatika alapfogalmai

Statisztika Feladatmegoldasok

Gazdaság statisztika

Statisztika - bzmatek.eu · Statisztika A statisztika...

Nemparaméteres statisztika

Statisztika anyag

Adatmodellezés Alapfogalmai (2004, 46 Oldal)

szennyviztisztitas alapfogalmai

Statisztika i. - saldokiado.hu · statisztika, az...

zombori gyula a szociálpolitika alapfogalmai

A demográfiai vizsgálatok alapfogalmai