Top Banner
Podstawy statystyki dla psychologów Zajęcia 6 Karol Wolski
30

Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Dec 07, 2014

Download

Education

Karol Wolski

Predykcja, równanie linii regresji, standardowy błąd oszacowania, homoskedastyczność, heteroskedastyczność
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Podstawy statystyki dla psychologów

Zajęcia 6

Karol Wolski

Page 2: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Predykcja

• Predykcja to szacowanie wartości jednej zmiennej na podstawie wyników innej zmiennej, wtedy gdy zmienne te są ze sobą skorelowane

• Im wyższa korelacja miedzy tymi dwiema zmiennymi tym lepsza predykcja

Page 3: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Predykcja

Page 4: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Predykcja

• Metoda pierwsza: – Bierzemy pod uwagę tylko wyniki osób, które w

teście SAT uzyskały 1100 pkt.

– Dla każdego z nich odczytujemy wynik GPA (Y)

– Średnia tych wyników jest naszą predykcją Y na podstawie X, czyli 2,3 • Metoda ta jest niestabilna bo uwzględnia tylko część

wyników

• Na innej próbie predykcja GPA na podstawie wyniku SAT równego 1100 pkt może się różnić

Page 5: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Predykcja na podstawie linii regresji

• Druga metoda

– Metoda opierająca się na linii regresji

– Linia regresji – prosta najlepiej dopasowana do wartości Y przy predykcji Y na podstawie X

• Jest ona opisana za pomocą równania regresji

– Metoda ta pozwala na dokładniejszą predykcję ponieważ wykorzystuje wszystkie wyniki w próbie

Page 6: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Predykcja na podstawie linii regresji

• Ograniczenia

– Linia wyznaczona na podstawie danych z próby może się różnić od linii najlepiej dopasowanej do wyników populacji

• Im większa próba tym lepsze nasza aproksymacja

– Założenie liniowości związku zmiennych (związek X i Y opisuje linia prosta)

Page 7: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Co to znaczy, że prosta jest najlepiej dopasowana?

• Oznaczenia

– Y’ – symbol oznaczający przewidywaną wartość Y

– 𝑑𝑦- symbol oznaczający rozbieżność Y-Y’

• Najlepiej dopasowana linia regresji to taka linia, która minimalizuje sumę kwadratów odchyleń między rzeczywistą wartością Y a jej wartością przewidywaną (tzw. kryterium najmniejszych kwadratów)

Page 8: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Co to znaczy, że prosta jest najlepiej dopasowana?

Page 9: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Średnia arytmetyczna linia regresji – czy jest jakiś związek?

• Średnia to zastosowanie podejścia najmniejszych kwadratów do poszukiwania tendencji centralnej, zaś linia regresji to zastosowanie tej techniki w poszukiwaniu najlepiej dopasowanej prostej

– Dlatego średnia i linia regresji mają podobne właściwości np. stosunkowo dużą odporność na zmienność próby

Page 10: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Średnia arytmetyczna linia regresji – czy jest jakiś związek?

• Linia regresji do de facto seria średnich (tzw. średnia ruchoma)

– Y’ jest oszacowaniem średniej Y pod warunkiem, że X przyjmuje konkretną wartość

Page 11: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Równanie regresji

• 𝑌 = 𝑏𝑋 + 𝑎 – b, a – stała

• Regresja Y względem X dla wyników standaryzowanych – 𝒛′𝒀 = 𝒓𝒛𝑿

• 𝒛′𝒀 - przewidywana wartość standaryzowana Y

• 𝒓 – współczynnik korelacji między X i Y

• 𝒛𝑿 - standaryzowana wartość X na podstawie, której przewidujemy 𝒛′𝒀 – Ten wzór wykorzystuje się rzadko ale teram pomoże nam

zobrazować kilka zależności

Page 12: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Równanie regresji

• Jeśli przewidujemy Y na podstawie wartości średniej X to w przypadku danych wyrażonych na skali z, nasza predykcja zawsze wynosić będzie 0 (niezależnie od wartości r)

– 𝒛′𝒀 = 𝒓 ∗ 𝒛𝑿= 𝒓 ∗ 𝟎 = 𝟎 • Ale 0 to też średnia dla Y (bo na skali z M=0)

• Dla wszystkich wartości r równanie regresji przewiduje, że obserwacja, dla której wynik jest równy średniej wartości X, będzie miała wynik równy średniej wartości Y

Page 13: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Równanie regresji

• Natomiast jeśli r=0

– Przewidywana wartość Y zawsze będzie równa wartości średniej Y, niezależnie od wartości X

Page 14: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Równanie regresji dla wyników surowych

• 𝑌′ = 𝑟𝑆𝑌

𝑆𝑋𝑋 − 𝑟

𝑆𝑌

𝑆𝑋𝑋 + 𝑌

– 𝑌′- przewidywana surowa wartość Y

– 𝑆𝑌, 𝑆𝑋 - odchylenia standardowe

– 𝑋 , 𝑌 - średnie

– r – korelacja między X i Y

Page 15: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Równanie regresji dla wyników surowych - przykład

• X – wynik testu SAT Y – wskaźnik GPA

• 𝑋 = 1000 𝑌 = 2

• 𝑆𝑋 = 140 𝑆𝑌 = 0,5

• r=+0,35

• X = 1100

Page 16: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Równanie regresji dla wyników surowych - przykład

𝑌′ = 𝑟𝑆𝑌𝑆𝑋

𝑋 − 𝑟𝑆𝑌𝑆𝑋

𝑋 + 𝑌

= 0,35 ∗0,5

140∗ 𝑋 − 0,35 ∗

0,5

140∗ 1000 + 2

= 0,0125𝑋 − 1,250 + 2 = 0,0125𝑋 + 0,75

𝑌′ = 0,0125𝑋 + 0,75

𝑌 = 𝑏𝑋 + 𝑎

Page 17: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Równanie regresji dla wyników surowych - przykład

• 𝑌′ = 0,0125𝑋 + 0,75

• No to podstawia z X wartość 1100

– 𝑌′ = 0,0125𝑋 + 0,75 = 0,0125 ∗ 1100 +0,75 = 1,375 + 0,75 = 2,12

Page 18: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Równanie regresji dla wyników surowych - przykład

Page 19: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Błąd predykcji

• Szacowana wartość Y nie będzie przeważnie odpowiadała idealnie realnej wartości

– Musimy pamiętać, że nasze Y’ to jedynie średnie oszacowanie Y na dla obserwacji charakteryzujących się danym poziomem X

– Oczekujemy więc zróżnicowania realnych Y dla różnych osób mających tę samą wartość X

• Chyba, że korelacji wynosi -+ 1 (wtedy mamy do czynienia z idealnym przewidywaniem)

Page 20: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Błąd predykcji – jak go zmierzyć?

• Błąd predykcji to nic innego jak odchylanie się realnych wyników Y od wartości Y’ – Zatem najlepszym sposobem na przedstawienie

takiego typu odchyleń będzie… odchylenie standardowe

• Miarą błędu predykcji będzie zatem – standardowy błąd oszacowania

𝑺𝒀𝑿 = (𝒀 − 𝒀′)𝟐

𝒏

Page 21: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Błąd predykcji – jak go zmierzyć?

Page 22: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Błąd predykcji – jak go zmierzyć?

• W przypadku r=0 to 𝑌′ = 𝑌

• Wartość standardowego błędu oszacowania waha się od zera (r=+-1) do wartości 𝑆𝑌 (SD), wtedy gdy r wynosi 0

Page 23: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Błąd predykcji – jak go zmierzyć?

• 𝑺𝒀𝑿 jest rodzajem odchylenia standardowego dlatego, że Y’ jest de facto średnią przewidywanych Y dla danej wartości X

• Właściwości 𝑺𝒀𝑿

– Suma kwadratów odchyleń wyników od Y’ (𝑌 − 𝑌′)2 jest najmniejszą sumą z możliwych

– (𝑌 − 𝑌′) = 0

Page 24: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Błąd predykcji

• Częściej liczymy go według takie wzoru (idzie łatwiej i szybciej)

• 𝑺𝒀𝑿 = 𝑺𝒀 𝟏 − 𝒓𝟐

Page 25: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Wróćmy do naszego przykładu

• X – wynik testu SAT Y – wskaźnik GPA

• 𝑋 = 1000 𝑌 = 2

• 𝑆𝑋 = 140 𝑆𝑌 = 0,5

• r=+0,35

• X = 1100

𝑺𝒀𝑿 = 𝑺𝒀 𝟏 − 𝒓𝟐 = 𝟎, 𝟓𝟎 𝟏 − 𝟎, 𝟑𝟓𝟐 = 𝟎, 𝟒𝟕

Page 26: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Błąd oszacowania

• Jeśli standardowy błąd oszacowania jest formą odchylenia standardowego, a Y’ to średnia oszacować Y dla danego X to

– 68% rzeczywistych wartości Y znajduje się w przedziale Y’ +- 1𝑆𝑌𝑋

– 95% rzeczywistych wartości Y znajduje się w przedziale Y’ +- 1,96𝑆𝑌𝑋

– 99% rzeczywistych wartości Y znajduje się w przedziale Y’ +- 2,58𝑆𝑌𝑋

Page 27: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Błąd oszacowania

• Zatem

– Dolna granica 95% przedziału

• 𝑌′ − 1,96𝑆𝑌𝑋 = 2,12 − 1,96 0,47 = 1,20

– Górna granica 95% przedziału

• 𝑌′ + 1,96𝑆𝑌𝑋 = 2,12 + 1,96 0,47 = 3,04

• Co nam to daje?

– Mamy 95% pewności, że prawdziwy wynik Y dla X=1100 znajduje się w przedziale od 1,20 do 3,04

Page 28: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Uwagi

• Aby wszystko działało związek pomiędzy zmiennymi musi być liniowy

• Zmienność rzeczywistych wartości Y skupionych wokół Y’ musi być taka sama dla wszystkich X – homoskedastyczność

• Rzeczywiste wyniki Y muszą mieć rozkład normalny

Page 29: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Uwagi

Inaczej heteroskedastyczność

Page 30: Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

No to by było na tyle

• Zajęcia opracowanie na podstawie

– Statystyka dla psychologów i pedagogów, King i Minium, PWN 2009