Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Podstawy statystyki dla psychologów

Zajęcia 6

Karol Wolski

Predykcja

• Predykcja to szacowanie wartości jednej zmiennej na podstawie wyników innej zmiennej, wtedy gdy zmienne te są ze sobą skorelowane

• Im wyższa korelacja miedzy tymi dwiema zmiennymi tym lepsza predykcja

Predykcja

Predykcja

• Metoda pierwsza: – Bierzemy pod uwagę tylko wyniki osób, które w

teście SAT uzyskały 1100 pkt.

– Dla każdego z nich odczytujemy wynik GPA (Y)

– Średnia tych wyników jest naszą predykcją Y na podstawie X, czyli 2,3 • Metoda ta jest niestabilna bo uwzględnia tylko część

wyników

• Na innej próbie predykcja GPA na podstawie wyniku SAT równego 1100 pkt może się różnić

Predykcja na podstawie linii regresji

• Druga metoda

– Metoda opierająca się na linii regresji

– Linia regresji – prosta najlepiej dopasowana do wartości Y przy predykcji Y na podstawie X

• Jest ona opisana za pomocą równania regresji

– Metoda ta pozwala na dokładniejszą predykcję ponieważ wykorzystuje wszystkie wyniki w próbie

Predykcja na podstawie linii regresji

• Ograniczenia

– Linia wyznaczona na podstawie danych z próby może się różnić od linii najlepiej dopasowanej do wyników populacji

• Im większa próba tym lepsze nasza aproksymacja

– Założenie liniowości związku zmiennych (związek X i Y opisuje linia prosta)

Co to znaczy, że prosta jest najlepiej dopasowana?

• Oznaczenia

– Y’ – symbol oznaczający przewidywaną wartość Y

– 𝑑𝑦- symbol oznaczający rozbieżność Y-Y’

• Najlepiej dopasowana linia regresji to taka linia, która minimalizuje sumę kwadratów odchyleń między rzeczywistą wartością Y a jej wartością przewidywaną (tzw. kryterium najmniejszych kwadratów)

Co to znaczy, że prosta jest najlepiej dopasowana?

Średnia arytmetyczna linia regresji – czy jest jakiś związek?

• Średnia to zastosowanie podejścia najmniejszych kwadratów do poszukiwania tendencji centralnej, zaś linia regresji to zastosowanie tej techniki w poszukiwaniu najlepiej dopasowanej prostej

– Dlatego średnia i linia regresji mają podobne właściwości np. stosunkowo dużą odporność na zmienność próby

Średnia arytmetyczna linia regresji – czy jest jakiś związek?

• Linia regresji do de facto seria średnich (tzw. średnia ruchoma)

– Y’ jest oszacowaniem średniej Y pod warunkiem, że X przyjmuje konkretną wartość

Równanie regresji

• 𝑌 = 𝑏𝑋 + 𝑎 – b, a – stała

• Regresja Y względem X dla wyników standaryzowanych – 𝒛′𝒀 = 𝒓𝒛𝑿

• 𝒛′𝒀 - przewidywana wartość standaryzowana Y

• 𝒓 – współczynnik korelacji między X i Y

• 𝒛𝑿 - standaryzowana wartość X na podstawie, której przewidujemy 𝒛′𝒀 – Ten wzór wykorzystuje się rzadko ale teram pomoże nam

zobrazować kilka zależności

Równanie regresji

• Jeśli przewidujemy Y na podstawie wartości średniej X to w przypadku danych wyrażonych na skali z, nasza predykcja zawsze wynosić będzie 0 (niezależnie od wartości r)

– 𝒛′𝒀 = 𝒓 ∗ 𝒛𝑿= 𝒓 ∗ 𝟎 = 𝟎 • Ale 0 to też średnia dla Y (bo na skali z M=0)

• Dla wszystkich wartości r równanie regresji przewiduje, że obserwacja, dla której wynik jest równy średniej wartości X, będzie miała wynik równy średniej wartości Y

Równanie regresji

• Natomiast jeśli r=0

– Przewidywana wartość Y zawsze będzie równa wartości średniej Y, niezależnie od wartości X

Równanie regresji dla wyników surowych

• 𝑌′ = 𝑟𝑆𝑌

𝑆𝑋𝑋 − 𝑟

𝑆𝑌

𝑆𝑋𝑋 + 𝑌

– 𝑌′- przewidywana surowa wartość Y

– 𝑆𝑌, 𝑆𝑋 - odchylenia standardowe

– 𝑋 , 𝑌 - średnie

– r – korelacja między X i Y

Równanie regresji dla wyników surowych - przykład

• X – wynik testu SAT Y – wskaźnik GPA

• 𝑋 = 1000 𝑌 = 2

• 𝑆𝑋 = 140 𝑆𝑌 = 0,5

• r=+0,35

• X = 1100


𝑌′ = 𝑟𝑆𝑌𝑆𝑋

𝑋 − 𝑟𝑆𝑌𝑆𝑋

𝑋 + 𝑌

= 0,35 ∗0,5

140∗ 𝑋 − 0,35 ∗

0,5

140∗ 1000 + 2

= 0,0125𝑋 − 1,250 + 2 = 0,0125𝑋 + 0,75

𝑌′ = 0,0125𝑋 + 0,75

𝑌 = 𝑏𝑋 + 𝑎


• 𝑌′ = 0,0125𝑋 + 0,75

• No to podstawia z X wartość 1100

– 𝑌′ = 0,0125𝑋 + 0,75 = 0,0125 ∗ 1100 +0,75 = 1,375 + 0,75 = 2,12


Błąd predykcji

• Szacowana wartość Y nie będzie przeważnie odpowiadała idealnie realnej wartości

– Musimy pamiętać, że nasze Y’ to jedynie średnie oszacowanie Y na dla obserwacji charakteryzujących się danym poziomem X

– Oczekujemy więc zróżnicowania realnych Y dla różnych osób mających tę samą wartość X

• Chyba, że korelacji wynosi -+ 1 (wtedy mamy do czynienia z idealnym przewidywaniem)

Błąd predykcji – jak go zmierzyć?

• Błąd predykcji to nic innego jak odchylanie się realnych wyników Y od wartości Y’ – Zatem najlepszym sposobem na przedstawienie

takiego typu odchyleń będzie… odchylenie standardowe

• Miarą błędu predykcji będzie zatem – standardowy błąd oszacowania

𝑺𝒀𝑿 = (𝒀 − 𝒀′)𝟐

𝒏



• W przypadku r=0 to 𝑌′ = 𝑌

• Wartość standardowego błędu oszacowania waha się od zera (r=+-1) do wartości 𝑆𝑌 (SD), wtedy gdy r wynosi 0


• 𝑺𝒀𝑿 jest rodzajem odchylenia standardowego dlatego, że Y’ jest de facto średnią przewidywanych Y dla danej wartości X

• Właściwości 𝑺𝒀𝑿

– Suma kwadratów odchyleń wyników od Y’ (𝑌 − 𝑌′)2 jest najmniejszą sumą z możliwych

– (𝑌 − 𝑌′) = 0

Błąd predykcji

• Częściej liczymy go według takie wzoru (idzie łatwiej i szybciej)

• 𝑺𝒀𝑿 = 𝑺𝒀 𝟏 − 𝒓𝟐

Wróćmy do naszego przykładu

• X – wynik testu SAT Y – wskaźnik GPA

• 𝑋 = 1000 𝑌 = 2

• 𝑆𝑋 = 140 𝑆𝑌 = 0,5

• r=+0,35

• X = 1100

𝑺𝒀𝑿 = 𝑺𝒀 𝟏 − 𝒓𝟐 = 𝟎, 𝟓𝟎 𝟏 − 𝟎, 𝟑𝟓𝟐 = 𝟎, 𝟒𝟕

Błąd oszacowania

• Jeśli standardowy błąd oszacowania jest formą odchylenia standardowego, a Y’ to średnia oszacować Y dla danego X to

– 68% rzeczywistych wartości Y znajduje się w przedziale Y’ +- 1𝑆𝑌𝑋

– 95% rzeczywistych wartości Y znajduje się w przedziale Y’ +- 1,96𝑆𝑌𝑋

– 99% rzeczywistych wartości Y znajduje się w przedziale Y’ +- 2,58𝑆𝑌𝑋

Błąd oszacowania

• Zatem

– Dolna granica 95% przedziału

• 𝑌′ − 1,96𝑆𝑌𝑋 = 2,12 − 1,96 0,47 = 1,20

– Górna granica 95% przedziału

• 𝑌′ + 1,96𝑆𝑌𝑋 = 2,12 + 1,96 0,47 = 3,04

• Co nam to daje?

– Mamy 95% pewności, że prawdziwy wynik Y dla X=1100 znajduje się w przedziale od 1,20 do 3,04

Uwagi

• Aby wszystko działało związek pomiędzy zmiennymi musi być liniowy

• Zmienność rzeczywistych wartości Y skupionych wokół Y’ musi być taka sama dla wszystkich X – homoskedastyczność

• Rzeczywiste wyniki Y muszą mieć rozkład normalny

Uwagi

Inaczej heteroskedastyczność

No to by było na tyle

• Zajęcia opracowanie na podstawie

– Statystyka dla psychologów i pedagogów, King i Minium, PWN 2009

Podstawy statystyki dla psychologów - zajęcia 6 - predykcja

Education