Podstawy statystyki dla psychologów Zajęcia 6 Karol Wolski
Podstawy statystyki dla psychologów
Zajęcia 6
Karol Wolski
Predykcja
• Predykcja to szacowanie wartości jednej zmiennej na podstawie wyników innej zmiennej, wtedy gdy zmienne te są ze sobą skorelowane
• Im wyższa korelacja miedzy tymi dwiema zmiennymi tym lepsza predykcja
Predykcja
Predykcja
• Metoda pierwsza: – Bierzemy pod uwagę tylko wyniki osób, które w
teście SAT uzyskały 1100 pkt.
– Dla każdego z nich odczytujemy wynik GPA (Y)
– Średnia tych wyników jest naszą predykcją Y na podstawie X, czyli 2,3 • Metoda ta jest niestabilna bo uwzględnia tylko część
wyników
• Na innej próbie predykcja GPA na podstawie wyniku SAT równego 1100 pkt może się różnić
Predykcja na podstawie linii regresji
• Druga metoda
– Metoda opierająca się na linii regresji
– Linia regresji – prosta najlepiej dopasowana do wartości Y przy predykcji Y na podstawie X
• Jest ona opisana za pomocą równania regresji
– Metoda ta pozwala na dokładniejszą predykcję ponieważ wykorzystuje wszystkie wyniki w próbie
Predykcja na podstawie linii regresji
• Ograniczenia
– Linia wyznaczona na podstawie danych z próby może się różnić od linii najlepiej dopasowanej do wyników populacji
• Im większa próba tym lepsze nasza aproksymacja
– Założenie liniowości związku zmiennych (związek X i Y opisuje linia prosta)
Co to znaczy, że prosta jest najlepiej dopasowana?
• Oznaczenia
– Y’ – symbol oznaczający przewidywaną wartość Y
– 𝑑𝑦- symbol oznaczający rozbieżność Y-Y’
• Najlepiej dopasowana linia regresji to taka linia, która minimalizuje sumę kwadratów odchyleń między rzeczywistą wartością Y a jej wartością przewidywaną (tzw. kryterium najmniejszych kwadratów)
Co to znaczy, że prosta jest najlepiej dopasowana?
Średnia arytmetyczna linia regresji – czy jest jakiś związek?
• Średnia to zastosowanie podejścia najmniejszych kwadratów do poszukiwania tendencji centralnej, zaś linia regresji to zastosowanie tej techniki w poszukiwaniu najlepiej dopasowanej prostej
– Dlatego średnia i linia regresji mają podobne właściwości np. stosunkowo dużą odporność na zmienność próby
Średnia arytmetyczna linia regresji – czy jest jakiś związek?
• Linia regresji do de facto seria średnich (tzw. średnia ruchoma)
– Y’ jest oszacowaniem średniej Y pod warunkiem, że X przyjmuje konkretną wartość
Równanie regresji
• 𝑌 = 𝑏𝑋 + 𝑎 – b, a – stała
• Regresja Y względem X dla wyników standaryzowanych – 𝒛′𝒀 = 𝒓𝒛𝑿
• 𝒛′𝒀 - przewidywana wartość standaryzowana Y
• 𝒓 – współczynnik korelacji między X i Y
• 𝒛𝑿 - standaryzowana wartość X na podstawie, której przewidujemy 𝒛′𝒀 – Ten wzór wykorzystuje się rzadko ale teram pomoże nam
zobrazować kilka zależności
Równanie regresji
• Jeśli przewidujemy Y na podstawie wartości średniej X to w przypadku danych wyrażonych na skali z, nasza predykcja zawsze wynosić będzie 0 (niezależnie od wartości r)
– 𝒛′𝒀 = 𝒓 ∗ 𝒛𝑿= 𝒓 ∗ 𝟎 = 𝟎 • Ale 0 to też średnia dla Y (bo na skali z M=0)
• Dla wszystkich wartości r równanie regresji przewiduje, że obserwacja, dla której wynik jest równy średniej wartości X, będzie miała wynik równy średniej wartości Y
Równanie regresji
• Natomiast jeśli r=0
– Przewidywana wartość Y zawsze będzie równa wartości średniej Y, niezależnie od wartości X
Równanie regresji dla wyników surowych
• 𝑌′ = 𝑟𝑆𝑌
𝑆𝑋𝑋 − 𝑟
𝑆𝑌
𝑆𝑋𝑋 + 𝑌
– 𝑌′- przewidywana surowa wartość Y
– 𝑆𝑌, 𝑆𝑋 - odchylenia standardowe
– 𝑋 , 𝑌 - średnie
– r – korelacja między X i Y
Równanie regresji dla wyników surowych - przykład
• X – wynik testu SAT Y – wskaźnik GPA
• 𝑋 = 1000 𝑌 = 2
• 𝑆𝑋 = 140 𝑆𝑌 = 0,5
• r=+0,35
• X = 1100
Równanie regresji dla wyników surowych - przykład
𝑌′ = 𝑟𝑆𝑌𝑆𝑋
𝑋 − 𝑟𝑆𝑌𝑆𝑋
𝑋 + 𝑌
= 0,35 ∗0,5
140∗ 𝑋 − 0,35 ∗
0,5
140∗ 1000 + 2
= 0,0125𝑋 − 1,250 + 2 = 0,0125𝑋 + 0,75
𝑌′ = 0,0125𝑋 + 0,75
𝑌 = 𝑏𝑋 + 𝑎
Równanie regresji dla wyników surowych - przykład
• 𝑌′ = 0,0125𝑋 + 0,75
• No to podstawia z X wartość 1100
– 𝑌′ = 0,0125𝑋 + 0,75 = 0,0125 ∗ 1100 +0,75 = 1,375 + 0,75 = 2,12
Równanie regresji dla wyników surowych - przykład
Błąd predykcji
• Szacowana wartość Y nie będzie przeważnie odpowiadała idealnie realnej wartości
– Musimy pamiętać, że nasze Y’ to jedynie średnie oszacowanie Y na dla obserwacji charakteryzujących się danym poziomem X
– Oczekujemy więc zróżnicowania realnych Y dla różnych osób mających tę samą wartość X
• Chyba, że korelacji wynosi -+ 1 (wtedy mamy do czynienia z idealnym przewidywaniem)
Błąd predykcji – jak go zmierzyć?
• Błąd predykcji to nic innego jak odchylanie się realnych wyników Y od wartości Y’ – Zatem najlepszym sposobem na przedstawienie
takiego typu odchyleń będzie… odchylenie standardowe
• Miarą błędu predykcji będzie zatem – standardowy błąd oszacowania
𝑺𝒀𝑿 = (𝒀 − 𝒀′)𝟐
𝒏
Błąd predykcji – jak go zmierzyć?
Błąd predykcji – jak go zmierzyć?
• W przypadku r=0 to 𝑌′ = 𝑌
• Wartość standardowego błędu oszacowania waha się od zera (r=+-1) do wartości 𝑆𝑌 (SD), wtedy gdy r wynosi 0
Błąd predykcji – jak go zmierzyć?
• 𝑺𝒀𝑿 jest rodzajem odchylenia standardowego dlatego, że Y’ jest de facto średnią przewidywanych Y dla danej wartości X
• Właściwości 𝑺𝒀𝑿
– Suma kwadratów odchyleń wyników od Y’ (𝑌 − 𝑌′)2 jest najmniejszą sumą z możliwych
– (𝑌 − 𝑌′) = 0
Błąd predykcji
• Częściej liczymy go według takie wzoru (idzie łatwiej i szybciej)
• 𝑺𝒀𝑿 = 𝑺𝒀 𝟏 − 𝒓𝟐
Wróćmy do naszego przykładu
• X – wynik testu SAT Y – wskaźnik GPA
• 𝑋 = 1000 𝑌 = 2
• 𝑆𝑋 = 140 𝑆𝑌 = 0,5
• r=+0,35
• X = 1100
𝑺𝒀𝑿 = 𝑺𝒀 𝟏 − 𝒓𝟐 = 𝟎, 𝟓𝟎 𝟏 − 𝟎, 𝟑𝟓𝟐 = 𝟎, 𝟒𝟕
Błąd oszacowania
• Jeśli standardowy błąd oszacowania jest formą odchylenia standardowego, a Y’ to średnia oszacować Y dla danego X to
– 68% rzeczywistych wartości Y znajduje się w przedziale Y’ +- 1𝑆𝑌𝑋
– 95% rzeczywistych wartości Y znajduje się w przedziale Y’ +- 1,96𝑆𝑌𝑋
– 99% rzeczywistych wartości Y znajduje się w przedziale Y’ +- 2,58𝑆𝑌𝑋
Błąd oszacowania
• Zatem
– Dolna granica 95% przedziału
• 𝑌′ − 1,96𝑆𝑌𝑋 = 2,12 − 1,96 0,47 = 1,20
– Górna granica 95% przedziału
• 𝑌′ + 1,96𝑆𝑌𝑋 = 2,12 + 1,96 0,47 = 3,04
• Co nam to daje?
– Mamy 95% pewności, że prawdziwy wynik Y dla X=1100 znajduje się w przedziale od 1,20 do 3,04
Uwagi
• Aby wszystko działało związek pomiędzy zmiennymi musi być liniowy
• Zmienność rzeczywistych wartości Y skupionych wokół Y’ musi być taka sama dla wszystkich X – homoskedastyczność
• Rzeczywiste wyniki Y muszą mieć rozkład normalny
Uwagi
Inaczej heteroskedastyczność
No to by było na tyle
• Zajęcia opracowanie na podstawie
– Statystyka dla psychologów i pedagogów, King i Minium, PWN 2009