TIESINĖ REGRESIJA
Jan 11, 2016
TIESINĖ REGRESIJA
Pavyzdžiai
• Koks parduodamų ledų kiekis priklausomai nuo oro temperatūros?
• Kaip sistolinis kraujo spaudimas priklauso nuo KMI?
• Kaip išlaidos priklauso nuo pajamų?• Ar gimstamumas priklauso nuo šeimos pajamų?• Išmatavome IQ pirmame kurse. Ar galima
prognozuoti koks bus studento diplomo pažymių vidurkis?
• Kokį vidutinį VS studento baigiamojo darbo balą galima prognozuoti, jei visas studijų balų vidurkis 8,7?
Tiesinė regresija ir koreliacija
• Tas pats koreliacijos koeficientas gali nusakyti skirtingą priklausomybę (stipri, silpna, teigiama, neigiama)
• Regresinė analizė leidžia prognozuoti vieną kintamąjį kito atžvilgiu
• Koreliacija simetriška, regresiniai modeliai kintamųjų atžvilgiu asimetriški.
Skirtingos koreliacijos pavyzdys
• Koreliacija tarp išlaidų reklamai ir pajamų yra 0,99 – stiprus teigiamas ryšys.
• Ar naudinga firmai padidinti išlaidas reklamai?
• Atrodytu, kad taip!
• Tačiau tokį rezultatą gali duoti tiek įdėtas 1 Lt ir gautas kelių Lt pelnas, tiek kelių cnt. pelnas.
Kintamieji
• Kintamasis, kurio reikšmes norima prognozuoti, vadinamas priklausomu kintamuoju (dependent variable).
• Kintamasis, pagal kurio reikšmes norima prognozuoti priklausomo kintamojo reikšmes, vadinamas nepriklausomu kintamuoju (independent variable).
Regresijosmodeliai
Paprasta Daugialypė(multiple)
Tiesinė(linear)
Netiesinė(non-linear)
Tiesinė(linear)
Netiesinė(non-linear)
Vienas nepriklausomas kintamasis
Du ir daugiau nepriklausomų kintamųjų
Paprastos tiesinės regresijos modelis
y=a+bx+ey ir x kintamieji
a ir b konstantos (a- laisvasis narys (angl. intercept), b-tiesės krypties koeficientas (angl. slope))
e atsitiktinė paklaida
Regresijos grafinis vaizdas
Tiesinės regresijos žingsniai
1. Priklausomo ir nepriklausomo kintamojo nustatymas.
2. Jų ryšys (tiesinis – koreliacija).Daugialypėje regresijoje multikolinearumo įvertinimas tarp
nepriklausomų kintamųjų.
3. Regresijos modelio vertinimas:• Determinacijos koeficientas.• ANOVA• Regresijos koeficientai, jų stat. reikšmingumas.• Paklaidų (residuals) analizė (išskirtys, paklaidų
grafikai).4. Galutinės lygties užrašymas, jos interpretacija.
Pavyzdys excel –Automobilio taisymo kainos
priklausomybė nuo ridos
Priklausomas kintamasis – remonto kainaNepriklausomas kintamasis – ridaDuomenys:
KORELIACIJA
Lygtis ir hipotezė
y=a+bx
Tikrinama H0: b=0
HA: b≠0
Excel – “Data analysis” → “Regression”
Analizės išklotinė
Grafiškai pagal duomenis(Automobilio taisymo kainos priklausomybė nuo ridos)
Išklotinės rezultatai – ką vertinti?
Determinacijos koeficientas,ANOVA,regresijos koeficientai
Paklaidų analizė
• Išskirtys (iš grafiko arba standartizuotų paklaidų)
• Vidurkiai lygūs nuliui
• Paklaidų skirstiniai normalūs
• Dispersija tolygi (homoskedatiška)
• Paklaidos atsitiktinės
(aiškinimas youtube: http://www.youtube.com/watch?v=vM13uarpcuQ)
Paklaidų vidurkiai lygūs nuliui
Paklaidų skirstiniai normalūs
Paklaidų dispersija tolygi (homoskedatiška)
Galutinės lygties užrašymas(Automobilio taisymo kainos priklausomybė nuo ridos)
Remonto kaina=-197,3+0,01*rida(km)
Jei nepriklausomas kintamasis (rida) padidėja vienu vienetu (1 km), priklausomas kintamasis (remonto kaina) padidės dydžiu, lygiu b įverčiui (0,01 USD).
Grafiškai(Automobilio taisymo kainos priklausomybė nuo ridos)
Tiesinė daugialypė regresija
Pavyzdžiai
• Ar poegzamininis dirglumas priklauso nuo gauto pažymio, nuo egzamino trukmės ir nuo ko labiau?
• Kaip antikvarinės keramikos kaina priklauso nuo jos senumo ir aukciono dalyvių skaičiaus?
• Ar diplomo pažymių vidurkis ir komunikabilumas gali padėti prognozuoti būsimą atlyginimą?
Tiesinė daugialypė regresija
y=a+b1x1+b2x2+b3x3+ …+ bjxj+e
Tikrinama H0: b=0
HA: bent vienas b≠0
Tiesinė daugialypė regresija
Prieš pradedant įvertinama:• Koreliacija• Multikolinearumas (nepriklausomų kintamųjų
priklausomybė vienas nuo kito)– Ryšys paprastai žinomas iš praktikos– Ryšio stiprumui nustatyti skaičiuojame koreliacijos
koeficientą• Stat. paketuose skaičiuojame VIF ir tolerance.
Kintamasis “perdaug multikolinearus”:– Jeigu VIF>4– Jei tolerance artėja prie nulio
Tiesinė daugialypė regresija
Tiesinė daugialypė regresija
Tiesinė daugialypė regresija
kaina=85,71+0,01*rida(km)-92,74*išsilavinimas
Tiesinės regresijos (paprastos ir daugialypės) atlikimo reziumė
1. Priklausomo ir nepriklausomo kintamojo nustatymas.
2. Jų ryšys (tiesinis – koreliacija).Daugialypėje regresijoje multikolinearumo įvertinimas tarp
nepriklausomų kintamųjų.
3. Regresijos modelio vertinimas:• Determinacijos koeficientas.• ANOVA• Regresijos koeficientai, jų stat. reikšmingumas.• Paklaidų (residuals) analizė (išskirtys, paklaidų
grafikai).4. Galutinės lygties užrašymas, jos interpretacija.
Tiesinės regresijos prielaidos
– Stebėjimai:• Tiesinis ryšys• Normalūs skirstiniai (bet nebūtinai)• Dipersijos panašios
– Paklaidos• e normaliai pasiskirstę atsitiktiniai dydžiai;• visų e vidurkiai lygūs nuliui;• visų e dispersijos tolygios (homoskedatiškos);• visi e nepriklausomi.
Pagrindinės priežastys, dėl kurių tiesinė regresija gali netikti
1. Kintamųjų priklausomybė nėra tiesinė
2. Stebėjimai heteroskedatiški
3. Paklaidų skirstiniai nėra normalieji
4. Paklaidos nėra atsitiktinės
5. Duomenyse yra išskirčių