Top Banner
Statystyka i opracowanie danych W 5: Odkrywanie i analiza zależności pomiędzy zmiennymi losowymi (danymi empirycznymi) Dr Anna ADRIAN Paw B5, pok 407 [email protected]
51

Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Mar 01, 2019

Download

Documents

ngonhi
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Statystyka i opracowanie danych W 5:

Odkrywanie i analiza zależności pomiędzy

zmiennymi losowymi (danymi empirycznymi)

Dr Anna ADRIANPaw B5, pok [email protected]

Page 2: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Odkrywanie i analiza zależności pomiędzy

zmiennymi ilościowymi (liczbowymi)

Przedmiotem kolejnych dwóch wykładów będą zależności dla– Zmiennych jednowymiarowych

• Korelacja liniowa– Korelacja liniowa– – test istotności współczynnika korelacji liniowej

• regresja prosta– Współczynniki regresji, wyznaczanie ich MNK– Ocena dopasowania modelu Współczynnik determinacji– Standardowy błąd estymacji– Współczynnik zmienności losowej

– Zmiennych wielowymiarowych• Macierz korelacji• Korelacje cząstkowe• regresja wieloraka

Page 3: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Metody statystyczne stosuje się do badania struktury zbiorowości i zależności pomiędzy jej cechami

• Metody statystyczne dotyczące analizy struktury zbiorowości opierały się na obserwacjach tylko jednej cechy, a jeśli brano pod uwagę kilka cech, to każdą analizowano oddzielnie.

• W wielu przypadkach, do poznania całokształtu zagadnienia potrzebna jest analiza zbiorowości z punktu widzenia kilku cech, pomiędzy którymi występują pewne zależności

• Odkrywanie postaci i siły zależności występujących pomiędzy cechami zbiorowości są przedmiotem analizy korelacji i regresji.

• Uwzględniając liczbę zmiennych (analizowanych cech zbiorowości) rozróżnia się następujące odmiany zależności

wiele zmiennychwielowymiarowa

jedna zmienna wielowymiarowa

wiele zmiennychjednowymiarowa

jedna zmienna jednowymiarowa

niezależna (objaśniająca)zależna (objaśniana)

Rodzaj zmiennej

Page 4: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Wprowadzenie do analizy zależności pomiędzy danymi statystycznymi

• Celem analizy jest stwierdzenie, czy między badanymi zmiennymi zachodzą jakieś zależności, jaka jest ich:– siła (współczynnik determinacji , współczynnik korelacji)

– postać ( dopasowanie funkcji reprezentujących zależność - aproksymacja)

– kierunek (monotoniczność)

• Współzależność między zmiennymi może być dwojakiego rodzaju: – funkcyjna

– stochastyczna (probabilistyczna).

Page 5: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Przykłady związków funkcyjnychi statystycznych

Page 6: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Rodzaje zależności pomiędzy danymi -zależność funkcyjna

• Istota zależności funkcyjnej polega na tym, że zmiana wartości jednej zmiennej powoduje ściśle określoną zmianę wartości drugiej zmiennej.

• W przypadku zależności funkcyjnej: y = f (x), każdej wartości zmiennej (X) odpowiada jedna i tylko jedna wartość zmiennej (Y).

• Symbolem X oznaczamy zmienną objaśniającą(niezależną), natomiast symbolem Y - zmiennąobjaśnianą (zależną ).

Page 7: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Rodzaje zależności pomiędzy danymi Zależność korelacyjna

• Zależność stochastyczna występuje wtedy, gdy wraz ze zmianą wartości jednej zmiennej zmienia się rozkład prawdopodobieństwa drugiej zmiennej

• Szczególnym przypadkiem zależności stochastycznej jest zależność korelacyjna (statystyczna).

• Zależność korelacyjna polega na tym, że określonym wartościom jednej zmiennej odpowiadają ściśle określone średnie wartości drugiej zmiennej.

• Związki typu statystycznego są możliwe do wykrycia oraz ilościowego opisu w przypadku, kiedy mamy do czynienia z wieloma obserwacjami, opisującymi badane obiekty, zjawiska czy też procesy

Page 8: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy
Page 9: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Badanie zależności statystycznych pomiędzy danymi empirycznymi

• W badaniach statystycznych zależności pomiędzy cechami najczęściej sprowadza się do funkcji liniowych.

• Nieliniowe związki pomiędzy zmiennymi mogą byćopisywane przez wielomiany drugiego i wyższych stopni albo przez inne funkcje (wykładnicze, logarytmiczne, trygonometryczne itp.) .

• Przy podejmowaniu decyzji o wyborze funkcji aproksymacyjnej, opisującej w przybliżeniu związek pomiędzy analizowanymi cechami, pomocne jest sporządzenie wykresu rozrzutu wartości badanych zmiennych.

• Jeśli okaże się, że pomiędzy zmiennymi widoczna jest zależność i nie jest ona liniowa, wówczas trzeba znaleźćodpowiednie rozwiązanie nieliniowe

Page 10: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Przykłady układów punktów przy różnych wartościach współczynnika korelacji liniowej

Page 11: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Miarą siły i kierunku zależności liniowej jest współczynnik korelacji liniowej

• Statystyką, która opisuje siłę liniowego związku pomiędzy dwiema zmiennymi jest współczynnik korelacji z próby (ρ∼r).

• Przyjmuje on wartości z przedziału domkniętego <-1; 1>.

• Wartość -1 oznacza występowanie doskonałej korelacji ujemnej (to znaczy sytuację, w której punkty leżądokładnie na prostej, skierowanej w dół), a wartość 1 oznacza doskonałą korelację dodatnią (punkty leżądokładnie na prostej, skierowanej w górę).

• Wartość 0 oznacza brak korelacji liniowej

)()(

),cov(

YDXD

YX=ρ

Page 12: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Wzór do obliczania empirycznego współczynnika korelacji ma postać

gdzie:• xi oraz yi oznaczają empiryczne wartości zmiennych,

odpowiednio, X i Y, natomiast• x oraz y oznaczają średnie wartości tych zmiennych.

Współczynnik korelacji daje też informację o kierunku zależności, bo jeśli małym wartościom X odpowiadają przeważnie małe wartości zmiennej Y, a dużym wartościom X duże wartości Y, to licznik wyrażenia dla r będzie dodatni, mianownik jest zawsze dodatni, zatem r>0 oznacza zależność rosnącą, r<0 –malejącą.

Page 13: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Test istotności współczynnika korelacji liniowej (Pearsona)

Badane zmienne (X, Y) mają dwuwymiarowy rozkład normalny, o nieznanym współczynniku korelacji ρ.

Z populacji wylosowano n – elementową próbę i wyliczono rZweryfikować hipotezę H0: ρ = 0 wobec jednej z hipotez alternatywnych

H1: ρ ≠ 0 lub H1: ρ < 0 albo H1: ρ > 0

Funkcja testowa ma postać:

a gdy n>100 to

zmienna t ma rozkład Studenta z n-2 stopniami swobody; u ma rozkład normalny. Hipotezę H 0 odrzucamy ilekroć wartość

obliczona funkcji testowej znajdzie się w obszarze krytycznym (zdefiniowanym przez hipotezę H1)

21 2

−−

= nr

rt n

r

ru

21−=

Page 14: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Niejednoznaczno ść informacji przekazywanej przez współczynnik korelacji - przykład

Zale żność pomi ędzy licz ą bocianow i liczb ą urodzin dzieci

y = 0,182x + 1,3015

R2 = 0,9654

0

2

4

6

8

10

12

14

16

18

20

0 20 40 60 80 100

Liczba bocianow

Licz

ba u

rodz

onyc

h dz

ieci

Interpretacja: przez analogię do filmu Seksmisja: jeśli bociany to miejsce wybrały musi to być „zdrowy” region –pomyśleli młodzi i postanowili się tu osiedlić

R=0.9825

Page 15: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Regresja prosta (regresja liniowa)

Analiza regresji stanowi w stosunku do analizy korelacji dalszy krok w zakresie ilościowego opisu powiązań zachodzących między zmiennymi.

• Model regresji liniowej prostej przyjmuje postać:

Y = β 0+ β1 x + εgdzie β 0 oznacza wyraz wolny, β1 współczynnik kierunkowy, a ε błąd.

• Zazwyczaj nie wszystkie punkty układają się dokładnie na prostej regresji. Źródłem błędu są wpływy innych nie uwzględnionych w modelu zmiennych, takich jak np. błędy pomiarowe.

• Zakłada się przy tym, że błędy mają średnią wartość równą zero i nieznaną wariancję oraz, że błędy nie są nawzajem skorelowane.

• Współczynniki regresji β 0 β1 można wyznaczyć korzystając z metody najmniejszych kwadratów.

Page 16: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Istota metody najmniejszych kwadratów -MNK

• Wprowadzona przez Legendre'a i Gaussa, jest najczęściej stosowaną w praktyce metodą statystyczną

• Jej istota jest następująca:– Wynik kolejnego pomiaru yi można przedstawić jako

sumę (nieznanej) wielkości mierzonej y oraz błędu pomiarowego εi ,

• Od wielkości oczekujemy, aby suma kwadratów była jak najmniejsza:

( ) minˆ 22 =−=∑∑i

iii

i yyε

Page 17: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Dopasowanie modelu matematycznegodo danych rzeczywistych

• Zasadniczy cel analizy regresji polega na ocenie nieznanych parametrów modelu regresji. Ocena ta jest dokonywana za pomocą metody najmniejszych kwadratów (MNK).

• MNK sprowadza się do minimalizacji sum kwadratów odchyleńwartości teoretycznych od wartości rzeczywistych (czyli tzw. reszt modelu).

• Dopasowany model regresji prostej, który daje punktową ocenęśredniej wartości y dla określonej wartości x przyjmuje postać:

(r r l)

• gdzie f(x) oznacza teoretyczną wartość zmiennej zależnej, • b 0 i b1 odpowiednio oceny wyrazu wolnego i współczynnika

kierunkowego, uzyskane na podstawie wyników z próby.

xbbxfy 10)(ˆ +==

Page 18: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Metoda Najmniejszych Kwadratów

( )∑ =+−−=∂∂

iii xbby

b

y0)(2 10

0

( ) ( ) min)(ˆ 210

2 →+−=− ∑∑i

iii

ii xbbyyy

Wyrażenie

Osiągnie min wtedy i tylko wtedy gdy

( )∑ =+−−=∂∂

iiii xbbyx

b

y0)(2 10

1

Page 19: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Współczynniki równania regresji liniowej

2

1

11

11

11

0

)(

))((

1

∑∑

=

=

==

−−=

−=

−=

n

ii

n

iii

n

ii

n

ii

xx

yyxxb

xbyxbyn

b

Page 20: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Wykres ilustrujący zależność pomiędzy średnią temperaturą a zużyciem gazu

Page 21: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Interpretacja równania regresji (r r l)

• b0 jest punktem przecięcia prostej regresji z osia wartości y (rzędnych)

• b1 oznacza przyrost wartości prostej przy jednakowym przyroście argumentu

• Łatwo wyliczyć związek współczynnika b1 z wartościąwspółczynnika korelacji próbkowej

xx

xbbxbbb

−++−++=

)1(

)())1(( 10101

x

y

x

y

yx

n

iii

x

n

iii

n

ii

n

iii

s

sr

s

s

ssn

yyxx

sn

yyxx

xx

yyxxb =

−−=

−−=

−−=

∑∑

∑==

=

=

)1(

))((

)1(

))((

)(

))((1

21

2

1

11

Page 22: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Interpretacja równania regresji (r r l)

• Prosta regresji przechodzi przez punkt o współrzędnych odpowiadającym średnim wartościom zmiennych X i Y

• Z faktu, że MNK minimalizuje sumę kwadratów różnic ei

• wynika, że

• Stąd wynika, że reszty nie mogą być dowolne, w szczególności nie mogą być jednakowego znaku

yxbxbyxbbxy =+−=+= 1110 )()(ˆ

iii yye ˆ−=

0)(()ˆ( 10111

=+−=−= ∑∑∑===

xbbyyye i

n

iii

n

i

n

ii

Page 23: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Analiza modelu regresji liniowej

Model regresji liniowej prostej przyjmuje postać:

Y = E(Y/X=x) = β 0+ β1 x + ε

gdzie:

• E(Y/X=x) oznacza wartość zmiennej Y oczekiwana przy warunku, że zmienna X przyjmie wartość x

• β 0, β1 są współczynnikami regresji liniowej,

• ε –oznacza składnik losowy (błąd).

Page 24: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Założenia modelu liniowego

• Estymatory b0 i b1 współczynników regresji β 0 β1 wyznaczone metodą najmniejszych kwadratów mająpożądane własności (efektywność, nieobciążoność) jeśli spełnione są warunki:– Model jest liniowy względem parametrów,

tzn. ∀ i: yi= β 0+ β1 xi

– Liczba obserwacji n musi większa lub równa liczbie szacowanych parametrów (współczynników regresji)

– Składnik losowy ei ma wartość oczekiwaną równą zero dla wszystkich i=1,..,n , tzn. E(ei) =0

– Wariancja składnika losowego ei (wariancja reszt) jest taka sama dla wszystkich obserwacji War (ei) =2σ dla wszystkich i=1,…,n

– Składniki losowe są nieskorelowane, czyli ei oraz ej sąod siebie niezależne ∀ i ≠j i każdy ze składników losowych ma rozkład normalny

Page 25: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Interpretacja wyników obliczeń dla regresji liniowej

Page 26: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Weryfikacja modelu

• Najważniejsze etapy weryfikacji modelu to:– weryfikacja merytoryczna– weryfikacja statystyczna

• W trakcie weryfikacji merytorycznej sprawdzamy zgodność wyników uzyskanych z modelu z wiedząteoretyczną.

• Jeśli weryfikacja statystyczna wskazuje na niedopasowanie modelu, zwykle potwierdza się to podczas weryfikacji mertorycznej

Page 27: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Analiza reszt

• Wariancja resztowa będąca oceną wariancji składnika losowego wyraża się wzorem

Pierwiastek z wariancji resztowej, czyli odchylenie standardowe reszt Se

, zwane standardowym błędem estymacji jest najczęściej stosowanąmiarą zgodności modelu z danymi empirycznymi.

iii yye ˆ−=

21

2

2

−−=∑

=

mn

eS

n

ii

e

Page 28: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Weryfikacja statystyczna modelu

64385,02

1

2

2 =⇒−

=∑

=e

n

ii

e sn

eS

Średnie zużycie paliwa obliczane z równania regresji różnią się od wartościempirycznych średnio biorąc o 0,64385 l

Obliczone estymatory współczynników regresji odchylają się od parametru b0= 3,830 421 o wartość Sb0= 0,450851, tj.o około 12 % b1=0,002386 o wartość Sb1= 0,000311, tj. o około 13%

Można zweryfikować dopasowanie modelu na podstawie funkcji testowej tt= bi/Sbi , tb0= 8,495987 tb1= 7,668 242

Najbardziej popularną i miarodajną oceną dopasowania modelu do danych empirycznych jest współczynnik determinacji R2

0,450851 3,830421 0,117703

0,000311 0,002386 0,130344

Page 29: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Współczynnik zmienności losowej

• Wielkość Se2 wskazuje na przeciętną różnicę między

zaobserwowanymi wartościami zmiennej objaśnianej i wartościami teoretycznymi obliczonymi z prostej regresji.

• Współczynnik W , obliczany według wzoru

informuje o tym jaką część średniej wartości zmiennej objaśnianej stanowi błąd standardowy estymacji.

• Po wyznaczeniu równania regresji ( modelu) należy sprawdzićhipotezę o istotności otrzymanych współczynników regresji,

• W tym celu przeprowadzamy testy istotności t .

%90902.0138.7

64385.0 ≈===y

SW e

Page 30: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Interpretacja współczynnika determinacji R2

∑∑∑===

+−=−n

iii

n

ii

n

i

eyyyy1

22

1

2

1

)ˆ()(

Można pokazać, że

Całkowita sumakwadratów - CSK

Wyjaśniona przez modelsuma kwadratów - WSK

Resztkowa sumakwadratów RSKZmienność niewyjaśnionaprzez model

yi

CSKRSK

WSK

y=b1x +b0xi

iy

y

Page 31: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Interpretacja współczynnika determinacji R2

R2=0,7277 oznacza, że 72,77% ogólnej zmienności zmiennej zależnej,zużycia paliwa, jest objaśniona przez równanie regresji, w którym zmienną objaśniającą jest pojemność silnika.Uwagi: wspólczynnik determinacji w pewnych okolicznościach możedawać błędne wyjaśnieni zmienności Y, np:

– gdy n=2 wtedy zawsze R2=1– gdy n jest niewiele większe od 2 lepiej stosować tzw poprawiony R2

poprawione R2, mówi jak dobrze byłoby dopasowane nasze równaniedo innej próby z tej samej populacji, zawsze jest mniejsze od R2 z próby.

– gdy w modelu nie uwzględniliśmy wyrazu wolnego tzn y=b1x– gdy model jest nieliniowy– gdy zastosowano inną metodę niż MNK

CSK

WSK

yy

yyR

n

ii

n

ii

=−

−=

=

=

1

2

1

2

2

)(

)ˆ(

Page 32: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Inne wskaźniki dopasowania modelu

• Współczynnik zmiennej zależnej względem zmiennej niezależnej beta

• Wyliczonych wartości współczynników regresji nie można porównywać ze względu na inne jednostki miary. Normalizujemy równanie regresji i otrzymujemy

• Jeśli β = 0,853 oznacza to, że zmiana zmiennej niezależnej o jedno odchylenie standardowe powoduje zmianę wartości zależnej zmiennej o 0,853 jej odchylenia standardowego.

• Zaletą tej interpretacji jest niezależność od jednostek miary• Zauważmy, że β = 0,853070 = r (współczynnikowi korelacji

liniowej.

ix

i

y

i es

xx

s

yy +−=− β

Page 33: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Inne wskaźniki dopasowania modelu

• Obliczanie elastyczności Y względem X według wzoru

• Pokazuje o ile procent zmienia się wartość Y gdy wartość X zmieni się o 1%

• 0,002386 * 1385,917/7,138 = 0,463• oznacza to, że w otoczeniu średnich zmiana

pojemności silnika o 1% powoduje zmianęzużycia paliwa o około 0,5%

Y

Xb1

Page 34: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Weryfikacja hipotez

Należy zbadać• istotność współczynnika kierunkowego; Nieodrzucenie hipotezy o braku

wpływu x na y świadczy o wadliwości modelu• istotność współczynnika determinacji • istotność liniowego związku pomiędzy analizowanymi zmiennymi

Page 35: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Regresja wieloraka

Page 36: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Regresja wieloraka

W celu wykonania wykresu należy prawym przyciskiem myszy kliknąć w obrębie zmiennej x -średnia temperatura dobowa

Page 37: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Wykres rozrzutu z dopasowan ą lini ą regresji

Page 38: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy
Page 39: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Postać związków – przykłady dlajednowymiarowej zmiennej objaśnianej (y), gdy jedna jest zmienna objaśniająca (x)

y=2x+1

0

1

2

3

4

5

6

0 0,5 1 1,5 2 2,5

y=1+xcos(x)

-3,00

-2,00

-1,00

0,00

1,00

2,00

0 1 2 3 4

x

y= EXP(x)

0,00

1,00

2,00

3,00

4,00

5,00

6,00

7,00

8,00

0 0,5 1 1,5 2 2,5

x

a b

c d

y=log x

-1,50

-1,00

-0,50

0,00

0,50

1,00

0 0,5 1 1,5 2 2,5 3 3,5 4

Page 40: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Linearyzacja funkcji nieliniowych

bxayaby x logloglog +==

bxayaey bx +== lnln

xbayaxy b lnlnln +==

22121

2 xxxxgdziecxbxaycxbxay ==++=++=

Page 41: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Regresja wielomianowa dla n=2

( ) ( ) minˆ22

2102 →−−−=− ∑∑

iiii

iii xbxbbyyy

2210)(ˆ xbxbbxfy ++==

Współczynniki b0, b1 i b2 wyznaczymy z układu trzech równań utworzonych z trzech pochodnych obliczonych względem zmiennych b0 , b1 i b2 i przyrównanych do zera

Page 42: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Regresja wielomianowa

Page 43: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Typowanie postaci zależności-Statistica/wykresy/ wykresy rozrzutu 2W

Page 44: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy
Page 45: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Analiza zbioru danych

Page 46: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Odkrywanie i analiza zale żności

Page 47: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Odkrywanie i analiza zale żności

Page 48: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Interpretacja wykresów powierzchniowych

Page 49: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Macierz korelacji

Page 50: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Korelacje cz ąstkowe

)1)(1( 223

213

2313123.12

rr

rrrr

−−

−=

Związek korelacyjny pomiędzy zmiennymi X1 i X2, z wyłączeniem działania zmiennej X3

Gdy interesuje nas związek pomiędzy dwiema wybranymi zmiennymi przy wyłączeniu wpływu pozostałych zmiennych – liczymy współczynnik korelacji cząstkowej

Page 51: Statystyka i opracowanie danych W 5: Odkrywanie i analiza ...home.agh.edu.pl/~adan/wyklady/siod-is-sn5-2014.pdf · • Odkrywanie postaci i siły zależności występujących pomiędzy

Analiza wpływu wybranych zmiennychna zużycie paliwa