Capitolul 9 ELEMENTE DE TEORIA CORELAŢIEI ŞI REGRESIEI Una din principalele probleme ale teoriei probabilităţilor şi statisticii matematice este cea a studiului dependenţei dintre două sau mai multe variabile. Două sau mai multe variabile pot fi sau independente sau dependente funcţional sau dependente stochastic. Prin dependenţa funcţională între Y şi X 1 , X 2 ,…, X n înţelegem o aplicaţie f care asociază fiecărui (x 1 , x 2 ,…,x n ) ∈ E un element Y ∈ F şi numai unul, adică: Y = f(x 1 , x 2 ,…,x n ) Exemple de dependenţă funcţională se întâlnesc în toate domeniile în care pare modelul matematic. Un astfel de exemplu îl poate constitui legea gazelor perfecte P R T V = , unde R este o constantă caracteristică gazului. Dependenţa funcţională poate exista şi între variabile aleatoare, aşa, de exemplu, avem variabila Student: ( ) tn X n x j j n = = ∑ 1 2 1 unde X, X 1 , X 2 ,…,X n sunt variabile aleatoare independente repartizate normal N(0;1). De asemenea, ( ) ( ) ( ) Fn n n n n n 1 2 2 1 1 2 2 2 , / / = χ χ , unde ( ) χ 2 1 n şi ( ) χ 2 2 n sunt variabile hi pătrat independente. Între variabilele aleatoare poate exista şi o altă dependenţă – dependenţa stochastică – pe care o vom studia în cele ce urmează. O astfel de dependenţă apare atunci când acţionează factori externi atât asupra unei variabile, cât şi asupra celeilalte (celorlalte). Aceştia determină o anumită legitate probabilistică a variabilelor (X, Y, Z, …). Vom spune că între variabilele X 1 , X 2 ,…,X n există o dependenţă stochastică, dacă se dă legea de repartiţie a vectorului aleator (X 1 , X 2 ,…,X n ), care dă posibilitatea stabilirii legilor de repartiţie condiţionate. Această dependenţă îşi găseşte o aplicaţie fundamentală în prognoză, adică în indicarea limitelor în care cu un anumit nivel de încredere se va găsi o variabilă, dacă celelalte, cu care se află în legătură stochastică, iau valori bine determinate. Să studiem dependenţa stochastică în cazul a două variabile aleatoare X şi Y discrete, caz întâlnit deosebit de frecvent în aplicaţii, apoi să menţionăm modul cum se obţin rezultatele corespunzătoare în cazul continuu. Fie vectorul aleator (X,Y) cu repartiţia: ( ) ( ) ( ) ( ) XY xy pxy xy IxJ , : , , , , ∈ ⎛ ⎝ ⎜ ⎞ ⎠ ⎟ , unde am pus p(x,y) = P(X=x; Y=y) De aici se obţin probabilităţile marginale: ( ) ( ) ( ) ( ) PX x px PY y py = = = = , ( ) ( ) px pxy x I y J = ∈ ∈ ∑ , ; ( ) ( ) py pxy y J x I = ∈ ∈ ∑ , ;
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Capitolul 9
ELEMENTE DE TEORIA CORELAŢIEI ŞI REGRESIEI Una din principalele probleme ale teoriei probabilităţilor şi statisticii matematice este cea a studiului dependenţei dintre două sau mai multe variabile. Două sau mai multe variabile pot fi sau independente sau dependente funcţional sau dependente stochastic. Prin dependenţa funcţională între Y şi X1, X2,…, Xn înţelegem o aplicaţie f care asociază fiecărui (x1, x2,…,xn) ∈ E un element Y ∈ F şi numai unul, adică: Y = f(x1, x2,…,xn) Exemple de dependenţă funcţională se întâlnesc în toate domeniile în care pare
modelul matematic. Un astfel de exemplu îl poate constitui legea gazelor perfecte P RTV
= ,
unde R este o constantă caracteristică gazului. Dependenţa funcţională poate exista şi între variabile aleatoare, aşa, de exemplu, avem variabila Student:
( )t nX
nx j
j
n=
=∑1 2
1
unde X, X1, X2,…,Xn sunt variabile aleatoare independente repartizate normal N(0;1). De asemenea,
( ) ( )( )F n nn n
n n1 2
21 1
22 2
,/
/=χ
χ,
unde ( )χ 21n şi ( )χ 2
2n sunt variabile hi pătrat independente. Între variabilele aleatoare poate exista şi o altă dependenţă – dependenţa stochastică – pe care o vom studia în cele ce urmează. O astfel de dependenţă apare atunci când acţionează factori externi atât asupra unei variabile, cât şi asupra celeilalte (celorlalte). Aceştia determină o anumită legitate probabilistică a variabilelor (X, Y, Z, …). Vom spune că între variabilele X1, X2,…,Xn există o dependenţă stochastică, dacă se dă legea de repartiţie a vectorului aleator (X1, X2,…,Xn), care dă posibilitatea stabilirii legilor de repartiţie condiţionate. Această dependenţă îşi găseşte o aplicaţie fundamentală în prognoză, adică în indicarea limitelor în care cu un anumit nivel de încredere se va găsi o variabilă, dacă celelalte, cu care se află în legătură stochastică, iau valori bine determinate. Să studiem dependenţa stochastică în cazul a două variabile aleatoare X şi Y discrete, caz întâlnit deosebit de frecvent în aplicaţii, apoi să menţionăm modul cum se obţin rezultatele corespunzătoare în cazul continuu. Fie vectorul aleator (X,Y) cu repartiţia:
( ) ( )( ) ( )X Yx y
p x yx y I x J, :
,,
, , ∈⎛
⎝⎜
⎞
⎠⎟ ,
unde am pus p(x,y) = P(X=x; Y=y) De aici se obţin probabilităţile marginale: ( ) ( ) ( ) ( )P X x p x P Y y p y= = = =, ( ) ( )p x p x y x I
y J= ∈
∈∑ , ;
( ) ( )p y p x y y Jx I
= ∈∈∑ , ;
şi repartiţiile marginale:
( ) ( )Xx
P x x I Yy
P y y J: , ; : ,∈⎛
⎝⎜
⎞
⎠⎟ ∈
⎛
⎝⎜
⎞
⎠⎟
Probabilităţile condiţionate sunt date de: ( ) ( )( )p x y
p x yp y
//
= , dacă p(y) ≠ 0,
( ) ( )( )p y x
p x yp x
//
= , dacă p(x) ≠ 0.
Problemele practice cer adesea să se stabilească cum variază media unei variabile, când cealaltă ia o valoare determinată. Să observăm mai întâi că dacă variabilele aleatoare X şi Y sunt independente, atunci p(x,y) = p(x)p(y) pentru orice x ∈ I şi y ∈ J şi reciproc. Rezultă de aici că p(x/y) = p(x), p(y/x) = p(y). Definiţie. Se numeşte regresie a lui Y asupra lui X, ( ) ( )M Y X x y x/ = = . Se numeşte regresie a lui X asupra lui Y: ( ) ( )M X Y y x y/ = = . Din definiţie rezultă: ( ) ( ) ( ) ( )M Y X x M Y x y x yp y x
y J/ / /= = = =
∈∑
( ) ( ) ( ) ( )M X Y y M x y x y xp x yx I
/ / /= = = =∈∑
Observaţie. Dacă variabilele X şi Y sunt independente, atunci: ( ) ( )M Y X x y x ay/ = = = (constantă) ( ) ( )M X Y y x y ax/ = = = (constantă) Locul geometric al punctelor ( )( )x y x, poartă numele de curbă de regresie a variabilei Y asupra variabilei X. Analog, locul geometric al punctelor ( )( )y x y, poartă numele de curbă de regresie a variabilei X asupra variabilei Y. Se observă imediat că aceste curbe de regresie mai pot fi exprimate astfel:
( ) ( ) ( )( )
( )
( )y x yp y x yp x yp x
yp x y
p x yy Jy J
y J
y J
= = =∈∈
∈
∈
∑∑∑∑/
,,
,
şi
( ) ( )( )( )x y xp x y
xp x y
p x yx I
x I
x I
= =∈
∈
∈
∑∑∑/
,
,
În jurul mediilor condiţionate, ca şi în jurul mediilor obişnuite, împrăştierea este supusă de fiecare dată unei legi de repartiţie determinată, lege care depinde pentru fiecare variabilă de valoarea luată de cealaltă variabilă. Să vedem cum măsurăm împrăştierea valorilor variabilei Y în jurul mediei condiţionate ( )y x . Prin definiţie: ( ) ( )( ) ( )D Y x y x y y x p y x
y J
2 2 2/ / /= = −∈∑σ
Odată cu curba de regresie ( )y x avem şi curba dispersiilor condiţionate σ 2 y x/ , numită şi linia schedastică.
Analog, pentru variabila X avem: ( ) ( )( ) ( )D X y x y x x x p x y
x I
2 2 2/ / /= = −∈∑σ
Media condiţionată introduce repartiţia:
( )( )
y xp x
x I, ∈⎛
⎝⎜
⎞
⎠⎟
şi, de aici: ( )( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )M y x y x p x p x yp y x yp y x p x yp x y M Y a
x Ix I x Iy J
x Iy J
y Jy= = = = = =
∈∈ ∈∈
∈∈
∈∑∑ ∑∑∑ / / /
(constantă) şi:
( )( ) ( )( )( ) ( )D y x y x a p xy x y
x I
22
= = −∈∑σ
Relaţiile anterioare pentru media condiţionată ( )x y şi:
( )( ) ( )( ) ( ) ( )
x yp y
y J M x y xp x y M x ax Iy J
x, ; ,∈⎛
⎝⎜
⎞
⎠⎟ = = =
∈∈
∑ (constantă)
şi: ( )( ) ( ) ( )( ) ( )D x y x y a p y
x y xy J
2 2 2= = −
∈∑σ
Dacă luăm acum în consideraţie repartiţia:
( )σ y x
p xx I/ ,
2
∈⎛
⎝⎜
⎞
⎠⎟
Suntem conduşi la valoarea medie: ( ) ( )M p xy x y x
x Iy xσ σ σ/ / /
2 2 2= ⋅ =
∈∑
pe care o vom numi dispersie condiţionată medie. Am introdus, aşadar, relativ la componenta Y a vectorului aleator (X,Y) următoarele dispersii: ( )σ σ σy y x y x
2 2 2, , / Între aceste dispersii are loc egalitatea: ( )σ σ σy y x y x
2 2 2= + /
Demonstraţie:
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )σ y y yx I
y yx Ix I
y Jy Jy J
y a p y y a p x p y x y a p x p y x y a p y x22 2 2 2
= − = − = − = −∈ ∈∈
∈∈∈
∑ ∑∑∑∑ / / /
Însă:
( ) ( )( ) ( )( ) ( )( ) ( )( )y a y y x y y x y x a y x ay y y− = − + − − + −2 2 2
2 şi, de aici:
( ) ( ) ( ) ( )( ) ( )( ) ( )( )y a p y x y y x p y x y x a y x ayy J
y yy Jy J
− = − + − −∈ ∈∈∑ ∑∑
2 2 22/ /
Cum: ( )( ) ( ) ( ) ( ) ( ) ( ) ( )y y x p y x yp y x y x p y x y x y x
y J y Jy J− = − = − =
∈ ∈∈∑ ∑∑/ / / 0,
avem:
( ) ( )( ) ( ) ( )( ) ( )
( ) ( ) ( )( ) ( ) ( ) ( )
σ
σ σ
y yy Jy Jx J
yy Jx Ix I
p x y y x p y x y x a p y x
D Y x p x y x a p x p y x y x y x
2 2 2
22
2 2
= − + −⎡
⎣⎢
⎤
⎦⎥ =
= + − = +
∈∈∈
∈∈∈
∑∑∑
∑∑∑
/ /
/ / /
9.1. Raportul de corelaţie
Prin definiţie, raportul de corelaţie al variabilei Y în raport cu X, notat η y x/ , este dat de:
( )
ησσ
σ
σy xy x
y
y x
y/
/22
2
2
21= − =
Analog, raportul de corelaţie al variabilei X în raport cu Y, notat η x y/ , este dat de:
( )
ησσ
σ
σx yx y
x
x y
x/
/22
2
2
21= − =
Se vede imediat că 0 1≤ ≤η y x/ , dacă se convine să se ia raportul de corelaţie pozitiv sau nul. Raportul de corelaţie este un indicator numeric al intensităţii legăturii de corelaţie între variabilele X şi Y. Proprietăţile raportului de corelaţie:
(1) Dacă între variabilele X şi Y există o dependenţă univocă, atunci: η y x/
2 1= Într-adevăr, în acest caz nu există împrăştiere în jurul curbei de regresie ( )y x , căci unica valoare a variabilei Y pentru X = x coincide cu ( )y x . (2) Dacă η y x/
2 1= , atunci Y este funcţie univocă de X.
Într-adevăr, dacă η y x/2 1= rezultă că σ y x/
2 0= şi, drept urmare, nu există împrăştiere în jurul curbei de regresie. Deci, fiecărei valori x a lui X îi corespunde o valoare determinată
( )Y y x= . (3) Dacă x şi y sunt necorelate, atunci: η y x/
2 0= . Într-adevăr, necorelarea variabilei Y în raport cu X înseamnă că media condiţionată ( )y x este constantă:
( ) ( )y x M Y ay= = Deci, în acest caz, ( )σ
y x2 0= şi, de aici, η y x/
2 0= .
În particular, η y x/2 0= dacă Y nu depinde de X, căci atunci ( )y x ay= .
(4) Dacă η y x/2 0= , atunci Y este necorelată cu X, adică ( ) ( )y x M Y const= = .
Într-adevăr, ( )
ησσy x
y x
y/
22
2 0= = conduce la ( )σy x2 0= , ceea ce înseamnă că
( )y x a consty= = . Să observăm că între η x y/
2 şi η y x/2 nu există nici o legătură. Se poate ca unul din
coeficienţi să ia valoarea zero, iar celălalt valoarea 1, cu toate consecinţele ce se deduc din
proprietăţile raportului de corelaţie. Dacă, însă, η ηy x x y/ /2 2 1= = , atunci dependenţa funcţională
a lui Y în raport cu X este monotonă.
9.2. Coeficientul de corelaţie Un alt indicator ce măsoară existenţa şi intensitatea legăturii stohastice este coeficientul de corelaţie. Să considerăm variabilele aleatoare X şi Y, despre care presupunem că au dispersii finite ( ) ( )D X D Y2 2< ∞ < ∞, . Atunci definim corelaţia variabilelor X şi Y, sau covarianţa lor, şi o vom nota
( )µ xy X Y= cov , .
( ) ( )( ) ( )( )[ ] ( ) ( ) ( )µ xy X Y M X M x Y M y M X Y M X M Y= = − − = −cov , , Coeficientul de corelaţie al variabilelor X şi Y este, prin definiţie:
( ) ( )ρµ
XYXY
D X D Y=
Proprietăţile coeficientului de corelaţie: (i) Dacă variabilele X şi Y sunt independente, atunci: ρ XY = 0. Reciproc nu este adevărat. (ii) Oricare ar fi variabilele aleatoare X şi Y, avem: − ≤ ≤1 1ρ XY (iii) Dacă ρ XY = ±1, atunci între X şi Y există o relaţie liniară, adică Y = aX + b, cu a ≠ =, b constante şi reciproc. Să demonstrăm aceste proprietăţi: (i) Cum ( ) ( ) ( )µ XY M XY M X M Y= − ⋅ şi cum prin ipoteză X şi Y sunt independente, rezultă că: ( ) ( ) ( )M XY M X M Y= ⋅ şi, de aici, µ XY = 0, adică ρ XY = 0. Variabilele aleatoare X şi Y pentru care ρ XY = 0 se zic necorelate. Dacă se consideră vectorul aleator (X,Y), cu repartiţia:
Y X 0 1
-1 29
19
13
0 39
0 1
3
1 29
19
13
79
29
Se constată imediat că ( ) ( ) ( )M XY M Y M X=−
+ = = =1
919
029
0; , .
Deci, ρ X Y, = 0, deşi variabilele aleatoare X şi Y nu sunt independente.
Se constată imediat că ( ) ( ) ( )P X Y P X P Y= = = ≠ = = ⋅ =0 013
727
0 0, .
(ii) Din definiţia coeficientului de corelaţie şi din inegalitatea lui Schwartz obţinem:
( )( ) ( )( )[ ] ( )( )[ ]( ) ( )( )[ ]( ) ( ) ( )M X M X Y M Y M X M X M Y M Y D X D Y− − ≤ − − =212 2
12
Se observă că dacă Y = X, atunci: ( )( )[ ]
( )ρ X X
M X M X
D X, =−
=
2
2 1 şi dacă Y = - X,
atunci: ( )( )[ ]
( )ρ X X
M X M X
D X,− =− −
= −
2
2 1,
adică sunt atinse valorile extreme. (iii) Să arătăm că dacă ρ X Y, = ±1, atunci între X şi Y există o relaţie liniară şi reciproc. Să presupunem că Y = aX + b. Atunci ( ) ( )M Y aM X b= + şi:
( )( ) ( )( )[ ]( ) ( )
( )( )[ ]( )
( )( )
ρ X Y
M X M X aX b aM X bD X D aX b
M a X M X
a D X
aD Xa D X
a oaa
,
,,,
=− + − −
+=
−=
= =−⎧
⎨⎪
⎩⎪
<=>
2
2
2
2
101
00
Să presupunem acum că ρ = ±1 şi să notăm:
( )
( )( )
( )XX M X
D XY
Y M YD Y
' , '=−
=−
Se constată că: ( )M X Y xy' ' = = ±ρ 1 şi că:
( )( )( )( )
( )( )( )( )
( )( )M X Y
M X M X
D X
M Y M Y
D YM X Y' ' ' '± =
−+
−±2
2
2
2
2 2
Deci: ( ) ( )M X Y' '± = ± ± =2 2 2 1 0, de unde rezultă că X Y' '± = 0 aproape peste tot pe Ω. De aici obţinem:
Y X' '= ± , adică ( )
( )( )
( )Y M Y
D YX M X
D X−
= ±−
, sau:
( )( )( )
( )( )Y M YD YD X
X M X= ± − ,
ceea ce dovedeşte afirmaţia. Dreptele:
( )
( )( )
( )x M X
D Xy M Y
D Y−
=−
ρ
( )
( )( )
( )y M Y
D Yx M X
D X−
=−
ρ
se numesc drepte de regresie şi trec prin punctul ( ) ( )( )M X M Y, .
9.3. Corelaţie şi dependenţă stohastică
în cazul variabilelor continue Să considerăm vectorul aleator (X,Y), cu densitatea de repartiţie f(x,y). Atunci:
( ) ( ) ( )M Y x y x yf y x dy/ /= =−∞
∞
∫ ,
unde:
( ) ( )( )
( ) ( )f y xf x yf x
f x f x y dy/,
; ,= =−∞
∞
∫1
1
sunt respectiv densitatea de repartiţie condiţionată şi densitatea de repartiţie marginală. Cu acestea mai putem scrie:
( )( )
( )M Y x
yf x y dy
f x y dy/
,
,= −∞
∞
−∞
∞
∫
∫
Analog:
( ) ( )[ ] ( )σ Y x D Y x y M Y x f y x dy/ / / /2 2 2= = −
−∞
∞
∫
şi, de aici, dispersia condiţionată medie:
( ) ( )( )[ ] ( ) ( )σ σY X Y x f x dx y M Y x f y x dy f x dx/ / / /2 21 1= = −
⎛
⎝⎜
⎞
⎠⎟ ⋅ =
−∞
∞
−∞
∞
−∞
∞
∫∫∫
( )[ ] ( )= −−∞
∞
−∞
∞
∫∫ y M Y x f x y dxdy/ ,2
În fine, dispersia mediilor condiţionate este:
( )( ) ( )[ ] ( )σ
y xM Y x M Y f x dx2 2
1= −−∞
∞
∫ /
Să punem în evidenţă o proprietate generală a curbei de regresie şi anume: Propoziţie. Curba de regresie are proprietatea că: ( )( )[ ]M Y M Y x− =/ min2 şi, analog:
( )( )[ ]M X M X y− =/ min2
Demonstraţie. Fie u(x) o curbă oarecare şi să considerăm:
( )( )[ ] ( )( ) ( ) ( )( ) ( ) ( )M Y u x y u x f x y dxdy y u x f y x dy f x dxR
− = − = −⎛
⎝⎜
⎞
⎠⎟
−∞
∞
−∞
∞
∫∫∫∫2 2 21
2
, /
Cum ( )( ) ( )y u x f y x dy−−∞
∞
∫ 2/ reprezintă abaterea pătratică medie de la curba u(x) şi
cum pentru variabila unidimensională avem ( )[ ]σ x M X a2 2≤ − cu egalitate dacă şi numai dacă ( )a M X= , rezultă că ( )( )[ ]M Y u x− =
2 min dacă şi numai dacă ( ) ( )u x M Y x= / .
Exemplul 1. Se consideră vectorul aleator (X,Y) cu densitatea de repartiţie
( )f x ye y daca x x x
in rest,
,=
− ≤ < ∞ ≤ < ∞⎧⎨⎩
00
Să se determine curbele de regresie M(Y/x) şi M(X/y). Soluţie. Conform definiţiei:
( ) ( )M Y x yf y x dx/ /=−∞
∞
∫
Însă:
( ) ( )f x f x y dy e dy ey x
x1 = = =− −
∞
−∞
∞
∫∫ ,
şi de aici:
( )f y xe daca x y
in rest
x y
/ =≤ ≤ < ∞⎧
⎨⎩
−
00
Urmează că:
( ) [ ]M Y x ye dy e ye dy e xe ex y x y x x x
xx
/ = = = +− − − −∞∞
∫∫
Să aflăm curba de regresie a lui X asupra lui Y:
( ) ( )M X y xf x y dx/ /=−∞
∞
∫
Cum:
( ) ( )f y f x y dx e dx ye yy yy
20
0= = = ≥− −
−∞
∞
∫∫ ,
( )f x ye yye
x y y
in rest
y,, ,
,=
−≤ ≤ >
⎧⎨⎪
⎩⎪
− 0 0
0
Atunci:
( )M X yxydx
yy
y
/ ,= = >∫0 2
0
Exemplul 2. Se consideră vectorul aleator (X,Y) repartizat normal bidimensional de
parametri ( )m mx y, şi σ ρσ σ
ρσ σ σx x y
x y y
2
2
⎛
⎝⎜
⎞
⎠⎟.
Să se determine curbele de regresie M(Y/x) şi M(X/y). Soluţie. Vectorul (X,Y), fiind normal bidimensional, are densitatea de repartiţie:
( ) ( )( ) ( )( ) ( )
f x yx m x m y m y m
x y
x
x
x y
x y
y
y, exp=
−−
−
−−
− −+
−⎡
⎣
⎢⎢
⎤
⎦
⎥⎥
⎧
⎨⎪
⎩⎪
⎫
⎬⎪
⎭⎪
12 1
12 1
22 2
2
2
2
2Πσ σ ρ ρ σ
ρσ σ σ
Urmează că densitatea de repartiţie marginală a lui X este:
( ) ( )
( )( ) ( )( ) ( )
f x x y dy
x m x m y m y mdy
x y
x
x
x y
x y
y
y
1
2 2
2
2
2
12 1
12 1
2
= =
=−
−−
⋅−
−− −
+−⎡
⎣
⎢⎢
⎤
⎦
⎥⎥
⎧
⎨⎪
⎩⎪
⎫
⎬⎪
⎭⎪
−∞
∞
−∞
∞
∫
∫
,
expΠσ σ ρ ρ σ
ρσ σ σ
Făcând schimbarea de variabile:
x m
uy m
v dy dvx
x
y
yy
−=
−= =
σ σσ, ,
obţinem:
( )( ) [ ]f x u u u uv v dv
x1 2 2
2 2 2 2 2 212 1
12 1
2=−
−−
− + − +⎧⎨⎩
⎫⎬⎭
=−∞
∞
∫Πσ ρ ρ
ρ ρexp
( ) ( )=−
−−
−⎧⎨⎩
⎫⎬⎭
−
−∞
∞
∫ev u dv
u
x
2
2 11
2 12 2
2
Πσ ρ ρρexp
Dacă punem acum:
v u
z dv dz−
−= = −
ρ
ρρ
11
22, ,
obţinem mai departe:
( )f x ex
x mx
x1
121
2=
−−⎛
⎝⎜
⎞
⎠⎟
σσ
Π
Prin simetrie, avem:
( )f y ey
y my
y
2
121
2=
−−⎛
⎝⎜
⎞
⎠⎟
σσ
Π
De aici:
( ) ( )( ) ( )
( ) ( )( )f x y
f x yf y
x m x m y m
x
x
x
x y
x y/
,exp= =
−−
−⋅
−⎡
⎣⎢⎢
⎧⎨⎪
⎩⎪−
− −+
22 2
2
2
12 1
12 1
2Πσ ρ ρ σ
ρσ σ
( )( )
( )( ) ( )+
−− − ⋅
− ⎤
⎦
⎥⎥
⎫
⎬⎪
⎭⎪=
−−
−⋅
−−
−⎡
⎣⎢
⎤
⎦⎥
⎧⎨⎪
⎩⎪
⎫⎬⎪
⎭⎪
y m y m x m y my
y
y
y x
x
x
y
y
2
22
2
2 2 2
2
11
2 1
12 1σ
ρσ σ ρ ρ σ
ρσΠ
exp
Deci:
( )( ) ( ) ( )f x y x m y m
x xx
x
yy/ exp=
−−
−− − ⋅ −
⎡
⎣⎢
⎤
⎦⎥
⎧⎨⎪
⎩⎪
⎫⎬⎪
⎭⎪
1
2 1
12 12 2 2
2
σ ρ ρ σρσσΠ
Cum avem de a face cu repartiţie normală de parametrii: valoarea medie
( )m y mxx
yy+ −ρ
σσ
şi dispersiei ( )1 2 2− ρ σ x avem ( ) ( )M X y m y mxx
yy/ = + ⋅ −ρ
σσ
( )σ ρ σX y x/2 2 21= −
Prin simetrie avem:
( )( ) ( ) ( )f y x y m x m
y yy
y
xx/ exp=
−−
−− − ⋅ −
⎡
⎣⎢⎤
⎦⎥⎧⎨⎪
⎩⎪
⎫⎬⎪
⎭⎪1
2 1
12 12 2 2
2
σ ρ ρ σρσσΠ
şi:
( ) ( ) ( )M Y x m x myy
xx Y x y/ /= + − = −ρ
σσ
σ ρ σ 2 2 21
Graficul funcţiei M(X/y) (precum şi al funcţiei M(Y/x)) este o dreaptă. Deci, în cazul repartiţiei normale bidimensionale curbele de regresie sunt drepte (dreptele de regresie).
Aceste drepte trec prin punctul ( )P m mx y, , care este numit centrul repartiţiei normale bidimensionale.
9.4. Ecuaţiile de regresie. Coeficienţii de regresie şi corelaţie Am văzut că fiind dat vectorul aleator (X,Y), curbele de regresie a lui Y faţă de X şi al lui X faţă de Y sunt: ( ) ( ) ( ) ( )M Y x y x M X y x y/ ; /= = Să admitem că aceste curbe de regresie sunt drepte: ( ) ( )M Y x y x a bx/ = = + ( ) ( )M X y x y c dy/ = = + luând valoarea medie obţinem: ( )( ) ( )( ) ( )M M Y x M y x a bM X/ = = + , sau m a bmy x= + . Scăzând-o din relaţia ce dă pe ( )y x , obţinem: ( ) ( )y x m b x my x− = − Înmulţind cu x mx− şi luând valoarea medie se obţine: ( )µ σXY xX Y b= =cov , 2, adică:
b X Y
x=µσ
,2
De aici se obţine că coeficientul unghiular al dreptei de regresie a lui Y în raport cu X este coeficientul de regresie pe care-l notăm bY X/ şi care se mai poate exprima:
bY Xy
x/ =
σσ
Cu acestea obţinem ecuaţia dreptei de regresie: ( ) ( )y x m b x my Y X x− = −/ Să vedem care este expresia raportului de corelaţie când avem o regresie liniară. Pentru aceasta, să exprimăm ( )σ
y x2 .
Conform definiţiei:
( )( )( ) ( )[ ]σ σ ρ
σσ
σ ρ σy x y Y X x Y X x
y
xx yM y x m M b X m b2
22 2 2 2 2
2
22 2 2= −⎡
⎣⎤⎦ = − = = =/ /
De aici, rezultă:
( )
ησ
σρY X
y x
y/
22
22= =
sau: η ρY X/ = Dacă regresia lui X faţă de Y este, de asemenea, liniară, se obţin rezultatele simetrice: ( ) ( )x y m b y mx X Y y− = −/
bX YXY
y
x
y/ = =
µσ
ρσσ2
η ρX Y/ =
De aici se obţine: η η ρY X X Y/ /= =
b bX Y Y Xx
y
y
x/ /⋅ = =ρ
σσ
ρσσ
ρ 2 şi ρ = ⋅b bX Y Y X/ /
Relaţiile bX Yx
y/ = ρ
σσ
şi bY Xy
x/ = ρ
σσ
spun că bX Y/ şi bY X/ au acelaşi semn ca şi ρ .
Dacă ρ > 0, ambele drepte de regresie (ce trec prin punctul ( )m mx y, ) formează unghiuri ascuţite cu direcţiile axelor Ox şi Oy respectiv. În acest caz spunem că avem o corelaţie pozitivă, ceea ce înseamnă că dacă o variabilă creşte, creşte şi cealaltă. Pentru ρ = 0, dreapta de regresie a lui Y faţă de X este o paralelă cu Ox, iar ( )x y este paralelă cu Oy. În acest caz, unghiul dintre cele două drepte este de 900. Când ρ creşte, unghiul ascuţit dintre dreptele de regresie descreşte, iar pentru ρ = 1 dreptele coincid.
y m x my
y
x
x
−=
−σ σ
,
în care caz fiecare dintre variabilele aleatoare X şi Y sunt funcţii liniare una de cealaltă. Dacă ρ < 0, adică avem o corelaţie negativă, dreptele de regresie ce trec prin punctul
( )m mx y, formează un unghi obtuz cu direcţiile pozitive ale axelor Ox şi Oy respectiv. Unghiul ascuţit dintre drepte descreşte pe măsură ce ρ → −1 şi în cazul când ρ = −1 ambele drepte coincid.
9.5. Dreapta de regresie ca aproximaţie a curbei de regresie neliniară În cazul unei corelaţii liniare, variabilele X şi Y se exprimă liniar una în funcţie de cealaltă:
Y m X m X m Y mY
Y
X
X
X
X
Y
Y
−=
− −=
−σ
ρσ σ
ρσ
;
Se pot menţine aceste drepte în cazul unei corelaţii strânse, dar arbitrare în sensul pe care-l precizăm mai jos. Să exprimăm variabila Y cu ajutorul unei funcţii liniare de X: ( )Y X y X≅ + =α β $ Pentru a da un sens precis acestei aproximări, vom introduce o măsură a abaterii de la
liniaritate prin ( )( )[ ] ( )( )( )[ ]S M Y X M Y y XY2 2 2= − + = −α β $ şi determinăm parametrii α şi β
astfel încât SY2 să fie minim.
Putem presupune că X şi Y sunt centrate, adică ( ) ( )M X M Y= = 0, ceea ce-i echivalent cu a face transformarea ( ) ( )X X M X Y Y M Y' ; '= − = − . În acest caz, liniaritatea între X şi Y este echivalentă cu liniaritatea lui X’ şi Y’. Atunci: ( )( )[ ] ( )[ ]S M Y X M Y XY
2 2 2 2= − − = − +β α β α (căci ( )M Y X− =β 0)
( ) ( ) ( ) ( )S M Y M XY M XY Y X Y X X Y2 2 2 2 2 2 2 2 2
Această expresie este minimă dacă se aleg parametrii α şi β:
α β ρσσ
= = =0, /Y
XY Xb
De aici urmează: ( )$ /y x b XY X= ⋅ care este o dreaptă ce trece prin originea axelor de coordonate ( )P m mX Y, . Luând pentru Y valoarea aproximativă ( )$y x am realizat o descompunere ( )Y y x Y= +$ 0 , unde ( )Y Y y x0 = − $ este abaterea care se înregistrează dacă se scade din Y cea mai bună dreaptă în raport cu X, ca aproximaţie a lui Y. Dispersia acestei abateri este dată de: ( ) ( )SY Y
2 2 21min = −σ ρ Să calculăm corelaţia variabilelor Y şi ( )$y X :
( )( ) ( ) ( )( ) ( ) ( )M Y y X M Y M y X M Yb X b M YX bY X Y X Y X XYY
XX Y Y⋅ − = = = = =$ $ / / / µ ρ
σσ
ρσ σ ρ σ2 2
Cum:
( )σ σ ρσσ
σ ρ σ$ /y X Y X xY
XX Yb2 2 2 2
2
22 2 2= = = ,
rezultă că:
( )
( )( )( )
ρσ σ
ρ σσ ρσ
ρY y X
y X
Y y X
Y
Y Y
M Y, $
$
$
= = =2 2
Să arătăm că variabilele Y0 şi X sunt necorelate. Întrucât M(x) = 0, este suficient să calculăm M(Y0X) şi avem:
( ) ( )( )[ ] ( ) ( )( ) ( )M Y X M Y y X X M XY M y X X b M XXY Y X
XYY
XX
02
2 0
= − = − = − =
= − =
$ $ /µ
µ ρσσ
σ
Să considerăm:
( )( )[ ] ( ) ( ) ( )( )[ ] ( )( )[ ]
( )( ) ( ) ( )( )[ ] ( ) ( )( )[ ]S M Y y X M Y y X y X y X M Y y X
M Y y X y X y X M y X y X
Y0
2 2 2 2
22
= − = − + − = − +
+ − − + −
$ $
$ $
Dar ( )( )[ ]M Y y X Y X− =2 2σ /
( )( ) ( ) ( )( )[ ] ( )( ) ( ) ( )( ) ( )M Y y X y X y X y y X y X y X f x y dxdy− − = − − =ℜ
∫∫$ $ ,2
( ) ( )( ) ( ) ( )( ) ( )= − −⎡
⎣⎢
⎤
⎦⎥ =
ℜℜ
∫∫ y X y X f X y y X f y x dy dx$ /1 0,
căci:
( )( ) ( )y y X f y x dy− =ℜ
∫ / 0
Notând: ( )
( ) ( )( )[ ]δy X
M y X y X2 2= − $
obţinem: ( )SY Y X y X0
2 2 2= +σ δ/ ,
unde σ Y X/2 măsoară gradul de împrăştiere a valorilor variabilei Y în jurul liniei de regresie
( )y x , adică eroarea pe care-o facem când calculăm Y cu ajutorul liniei de regresie.
( )δy X2 măsoară abaterea liniei de regresie ( )y x de la expresia aproximativă ( )$y x .
Să observăm acum că: ( ) ( )S SY Y
202 2 21min = = − ρ σ ,
iar: ( )σ η σY X Y X Y/ /
2 2 21= − Atunci: ( ) ( ) ( )1 12 2 2 2 2− = − +ρ σ η σ δY Y X Y y X/ , iar, de aici:
( )
η ρδ
σY Xy X
Y/
2 2
2
= +⎛
⎝⎜
⎞
⎠⎟
ceea ce ne conduce la: ρ η≤ Y X/ , cu egalitate dacă şi numai dacă ( )δ
y X= 0, adică în cazul când linia de regresie este o dreaptă.
9.6. Estimarea pe baza observaţiilor a coeficienţilor de corelaţie şi regresie,
precum şi a raportului de corelaţie Să determinăm, mai întâi, coeficientul de corelaţie a două însuşiri calitative A, B ale unui fenomen. Dacă punem ( ) ( ) ( ) ( )P A B p P A B p P A B p P A B p∩ = ∩ = ∩ = ∩ =11 12 21 22, , , obţinem următoarea repartiţie a acestor însuşiri calitative:
B B
A p11 p12 p1.
A p21 p22 p2.
p.1 p.2
Ataşăm experimentului care conduce la observarea celor două însuşiri calitative vectorul aleator (X,Y), cu repartiţia:
Y X
1
0
1 p11 p12 p1.
0 p21 p22 p2.
p.1 p.2
Atunci: ( ) ( ) ( )M XY p M X p M Y p= = =11 1 1 . .; ( ) ( )D X p p D Y p p2
1 12 2
1 12= − = −. . . .;
Se obţine acum imediat:
( )( )( )( )
ρ A B
p p p p
p p p p p p p p, =
−
+ + + +
11 22 12 21
11 12 21 22 11 21 12 22
Să presupunem acum că s-au făcut n observaţii asupra fenomenului în care se urmăresc caracteristicile A şi B şi că s-au obţinut rezultatele:
B B
A n11 n12 n11 + n12 n11 + n12 + n21 + n22 = n
A n21 n22 n21 + n22
n11 + n21 n12 + n22
Atunci coeficientul empiric de corelaţie al caracteristicilor A şi B este dat de:
( )( )( )( )
rn n n n
n n n n n n n nA B, =
−
+ + + +
11 22 12 21
11 12 12 22 11 12 21 22
Dacă se consideră vectorul aleator (X,Y) şi n observaţii asupra acestui vector, atunci coeficientul empiric de corelaţie este dat de:
( )( )
rn
n x x y y
s sn
n xyn
n xn
n y
s s
xyyx
x y
xy xx
yyyx
x y=
− −=
−⎛⎝⎜
⎞⎠⎟⎛
⎝⎜
⎞
⎠⎟∑∑ ∑ ∑∑∑1 1 1 1
,
sau încă:
rn n xy n x n y
n n x n x n n y n y
xy xx
yyyx
x xxx
y yyy
=
− ⋅⎛⎝⎜
⎞⎠⎟ ⋅⎛
⎝⎜
⎞
⎠⎟
− ⋅⎛⎝⎜
⎞⎠⎟
⎡
⎣⎢
⎤
⎦⎥ −
⎛
⎝⎜
⎞
⎠⎟
⎡
⎣⎢⎢
⎤
⎦⎥⎥
∑ ∑∑∑
∑∑ ∑∑22
2
2
În mod asemănător se obţine coeficientul empiric de regresie pe care-l vom nota bY X/ :
bss
r
n n y n y
n n x n x
rY Xy
x
y yyy
x xxx
/ = =
−⎛
⎝⎜
⎞
⎠⎟
−⎛⎝⎜
⎞⎠⎟
∑∑
∑∑
2
2
22
şi raportul empiric de corelaţie:
( )
η Y Xy x
y
xyy
xxy
yxx
y yyy
s
s
nn y
nn y
n n y n y/ = =
⎛
⎝⎜
⎞
⎠⎟
−⎛
⎝⎜
⎞
⎠⎟
−⎛
⎝⎜
⎞
⎠⎟
∑∑∑∑
∑∑
2
2
2
2
Din expresia coeficientului empiric de corelaţie se obţine că:
( )r nP
n →∞> ρ
În cazul când cele n observaţii se fac dintr-o populaţie normală bidimensională se poate arăta că:
( ) ( )M rn
≅ − −1
21 2ρ ρ ,
de unde rezultă că ( )M r < ρ , deci că r este o estimaţie negativă deplasată a coeficientului de corelaţie ρ. De asemenea, abaterea medie pătratică a lui r este:
σρ
r n≅
−1 2
Să presupunem că sunt satisfăcute următoarele cerinţe: (1) În cursul observaţiilor se menţine aceeaşi repartiţie. (2) Observaţiile sunt independente (3) Repartiţia populaţiei este normală sau aproximativ normală (4) Numărul n de observaţii este suficient de mare În aceste condiţii:
σσσ
ρb
Y
XY X n/
≅−1 2
Fischer a arătat că variabila aleatoare:
Zrr
=+−
12
11
ln , adică r th Zee
iZ
iZ= =−+
11
urmează aproximativ o lege de repartiţie normală, chiar pentru valori nu prea mari ale volumului de selecţie n, de parametrii M(z) şi D2(z), unde:
( )( )M zn
=+−
+−
12
11 2 1
lnρρ
ρ
( ) ( )D zn
D znz
2 13
13
=−
= =−
; σ
Pentru n mare şi r mic (mai mic decât 0,5) se poate construi un interval de încredere utilizând legea normală, şi anume:
r urn
r urn
−−
< < +−
α αρ1 12 2
unde uα se determină cu nivelul de încredere α prin relaţia: ( )α = ∅2 u Analog se determină un interval de încredere pentru coeficientul de regresie by/x:
b urn
b b urn
Y XY
XY X Y X
Y
X/ / /−
−< < +
−α α
σσ
σσ
1 12 2
9.7. Corelaţie multiplă
În practică apar frecvent situaţii când intervin mai mult de două variabile între care se manifestă o dependenţă stohastică. Studiul unei astfel de dependenţe ridică dificultăţi şi complicaţii. Ne vom opri mai întâi asupra dependenţei stochastice liniare care este mai simplă şi totodată prezintă importanţă practică deosebită. Vom efectua studiul pentru trei variabile aleatoare X1, X2, X3 şi apoi vom prezenta rezultatele în cazul general. Dacă (x1, x2, x3) sunt
rezultatele măsurătorilor pentru vectorul aleator (X1, X2, X3) într-o observaţie şi dacă repetăm măsurătorile de un număr mare de ori, obţinem un nor de puncte din spaţiul euclidian R3. Dacă legătura dintre X1, X2, X3 are un caracter stochastic, atunci ne va interesa în primul rând media fiecărei variabile când celelalte două iau valori fixate. Aşa de exemplu:
( ) ( ) ( )( )
( )M X X x X x x x x x f x x x dx
x f x x x dx
f x x x dx1 2 2 3 3 1 2 3 1 1 1 2 3 1
1 1 2 3 1
1 2 3 1
/ ; , / ,, ,
, ,= = = = = ℜ
ℜ
ℜ
∫
∫∫
În spaţiul euclidian R3 al punctelor (x1, x2, x3) funcţia ( )x x x1 2 3, reprezintă o suprafaţă care poartă numele de suprafaţă de regresie a lui X1 faţă de X2 şi X3. În mod analog se definesc suprafeţele de regresie ( )x x x2 1 3, şi ( )x x x3 1 2, . Corelaţia dintre X1, X2, X3 se zice liniară dacă suprafeţele de regresie sunt plane. Atunci funcţia ( )x x x1 2 3, este liniară în raport cu argumentele: ( )x x x a a x a x1 2 3 10 12 2 13 3, = + + , care este ecuaţia planului de regresie a lui X1 faţă de X2 şi X3. Coeficienţii planelor de regresie se pot exprima cu ajutorul momentelor de ordinul unu şi doi şi covarianţelor variabilelor X1, X2, X3, pe care le vom estima cu datele de selecţie. Ecuaţiile de regresie se utilizează pentru prognozarea valorii variabilei X1 faţă de valorile X2 = x2, X3 = x3 ale celorlalte variabile. Precizia prognozei depinde de intensitatea şi forma legăturii de corelaţie. Considerând cazul unei legături apropiate de cea liniară, vom căuta să descompunem variabila X1 în două componente X X X1 1 1 23= +$
. , unde $X 1 este componentă complet prognozabilă cu ajutorul unei funcţii liniare şi, în plus, cea de a doua componentă X1.23 să aibă dispersie minimă. Va trebui, deci, să determinăm funcţia liniară: ( )$ ,X X X a a X a X1 2 3 10 12 2 13 3= + + , astfel încât X X X1 1 1 23− =$
. să aibă dispersie minimă. Pentru a simplifica expunerea, vom presupune că: ( ) ( ) ( )M X m M X m M X mX X X1 2 31 2 3
0 0 0= = = = = =; ; ceea ce se poate face totdeauna considerând variabilele: X X m ii Xi1 1 2 3' , , ,= − = Atunci: ( ) ( )( ) ( )( )D X D X X M X X2
1 232
1 1 1 1
2
.$ $= − = −
Determinarea minimului: ( ) ( ) ( )( ) ( )[ ]min , , $H a a a M X X M X a a X a X10 12 13 1 1
2
1 10 12 2 13 3
2= − = − − −
revine la rezolvarea sistemului de ecuaţii:
( )− = − − − =12
010
1 10 12 2 13 3
∂∂
Ha
M X a a X a X
( )[ ]− = − − − =12
012
1 10 12 2 13 3 2
∂∂
Ha
M X a a X a X X
( )[ ]− = − − − =12
013
1 10 12 2 13 3 3
∂∂
Ha
M X a a X a X X
Dacă ţinem seama de faptul că ( )M X X j kj K jK j K; = ≠ρ σ σ (şi ρ ρjK Kj= ), sistemul de ecuaţii scris mai jos devine:
m a a m a m
a m a a
a m a a
X X X
X
X
1 2 3
2
3
10 12 13
12 1 2 10 12 22
13 23 2 3
13 1 3 10 12 23 2 3 13 32
0
0
0
− − − =
− − − =
− − − =
ρ σ σ σ ρ σ σ
ρ σ σ ρ σ σ σ
Având în vedere ipoteza făcută m iXi= =0 1 2 3, , , , rezultă că a10 = 0, şi obţinem
sistemul de ecuaţii:
a aa a
12 22
13 23 2 3 12 1 2
12 23 2 3 13 32
13 1 3
σ ρ σ σ ρ σ σ
ρ σ σ σ ρ σ σ
+ =
+ =
Determinantul sistemului este:
( )σ ρ σ σρ σ σ σ
ρ σ σ σ σ22
23 2 3
23 2 3 32 23
222
32
11 22
321= − = ∆ ,
unde am pus ∆11 2321= − ρ din motive pe care le vom explica mai târziu.
Acest determinant este nenul dacă ρ 232 1≠ . Dacă ρ 2 1= , atunci X2 şi X3 se exprimă
liniar una în funcţie de cealaltă şi deci în locul unei dependenţe între trei variabile apare o dependenţă între două variabile. Presupunem deci că ρ 23
2 1≠ . În acest caz:
a1211 2
232
12 1 2 23 2 3
13 1 3 32
1 2 32
11 22
32
12 23
13
1
2
12
11
11
= = = −∆ ∆
∆∆σ σ
ρ σ σ ρ σ σρ σ σ σ
σ σ σσ σ
ρ ρρ
σσ
,
unde am pus:
∆1212 23
1323 31 121
= − = −ρ ρρ
ρ ρ ρ
Analog:
a1311 2
232
22
12 1 2
23 2 3 13 1 3
1
3
13
11
1= = −∆
∆∆σ σ
σ ρ σ σρ σ σ ρ σ σ
σσ
cu:
∆1321
31 3221 32 31
1= = −ρρ ρ
ρ ρ ρ
Se vede acum imediat că ∆11, ∆12, ∆13 sunt complemenţii algebrici ai elementelor primei linii din determinantul:
∆ =1
11
12 13
21 23
31 32
ρ ρρ ρρ ρ
Ecuaţia funcţiei liniare $X 1 se poate scrie acum sub forma:
( )$ ,X X X X X1 2 31
2
12
112
1
3
13
113= − −
σσ
σσ
∆∆
∆∆
,
sau dacă revenim la variabilele necentrate.
( ) ( )$X m X m X mX X X11
2
12
112
1
3
13
1131 2 3
− = − − − −σσ
σσ
∆∆
∆∆
Funcţia liniară ( )$ ,X X X1 2 3 astfel determinată are proprietatea că este cea mai bună estimaţie liniară, pentru valori date ale variabilelor X2 şi X3.
Să arătăm că restul X X X1 23 1 1.$= − este necorelat atât cu X2, cât şi cu X3, adică:
( ) ( )ρ ρX X X X1 23 2 1 23 3 0. ., ,= = Să presupunem iarăşi că variabilele sunt centrate. Atunci:
X X X X X X1 23 1 1 11
2
12
112
1
3
13
113.
$= − = + +σσ
σσ
∆∆
∆∆
şi, de aici:
X X X X X X1 23
1
1 1
1 11
11 1
1
12 2
2
13 3
3
1.$
σ σ σ σ σ=
−= + +
⎛
⎝⎜
⎞
⎠⎟
∆∆ ∆ ∆
Urmează că:
( )MX X1 23
1
1
1 1111 12 12 13 13
11
1.
σ σρ ρ⋅
⎛
⎝⎜
⎞
⎠⎟ = + + =
∆∆ ∆ ∆
∆∆
MX X
M X X X X X1 23
1
2
2 11
11
1 21 2
12
22 2
2 13
1 32 3
1.
σ σ σ σ σ σ σ⋅
⎛
⎝⎜
⎞
⎠⎟ = + +
⎛
⎝⎜
⎞
⎠⎟
⎡
⎣⎢
⎤
⎦⎥ =∆
∆ ∆ ∆
= + +⎛
⎝⎜
⎞
⎠⎟ =
1
11
11
1 212 1 2
12
22
13
2 323 2 3∆
∆ ∆ ∆σ σ
ρ σ σσ σ σ
ρ σ σ
( )= + + =1
011
11 12 12 13 23∆∆ ∆ ∆ρ ρ
căci în paranteză avem dezvoltarea după prima linie a determinantului:
ρ ρρ ρρ ρ
21 23
21 23
31 32
11
10=
Analog:
MX X1 23
1
3
30.
σ σ⋅
⎛
⎝⎜
⎞
⎠⎟ =
Să calculăm dispersia ( )D X21 23.
( ) ( )D X M X M X X X X21 23 1 23
21 232
1 23 11
2
12
112
1
3
13
113. . . .= = = + +
⎛
⎝⎜
⎞
⎠⎟
⎡
⎣⎢
⎤
⎦⎥ =σ
σσ
σσ
∆∆
∆∆
( ) ( ) ( )= + +M X X M X X M X X1 23 11
2
12
111 23 2
1
3
13
111 23 3. . .
σσ
σσ
∆∆
∆∆
Având în vedere rezultatele obţinute mai sus rezultă:
( )σ σ1 232 2
1 2311
12
. .= =D X∆∆
Sau, dezvoltând determinanţii ∆ şi ∆11, obţinem:
σρ ρ ρ ρ ρ ρ
ρσ1 23
2 12 13 23 122
132
232
232 1
21 21. =
+ − − −−
Acest indicator măsoară precizia aproximaţiei liniare a variabilei X1 prin variabilele X2 şi X3. Să calculăm coeficientul de corelaţie al variabilelor X1 şi $X 1 , pe care-l notăm ( )ρ1 23.
( )
( )ρ
σ σ1 231 1
1 1
.$
, $=
M X X
X
Observăm că:
( ) ( )( )M X X M X X X1 1 1 1 1 23 12
1112
11121$
.= − = − = −⎛
⎝⎜
⎞
⎠⎟σ σ σ
∆∆
∆∆
( ) ( )[ ] ( ) ( ) ( )σ $ . . .$ 'X M X M X X M X M X X M X
1
212
1 23
2
12
1 1 23 1 2322= + = + ⋅ +
Deci:
σ σ σ σ σ$X1
212
1112
1112
11122 1 0= − + = −
⎛
⎝⎜
⎞
⎠⎟ >
∆∆
∆∆
∆∆
Urmează că:
( )
( )ρ
σ σ
σ
σ σ1 23
1 1 1112
111
1 2
1
11
1 2
1 1
1
1
1.$
/
/$=
⋅=
−⎛
⎝⎜
⎞
⎠⎟
−⎛
⎝⎜
⎞
⎠⎟
= −⎛
⎝⎜
⎞
⎠⎟
M X X
X X
∆∆
∆∆
∆∆
sau:
( )ρσσ
ρ ρ ρ ρ ρρ1 23
1 232
12
1 2122
132
12 13 23
232
1 2
12
1..
/ /
= −⎛
⎝⎜
⎞
⎠⎟ =
+ −−
⎛
⎝⎜
⎞
⎠⎟
Se constată că ( )0 11 23≤ ≤ρ . Dacă ( )ρ1 23 1. = , atunci σ 1 23
2 0. = , adică X 1 23 0. = , ceea ce înseamnă că X1 coincide cu
( )$ ,X X X2 3 care este o funcţie liniară de variabilele X2 şi X3. Putem să scriem: ( )( )σ σ ρ1 23
212
1 2321. .= −
Dacă considerăm corelaţia dintre X1 şi X2 şi exprimăm liniar pe X1 în funcţie de X2, atunci dispersia restului aproximării conduce la: ( )σ σ ρ1 2 12
21. = − Aproximând pe X1 printr-o funcţie liniară de X2 şi X3, se obţine o aproximare mai bună decât printr-o singură variabilă şi, deci, avem următoarea relaţie între dispersii: σ σ1 23
21 22
. .≤ , care conduce la:
( )1 11 232
122− ≤ −ρ ρ.
şi, deci: ( )ρ ρ12 1 23≤ . şi, analog: ( )ρ ρ13 1 23≤ . , ceea ce este echivalentă cu: ( ) ρ ρ ρ1 23 12 13. max ,≥ De aici rezultă că dacă ( )ρ1 23 0. = , atunci ρ ρ13 12 0= = , ceea ce înseamnă că X1 este necorelată atât cu X2, cât şi cu X3. Dacă X2 şi X3 sunt necorelate, urmează că ρ 23 0= şi, în acest caz, ρ ρ ρ1 23
2122
132
. = + Să vedem în ce caz: ρ ρ1 23 12. =
Să exprimăm diferenţa:
( )
ρ ρρ ρ ρ ρ ρ
ρρ
ρ ρ ρρ1 23
2122 12
2132
12 13 23
232 12
2 13 12 23
2
232
21 1. − =
+ −−
− =−
−
ρ ρ1 232
122
. = este echivalentă cu ρ ρ ρ13 12 23= . În acest caz variabila X3 din relaţia liniară de prognoză a lui X1 este inutilă. Rezultate şi interpretări analoage se obţin când se schimbă rolul variabilelor: ( ) ( )$
. .X m a X m a X m1 1 12 3 2 2 13 2 3 3− = − + − ( ) ( )$
. .X m a X m a X m2 2 21 3 1 1 23 1 3 3− = − + − ( ) ( )$
. .X m a X m a X m3 3 31 2 1 1 32 1 2 2− = − + − cu ( )m M X ii i= =, , , 1 2 3. Corespunzător acestor estimaţii, avem dispersiile:
σ σ1 232
1112
. =∆∆
; σ σ2 132
2222
. =∆∆
; σ σ3 122
3332
. =∆∆
şi coeficienţii de corelaţie:
( )ρσσ1 23
2 1 232
12
111 1.
.= − = −∆∆
; ( )ρσσ2 13
2 2 132
22
221 1.
.= − = −∆∆
;
( )ρσσ3 12
2 3 122
32
331 1.
.= − = −∆∆
, cu ∆11 2321= − ρ , ∆ 22 13
21= − ρ , ∆ 33 1221= − ρ ;
∆ = + −1 2 12 13 23 122
132
232ρ ρ ρ ρ ρ ρ
9.8. Coeficientul de corelaţie parţială Pentru a clarifica cât mai bine intensitatea legăturii stochastice dintre două variabile, în situaţii concrete vom căuta să estimăm această legătură după înlăturarea influenţei tuturor celorlalte variabile legate de variabilele considerate. Indicatorul astfel obţinut măsoară legătura dintre două variabile şi va fi numit coeficient de corelaţie parţială. Să ne menţinem în acelaşi cadru a trei variabile aleatoare X1, X2, X3. Se poate considera că dependenţa stochastică între variabilele X1 şi X2 măsurată prin coeficientul de corelaţie ρ12 depinde într-o anumită măsură de existenţa unei legături atât a variabilei X1, cât şi a variabilei X2 de variabila X3. Pentru a elimina influenţa lui X3 asupra variabilelor X1 şi X2 vom considera abaterile: ( )~ $
. /X X X X X b X1 3 1 1 3 1 1 3 3= − = − ( )~ $
. /X X X X X b X2 3 2 2 3 2 2 3 3= − = − , unde am presupus că variabilele sunt centrate şi unde am notat b b bX X X X1 3 1 3 2 3/ / /;= = b2/3 , care, după cum ştim, au expresiile:
b b1 31
313 2 3
2
323/ /;= =
σσ
ρσσ
ρ
Coeficientul de corelaţie al variabilelor ~.X1 3 şi ~
.X 2 3 poartă numele de coeficient de corelaţie parţială a variabilelor X1 şi X2 în raport cu variabila X3 şi-l vom nota ρ12 3. . Deci, din definiţie (ţinând seama de ipotezele de lucru):
( )
ρσ σ12 3
1 3 2 3
1.3 2 3
.. .
~ ~
~ ~
.
=M X X
X X
Cum:
( ) ( )σ σ ρ σ σ ρ~ ~,.X X1.3 2 31 13
212
2 232
121 1= − = − ,
iar: ( ) ( )[ ] ( ) ( ) ( )M X X M X X b X M X X b M X X M X X~ ~ ~ ~ ~ ~
( ) ( )[ ] ( ) ( )M X X M X b X X M X X b M X~. / /1 3 3 1 1 3 3 3 1 3 1 3 3
213 1 3
1
313 3
2 0= − = − = − =ρ σ σσσ
ρ σ
Însă:
( ) ( )( ) ( ) ( )M X X M X b X X M X X b M X X~. / /1 3 2 1 1 3 3 2 1 2 1 3 3 2 12 1 2
1
313 23 2 3= − = − = −ρ σ σ
σσ
ρ ρ σ σ
Deci: ( ) ( )M X X~ ~
. .1 3 2 3 1 2 12 13 23= −σ σ ρ ρ ρ şi, de aici:
( )( )
ρρ ρ ρ
ρ ρ12 3
12 13 23
132
2321 1
. =−
− −
Coeficientul de corelaţie parţială ρ12 3. este în general diferit de ρ12 . Aceşti coeficienţi pot avea semne diferite şi, mai mult, unul poate fi nul iar celălalt să fie egal cu unitatea.
Ecuaţiile liniilor de regresie pe baza datelor experimentale Să notăm pentru simplificare variabilelor X1, X2, X3 prin X, Y Z respectiv şi să presupunem că efectuând n observaţii asupra vectorului aleator (X, Y, Z) s-au obţinut rezultatele (xi, yi, zi), i = 1, 2, … , n. Dacă n este suficient de mare atunci parametrii repartiţiei tridimensionale se pot estima cu ajutorul indicatorilor empirici: x y z s s s r r rx y z xy yz zx, , ; , , ; , , , cu expresiile cunoscute. Atunci, regresiile empirice sunt:
( ) ( )$z zss
x xss
y yz
x
z
y− = − − − −
∆∆
∆∆
31
33
32
33
( ) ( )$y yss
x xss
z zy
x
y
z− = − − − −
∆∆
∆∆
21
22
23
22
( ) ( )$x xss
y yss
z zx
y
x
z− = − − − −
∆∆
∆∆
12
11
13
11
∆ = = + − − −1
11
1 2 2 2 2
r rr rr r
r r r r r rxy xz
yx yz
zx zy
xy yz xz xy yz zx
cu: r r r r r rxy yx yz zy xz zx= = =; ; ∆ ∆ ∆11
222
233
21 1 1= − = − = −r r ryz xz xy; ;
( )∆ 313 11 1= − = −+
r rr r r r
xy xz
xyxy yz xz
( )∆ 323 21
1= − = −+
rr r r r r
xz
xy yzxy xz yz
( )∆ 212 11 1= − = −+
r rr r r r
xy xz
zyxz zy xy
Cu acestea, regresiile empirice se scriu:
$z zs
r r rr
x ys
r r rr
y ysz
xz xy yz
xy x
yz xy zx
xy y
−=
−
−⋅
−+
−
−⋅
−1 12 2
$y ys
r r rr
x xs
r r rr
z zsy
xy xz zy
xz x
yz xy xz
xz z
−=
−
−⋅
−+
−
−⋅
−1 12 2
$x xs
r r rr
y ys
r r rr
z zsx
xy yz xz
yz y
xz xy yz
yz z
−=
−
−⋅
−+
−
−⋅
−1 12 2
Coeficienţii empirici de corelaţie generală se obţin astfel:
r r rx yz y xz z xy. . .; ;= − = − = −1 1 111 22 33
∆∆
∆∆
∆∆
,
iar coeficienţii empirici de corelaţie parţială:
( )( )
rr r r
r rxy z
xy xz yz
xz yz
. =−
− −1 12 2
( )( )
rr r r
r rxz y
xz xy yz
xy yz
. =−
− −1 12 2
( )( )
rr r r
r ryz
yz yx zx
xy xz
=−
− −1 12 2
Nu prezintă nici o dificultate acum trecerea la vectorii aleatori (X1, X2, …, Xs), cu s > 3. Să presupunem că vectorul aleator (X1, X2, …, Xs) are densitatea de repartiţie f(x1, x2, …, xs) şi că există momentele mixte care intervin în consideraţiile pe care le facem. Atunci: ( ) ( )M X m x f x x dx dxi i i s= = ∫ ∫... ,..., ...1 3 1
RS
( ) ( )[ ] ( ) ( )Var X M X m x m f x x dx dxi ii i i i i i s s= = = − = −∫∫µ σ 2 2 2
1 1... ,..., ...`RS
( ) ( )( )[ ] ( )( ) ( )cov ... ,..., ... X M X m X m x m x m f x x dx dxi ij i i j j i i j j s s= = − − = − −∫∫µ 1 1R s
Natural, coeficientul de corelaţie al variabilelor Xi şi Xj, i ≠ 1, 2, …, 1 este dat de:
ρ ρµ
µ µX X ijij
ii jji j
i j s, , , ,...,= = ≠ = 1 2
Exprimând densitatea de repartiţie condiţionată:
( ) ( )( )
( )( )f x x x
f x x x
f x x
f x x
f x x x dxss
s s
s
s1 2
1 2
2 2
1
1 2 1
/ ,...,, ,...,
,...,
,...,
, ,...,....
= =∫R
,
definim valoarea medie a variabilei X1 condiţionată de faptul că X2 = x2; X3 = x3; …; Xs = xs ( ) ( ) ( )M X X x X x x f x x x dx x x xs s s s1 2 2 1 1 2 1 1 2/ ,..., / ,..., ,...,= = = =∫
R
În spaţiul euclidian real s – dimensional, ( )x x xs1 2 ,..., reprezintă o hipersuprafaţă pe care o vom numi suprafaţă de regresie a variabilelor X2, X3, …, Xs faţă de X1. Analog se definesc şi celelalte s – 1 suprafeţe de regresie: ( ) ( )x x x x x M X X x X x X x X xi i i s i i i i i s s1 1 1 1 1 1 1 1 1,..., , ,..., / ,..., , ,..,− + − − + += = = = = Dispersia variabilei Xi faţă de regresia variabilelor X2,…, Xs, adică faţă de media condiţionată ( )x x x x xi i i s1 1 1,..., , ,...,− + va fi:
( ) ( )[ ] ( )σ i i i s i i i i i s i i i s ix x x x x x x x x x f x x x x x dx21 1 1 1 1
Să considerăm acum mediile condiţionate: ( )m x f x x x x dx dxs s1 34 1 1 2 3 1 2. ... , / ,...,= ∫∫
R 2
( )m x f x x x x dx dxs s2 34 2 1 2 3 1 2. ... , / ,...,= ∫∫R 2 ,
unde ( ) ( )( )f x x x x
f x x x
f x xss
s s1 2 3
1 2
34 3
, / ,...,, ,...,
,...,...
=
Dispersiile variabilelor X1, respectiv X2, condiţionate de variabilele X3, X4,.., Xs sunt date de: ( ) ( )σ 1 34
21 1 34
2
1 2 3 1 2. ... . ... , / ...s s sx m f x x x x dx dx= −∫∫R 2
( ) ( )σ 2 342
2 2 34
2
1 2 3 1 2. ... . ... , / ...s s sx m f x x x x dx dx= −∫∫R 2 ,
iar covarianţa variabilelor X1, X2 condiţionate de X3, X4,…, Xs este dată de expresia: ( )( ) ( )µ12 34 1 1 3 2 2 3 1 2 3 1 2. ... . ... . ... , / ...s s s sx m x m f x x x x dx dx= − −∫∫
R 2 Putem acum să definim coeficientul de corelaţie parţială al variabilelor X1, X2 faţă de variabilele X3,…, Xs prin expresia:
ρµ
σ σ12 3412 34
1 34 2 34. ...
. ...
. ... . ...s
s
s s=
În mod analog se defineşte coeficientul de corelaţie parţială al variabilelor Xi, Xj când celelalte iau valori determinate.
ρµ
σ σij i i j j sij i i j s
i i i j j s j i i j j s. ... , ,..., , ,...
. ... , ,..., ,...
. ... , ... , ... . ... , ,... , ,...1 1 1 1 1
1 1 1 1
1 1 1 1 1 1 1 1 1 1− + − +
− + +
− + − + − + − +
=
i j s≠ = 1 2, , ... Putem acum să definim şi coeficientul multiplu de corelaţie, pe care-l vom nota R1.23…s (coeficientul de corelaţie al variabilei X1 cu toate celelalte variabile). Dacă reluăm notaţia µij pentru momentul centrat al variabilelor aleatoare Xi şi Xj şi notăm:
∆ =
µ µ µµ µ µ
µ µ µ
11 12 1
21 22 2
1 2
...
...... ... ... ...
...
s
s
s s ss
; ∆11
22 23 2
32 33 3
2 3
=
µ µ µµ µ µ
µ µ µ
...
...... ... ... ...
...
s
s
s s ss
,
atunci coeficientul definit prin relaţia:
R s1 2311 11
1. ... = −∆∆µ
se numeşte coeficient multiplu de corelaţie al variabilei X1 în raport cu toate celelalte. Dintre proprietăţile acestui coeficient amintim doar următoarele:
(1) 0 11 2≤ ≤R s. ...
(2) Dacă R s1 2 1. ... = , atunci repartiţia are punctele sale situate aproximativ în acelaşi plan.
9.9. Coeficienţi de corelaţie a rangurilor Calculul coeficientului de corelaţie a două variabile aleatoare X şi Y prin relaţia:
( ) ( ) ( )
( ) ( )ρ X Y
M XY M X M YD X D Y, =
−2 2
presupune că se pot exprima cantitativ valorile variabilelor X şi Y. Deci, atunci când exprimăm coeficientul de corelaţie empiric va trebui ca datele de observaţie să fie măsurate cu precizie, altfel nu vom putea determina acest coeficient de corelaţie. Pot apărea însă adesea situaţii când avem de stabilit intensitatea legăturii între caracteristici calitative. Aşa, de exemplu, la un concurs sportiv se prezintă un număr de concurenţi care vor trebui clasificaţi. Pentru o clasificare cât mai obiectivă se folosesc doi arbitri judecători şi vrem să cunoaştem dacă există o legătură puternică între clasificările date de cei doi arbitri. Un alt exemplu îl poate constitui legătura dintre intensitatea culorii unor fibre textile şi gradul de umiditate al lor pentru un număr dat de loturi. Rezultă clar că nu este vorba de măsurători ce pot fi efectuate cu precizie. Să presupunem că avem o populaţie C în care unităţilor ei notate Ui, 1 ≤ i ≤ n le asociem rangurile lor când le clasificăm după două caracteristici A şi B, conform cu tabelul ce urmează:
Unitatea U1 U2 U3 … Uk … Un-1 Un Rangul Proprietatea A i1 i2 i3 … ik … in-1 in Proprietatea B j1 j2 j3 … jk … jn-1 jn
unde (i1, i2, …, in-1, in) şi (j1, j2, …, jn-1, jn) sunt două permutări ale numerelor 1, 2, …, n din tabelul de n! permutări ale acestor numere. Se pune problema dacă între cele două clasificări există o legătură stochastică şi cât de puternică este această legătură. Vom realiza acest lucru cu ajutorul coeficientului de corelaţie a rangurilor.
Coeficientul de corelaţie a rangurilor al lui Spearman C. Spearman a propus drept măsură a corelaţiei rangurilor coeficientul de corelaţie alcătuit pe baza rangurilor:
R AB
A B=
µσ σ
unde:
( )( )µ AB k A k Bk
n
ni m j m= − −
=∑1
1
mn
i mn
jn
i mn
j mA kk
n
B kk
n
A k A B k Bk
n
k
n
= = = − = −= = ==∑ ∑ ∑∑1 1 1 1
1 1
2 2 2 2 2 2
11; ; ; σ σ
Să efectuăm calculele pentru obţinerea expresiilor µ σ σAB A B A Bm m, , , , 2 2 .
Mai întâi:
( )( )
m mn
n nn n
nn
A B= = + + + − + =+
=+1
1 2 11
21
2...
( ) ( ) ( )( ) ( )σ A k A
k
n
ni m
nn
n n n n n n2 2 2 2 2 2
1
2 2 21 11 2
14
1 2 16
14
112
= − = + + + −+
=+ +
−+
=−
=∑ ...
Analog,
σ B
n22 112
=−
Să calculăm
( )( )µ AB k A k Bk
n
ni m j m= − −
=∑1
1
Pentru aceasta, să considerăm identitatea:
( ) ( )a b a b a bk k k k k kk
n
k
n
k
n
− = + −===∑∑∑ 2 2 2
1112
De aici obţinem:
( ) ( )a b a b a bk k k k k kk
n
k
n
k
n
= + − −⎡⎣⎢
⎤⎦⎥===
∑∑∑ 12
2 2 2
111
Dacă în această egalitate facem:
a in
b jn
k k k k= −+
= −+1
21
2; ,
obţinem:
µ AB k k k k kk
n
k
n
k
n
ni
nj
nn
in
jn
in
= −+⎛
⎝⎜
⎞⎠⎟ −
+⎛⎝⎜
⎞⎠⎟ = −
+⎛⎝⎜
⎞⎠⎟ + −
+⎛⎝⎜
⎞⎠⎟
⎡
⎣⎢
⎤
⎦⎥ − −
+⎛⎝⎜
⎞⎠⎟
⎡⎣⎢
⎧⎨⎩ ===
∑∑∑1 12
12
12
12
12
12
2 2
111-
− −+⎛
⎝⎜
⎞⎠⎟⎤⎦⎥⎫⎬⎭
jn
k
12
2
sau:
( )µ AB k kk
nn nn
i j=−
+−⎛
⎝⎜
⎞
⎠⎟ − −
=∑1
21
121
121
2
2 22
1
Notând: i j d K nk k k− = =, , ,..., 1 2 , obţinem:
µ AB kk
nnn
d=−
−=∑
22
1
112
12
şi, cu aceasta:
( )Rd
n n
kk
n
= −⋅ −
=∑
16
1
2
12
Coeficientul de corelaţie a rangurilor R (al lui Spearman) variază între – 1 şi + 1. Pentru două clasificări de ranguri identice, adică: d i j k nk k k= − = =0 1 2, , ,..., obţinem imediat R = 1. Pentru două clasificări de ranguri perfect inverse, obţinem R = - 1.
Într-adevăr, dacă: i i i i nn n1 2 1 1 2, ,..., , , ,...,− este iar: j j j j n nn n1 2 1 1 2 1, ,..., , , ,..., ,− − este
atunci: d d d dn n1 2 1, ,.., ,− vor fi 1 3 5 3− − − −n n n n n, , ,..., , . Dacă acum n este par, adică n = 2m, atunci:
( )[ ] ( ) ( )( )[ ]d m m mkk
m2
1
22 2 2 2 2 2 2 2 22 1 2 2 1 2 1 2 2 2 4 2
=∑ = + + + − = + + + − + + + =... ... ...
( )( ) ( )( )
( )( )22 2 1 4 1
64 1 2 1
623
2 1 2 1m m m m m m
m m m+ +
−+ +⎡
⎣⎢⎤⎦⎥= + −
Înlocuind în expresia lui R, obţinem:
( ) ( )( )( )R
d
m m m mm m m
kk
n
= −−
= −−
⋅ + − = −=∑
16
2 4 11
62 4 1
23
2 1 2 1 1
2
12 2
Dacă n = 2m + 1, atunci:
( )[ ] ( )( )d m
m m mk
k
m2 2 2 2
1
2 1
2 2 4 24 1 2 1
3= + + + =
+ +
=
+
∑ ...
Deci:
( ) ( )[ ]
( )( )Rm m
mm m= −
+ + −⋅ + + = −1
62 1 2 1 1
43
1 2 1 12
9.10. Reunirea sau comasarea rangurilor În practică apar adesea probleme de ordonare în care este imposibil să distingem situaţia de rang a unui număr de elemente alăturate. În astfel de situaţii este comod să facem media rangurilor şi să asociem acelaşi rang fiecăruia dintre unităţile respective, chiar dacă un astfel de rang este fracţionar. Să analizăm efectul întrunirii a l elemente care ocupă rangurile h + 1, h + 2, …, h + l.
Suma pătratelor rangurilor nereunite este:
( ) ( ) ( ) ( ) ( )( )h h h l lh hl l l l l+ + + + + + = + + + + +1 2 116
1 2 12 2 2 2...
Suma pătratelor rangurilor reunite este:
( ) ( ) ( )l h l lh hl l l l+ +⎡⎣⎢
⎤⎦⎥+ + + + +
12
1 114
12
2 2
Diferenţa lor va fi:
( )( ) ( ) ( )16
1 2 114
11
122 3l l l l l l l+ + − + = −
Prin urmare, dacă se reunesc l ranguri, suma pătratelor se micşorează cu ( )112
3l l− . Pe
de altă parte, media rangurilor rămâne neschimbată, adică n +1
2 şi, deci, dispersia rangurilor
reunite se micşorează cu ( )112
3
nl l− .
Evident, efectul reunirii rangurilor pentru diferite mulţimi de ranguri este aditiv, astfel încât, dacă avem ordonare cu ordonări reunite de câte l l ls1 2, ,..., elemente şi aportul total va fi pentru caracteristica A:
( )L l lA p pp
s
= −=∑ 1
123
1
Rezultă că:
( )1 12
112
112
2
1ni
nn
nLk A
k
n
−+⎛
⎝⎜
⎞⎠⎟ = − −
=∑
şi, analog, pentru caracteristica B:
( )1 12
112
112
2
1nj
nn
nLk B
k
n
−+⎛
⎝⎜
⎞⎠⎟ = − −
=∑ ,
cu LB definit în mod asemănător cu LA. Calculând acum µ AB , obţinem:
( )1 12
12
112
11
21
21
21
2 2
1ni
nj
nn
nd
nL
nLk
k
n
k k A Bk
n
−+⎛
⎝⎜
⎞⎠⎟ −
+⎛⎝⎜
⎞⎠⎟ = − − − −
= =∑ ∑
Urmează, de aici, că în acest caz coeficientul de corelaţie a rangurilor lui Spearman va fi dat de:
( ) ( )
( ) ( )R
n n L L d
n n L n n L
A B kk
n
A B
=− − + −
− −⎡⎣⎢
⎤⎦⎥
− −⎡⎣⎢
⎤⎦⎥
=∑1
616
216
2
2 2
1
3 3
Exemplu Să se stabilească dacă există corelaţie între intensitatea culorii firelor în 10 loturi de materiale destinate industriei textile şi umiditatea lor. Un expert a dispus loturile în următoarea ordine:
Putem trage concluzia că există o legătură între intensitatea culorii şi umiditate şi ea este destul de puternică. Exemplu. La concursul de figuri libere doi arbitri au dispus participanţii în următoarea ordine: Participanţii P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 I. arbitru 1,5 1,5 3 4 6 6 6 8 9,5 9,5 II. arbitru 1 2 4 4 4 6 7 8 9 10 Să se stabilească cât de obiectivă este aprecierea arbitrilor, adică cât de puternică este legătura între aprecierile celor doi arbitri.
Soluţie: Primul arbitru a împărţit primul loc între participanţii P1 şi P2. Rangul lor
reunit este 1 2
21 5
+= ,
Participanţii P5, P6, P7 împart locurile 5, 6, 7. Rangul lor reunit este 5 6 7
36
+ += . La
fel şi pentru celelalte situaţii. Calculăm acum mărimile LA şi LB. Pentru calculul lui LA avem: P1 şi P2 sunt două ranguri reunite, P5, P6, P7 sunt ranguri reunite, P9, P10 iarăşi două ranguri reunite. Astfel:
( ) ( ) ( )
LA =− + − + −
=2 2 3 3 2 2
123
3 3 3
Analog:
LB =−
=3 3
122
3
şi:
( ) ( )
( )[ ] ( )[ ] ( )( )R =
− − + −
− − − −=
− −
− − − −=
10 10 6 3 2 7
10 10 6 6 10 10 6 4
1000 10 12 61000 10 36 1000 10 24
3
3 3
/
/ /
.
= = =918
954 966918
959 980 956
. ,,
Se poate afirma că aprecierile arbitrilor date concurenţilor sunt obiective, căci coeficientul de corelaţie a rangurilor este foarte apropiat de unitate. Repartiţia exactă a coeficientului de corelaţie a rangurilor R al lui Spearman se obţine prin enumerarea celor n! permutări echiprobabile ale rangurilor şi ea este tabelată. În cazul selecţiilor de volum mare, repartiţia lui R este aproximativ normală cu parametrii:
( ) ( )M R D Rn
= =−
01
12,
Aceasta rezultă imediat din următoarele:
( ) ( ) ( )M in
D in
i in
k k k e=+
=−
= −+1
212
1 112
22
; ; cov ,
( ) ( ) ( ) ( )M i j M i M j
nk h k h= =
+14
2
Cu acestea, ( )( )
( )M R
n nn n n
n=
−⋅
+−
+−
=12
11
43
11
02
2
( )( ) ( )D R
n nD a b
n nM a bk k
kk k
k
22
2
22
2 2121
121
=−
⎡
⎣⎢
⎤
⎦⎥
⎛⎝⎜
⎞⎠⎟ =
−
⎡
⎣⎢
⎤
⎦⎥ ⋅
⎛⎝⎜
⎞⎠⎟
⎡
⎣⎢
⎤
⎦⎥∑ ∑
Dacă se ridică la pătrat expresia a bk kk∑ atunci avem de calculat:
( ) ( ) ( )M a b M a M bn
k k k k2 2 2 2
2 21
12= =
−⎛
⎝⎜
⎞
⎠⎟
şi
( ) ( ) ( ) ( ) ( )M a b a b M a a M b b a a b bn
k k l l k l k l k l k l= = = −+⎛
⎝⎜
⎞⎠⎟cov , cov ,
112
2
De aici urmează:
( )( )
( )D Rn n
nn
n nn
n2
2
2 2 2 2121
112
11
121
1=
−
⎛
⎝⎜
⎞
⎠⎟
−⎛
⎝⎜
⎞
⎠⎟ + +
+⎛⎝⎜
⎞⎠⎟
⎡
⎣⎢
⎤
⎦⎥ =
−
Deci, dacă n este suficient de mare, variabila n R−1 urmează o lege normală N(0;1).
9.11. Coeficientul de corelaţie a rangurilor al lui Kendall La deducerea coeficientului R de corelaţie a rangurilor al lui Spearman, s-au luat în considerare n diferenţe dk = ik – jk corespunzătoare celor două şiruri de clasificări. M. G. Kendall a propus să fie luate în considerare toate diferenţele ce le prezintă cele două şiruri de clasificări, acestea fiind calculate ordonând crescător rangurile după o proprietate, de obicei proprietatea A. Ran- gul
Unitatea Ul1 Ul2
Ul3 … Ulk
… Uln
Proprietatea A 1 2 3 … k … n Proprietatea B j1
' j2' j3
' … jk' … jn
' Clasificarea a fost făcută astfel: Unitatea Ul1
avea rangurile ih = 1 şi jh. Am pus această unitate pe poziţia rangului şi, totodată, am notat j jh1
' = şi tot aşa mai departe cu toate celelalte unităţi. Faţă de noua clasificare considerăm diferenţele: j j j j j j j j j j j j2 1 3 1 3 2 4 1 4 2 4 3
' ' ' ' ' ' ' ' ' ' ' '; ; ; ; ; ; ...− − − − − − Avem, aşadar, diferenţele: δ kl k lj j k n l k= − = = −' ' , ,..., ; , ,..., 2 3 1 2 1 Pentru o clasificare identică avem δ kl k l> 0; , cu valorile menţionate, iar pentru clasificarea inversă δ kl < 0. În cazul unui tabel de corelaţie oarecare avem şi diferenţe pozitive şi diferenţe negative. Introducem funcţia: C k n l kkl : δ , , ,..., ; , ,..., ,= = − → −2 3 1 2 1 11 prin relaţia:
( )C klkl
kl
δδδ
=>
− <⎧⎨⎩
1 01 0
şi efectuăm suma:
( )S C kll
k
k
n
==
−
=∑∑ δ
1
1
2
Atunci coeficientul de corelaţie a rangurilor al lui Kendall se defineşte prin:
( )τ ABn
SC
Sn n
= =+2
21
,
unde Cn2 este numărul tuturor diferenţelor posibile.
Coeficientul τ poate fi considerat, într-un anumit sens, ca o corelaţie de tip general, dacă procedăm în felul următor: pentru orice ranguri i şi j referitor la caracteristica A asociem variabila:
ai ji jij =>
− <⎧⎨⎩
1 1
,
iar pentru caracteristica B:
bi ji jij =>
− <⎧⎨⎩
1 1
Atunci:
( )
( ) ( )τ AB
ij iji j
ij ij
a b
a b=∑ ,
,
2 2
şi se constată imediat că se obţine expresia pe care am menţionat-o. Pentru selecţii de volum mare (în practică, n superior lui 8-10), repartiţia statisticii S este aproximativ normală de parametrii:
( ) ( )( )( )
M S D Sn n n
= =− +
01 2 518
2
De aici rezultă că însuşi coeficientul de corelaţie a rangurilor τ AB al lui Kendall pentru n mare are aproximativ repartiţia normală de parametri:
( ) ( ) ( )( )M Dn
n nAB ABτ τ= =++
02 2 59 1
2,
Analizând forma coeficientului τ AB exprimat cu ajutorul variabilelor aij şi bij, precum şi coeficientul de corelaţie parţială, se poate introduce şi coeficientul de corelaţie parţială a rangurilor al lui Kendall şi că acesta verifică relaţia:
( )( )
ττ τ τ
τ τAB C
AB AC BC
AC BC
. =−
− −1 12 2,
întru-totul analoagă cu ρ XY Z. Coeficientul de corelaţie a rangurilor al lui Kendall se utilizează cu succes în detectarea tendinţei monotone într-o serie dinamică. O altă utilizare importantă o constituie estimarea parametrilor cu o anumită semnificaţie. Dacă θ este probabilitatea unei concordanţe, adică probabilitatea: ( )( )[ ]P X X Y Yi j i j− − > =0 θ ,
unde ( )X Xi j, două valori extrase la întâmplare, aranjate în aceeaşi ordine ca şi valorile
( )Y Yi j, asociate.
Ipoteza nulă H0
12
: θ = se testează cu ajutorul statisticii:
( ) ( )$θ τ=−
= +2
112
1C
n n XY ,
unde ( )
C Sn n
= +−⎡
⎣⎢⎤⎦⎥
12
12
Din faptul că ( )[ ] ( )( )M C klδ θ θ θ= + − − = −1 1 1 2 1. rezultă că:
( )( )
( )M Sn n
=−
−1
22 1θ
Deci:
( ) ( )M $θ θ θ= − + =12
2 112
,
ceea ce arată că $θ este un estimator nedeplasat pentru: ( )( )[ ]θ = − − >P X X Y Yi j i j 0
Dispersia exactă a estimatorului $θ depinde de repartiţia vectorului aleator ( )X Y, . M. G. Kendall a arătat că:
( ) ( )( )Dn
2 5 19 1
$θθ θ
=−−
,
care permite construirea unui interval de încredere aproximativ pentru θ .
9.12. Coeficientul de contingenţă al lui Pearson Să considerăm vectorul aleator ( )X Y, , cu repartiţia:
Y X
y1 y2 … yn
x1 P11 P12 … P1n P1* x2 P21 P22 … P2n P2* . . .
xm Pm1 Pm2 … Pmn Pm* P*1 P*2 … P*n
unde am pus ( )P X x Y y pi j ij= = =; , iar pentru repartiţiile marginale:
P P P Pij ij
n
ij ji
m
= =∗=
∗=
∑ ∑1 1
;
Coeficientul ϕ introdus de K. Pearson prin relaţia:
( )( )
( )ϕ 2
2
11
11 1
=− −
− ∗ ∗
∗ ∗==∑∑
m n
P P PP P
ij i j
i jj
n
i
m
măsoară dependenţa dintre variabilele X şi Y. Acest coeficient are unele proprietăţi importante referitoare la dependenţa variabilelor. (1) 0 ≤ ϕ2 ≤ 1 Acest lucru rezultă imediat din faptul:
( )P P P
P PP
P Pij i j
i jj
n
i
mij
i jj
n
i
m−= −
∗ ∗
∗ ∗== ∗ ∗==∑∑ ∑∑
2
11 111
şi
PP
PP
PP
P
P
ij
ij
nij
j
ij
j
ij
iji
m∗= ∗ ∗
=
∑∑
⋅ ≤ = ≤1
1
1'
'
'
'
Deci, dacă m ≤ n, atunci:
( )P P P
P Pm
ij ix j
i jji
−≤ −
∗
∗ ∗∑∑
2
1,
iar dacă n ≤ m, această expresie este:
( )P P P
P Pn
ij ix j
i jji
−≤ −
∗
∗ ∗∑∑
2
1
De aici rezultă afirmaţia: 2) Dacă variabilele aleatoare X şi Y sunt independente, atunci ϕ2 = 0. Afirmaţia este imediată, căci în acest caz: P P Pij i j= ∗ ∗ 3) Dacă între variabilele aleatoare X şi Y există o dependenţă funcţională, atunci ϕ2 = 1. Într-adevăr, în acest caz:
Pi j
P P i jiji j
=≠
= =⎧⎨⎩ ∗ ∗
0, ,
şi totodată m = n. Dar, atunci:
ϕ 22
1
11
11
11
11
1 1 1=−
−⎛
⎝⎜
⎞
⎠⎟ =
−−
⎛
⎝⎜
⎞
⎠⎟ =
−⎛⎝⎜
⎞⎠⎟ −
⎡
⎣⎢⎤
⎦⎥=
∗ ∗ ∗ =∑∑ ∑∑ ∑m
PP P m
PP m
ij
i jji
ij
jji i
m
Proprietatea reciprocă nu are loc şi, deci, din egalitatea cu 1 a coeficientului de contingenţă al lui Pearson nu rezultă că între X şi Y este o dependenţă funcţională.
9.13. Metoda celor mai mici pătrate Să considerăm modelul liniar în care cele n ecuaţii ale modelului sunt de forma: Y X X Xp p= + + + +α α α ε1 1 2 2 ... , unde Y, X1, X2,…, Xp sunt vectori (n,1), α1, α2,…, αp parametri. ε este vectorul rezidual al
modelului. Se pune problema estimării parametrilor α1, α2,…, αp astfel încât ε ii
n2
1=∑ min.
Se numeşte ajustare a modelului, orice soluţie a sistemului de n ecuaţii cu p necunoscute a1,…, ap.
y a x e i ni j ij ij
p
= + ≤ ≤=∑ 1
1
Ecuaţiile pot fi scrise matricial ( ) ( ) ( ) ( )Y Xan n p p n, , , ,1 1 1
= + ε , cu ε ii
n
e e2
1=∑ = '
Ajustarea prin metoda celor mai mici pătrate este cea care dă coeficienţii a1, a2,…, ap
care minimizează eii
n2
1=∑ , unde e y a xi i j ij
i
n
= −=∑
1.
Sintetic, o ajustare se defineşte prin ( ) ( ) ( )Y a X en j j
n nj
p
, , ,1 1 11= +
=∑ sau încă
( ) ( ) ( ) ( )Y Xan n p p n, , , ,1 1 1
= + ε .
Ajustarea prin metoda celor mai mici pătrate este cea care realizează ( )min 'e e eii
n
==∑ 2
1.
Putem pune modelul sub forma: e Y Xa= − , şi atunci:
( ) ( )e e Y Xa Y Xa Y Y Y Xa a X Y a X Xa Y Y a X Y a X Xa' ' ' ' ' ' ' ' ' ' ' ' ' ' '= − − = − − + = − +2 Să aflăm punctele de extrem:
( )∂∂ a
e e' = 0
Cum ( )∂∂ a
e e X Y X Xa' ' '= − +2 2 ,
rezultă condiţia de extrem X Xa X Y' '= . Dacă n ≥ p şi dacă rang X = p, atunci X X' este o matrice de ordinul p şi de rang p şi, deci, este inversabilă. Rezultă: ( )a X X X Y= −' '1 Rămâne să arătăm că extremul atins prin e e' este un minim. Fie ~a o altă soluţie şi ~e vectorul ecarturilor corespunzător. Atunci: ( ) ( ) ( )~ ~ ~ ~e Y X a Y Xa Xa X a e X a a= − − − + − = + − ( )( ) ( )( ) ( ) ( ) ( ) ( )~' ~ ~ ' ~ ' ~ ' ' ~ ' ' ~e e e X a a e X a a e e a a X Y Xa a a X X a a= + − + − = + − − + − −2 Cum ( )X Y Xa Y Xa' − = ⇒ − =0 0, obţinem: ( )( ) ( )( )~' ~ ' ~ ' ~e e e e X a a X a a= + − − − În această egalitate, cel de-al doilea termen este o sumă de pătrate şi, deci, este pozitiv sau nul. Prin urmare: e e e e' ~' ~≤ Observaţie. Dacă n ≥ p şi rang X = p, ajustarea ( )a X X X Y= −' '1 este unică. Relaţia:
Y Xj jj
p
= +=∑α ε
1
se interpretează astfel: variabila endogenă Y este suma vectorială a doi termeni;
α j jj
p
X=∑
1, care aparţine, prin construcţie, subspaţiului liniar generat de variabilele
exogene X X X P1 2, ... ; Vectorul rezidual ε, oarecare în Rn.
Analog, ajustarea Y a X ej jj
p
= +=∑
1 indică faptul că variabila endogenă Y este suma
vectorială dintre elementul a Xj jj
p
=∑
1 din subspaţiul liniar generat de X X X P1 2, ... şi elementul
e ∈ Rn, care este vectorul ecarturilor; (geometric, acest lucru rezultă în figura de mai jos). Rx y e ε Xa Xα Din punct de vedere geometric, metoda celor mai mici pătrate aplicată modelului Y X= +α ε constă în a minimiza distanţa de la elementul Y la subspaţiul Rx generat de
( )X X X p= 1 ,...., . Aşadar, modelul Y X= +α ε defineşte o descompunere a lui Y în doi termeni necunoscuţi X Xα ∈ R şi ε ∈ Rn a cărui lungime ε’ε este apriori slabă. Metoda celor mai mici pătrate propune drept soluţie descompunerea lui Y = Xa + e, care minimizează lungimea lui e, proiectând ortogonal vectorul Y pe RX. Vectorii Xa şi e sunt ortogonali.
Proiecţia ortogonală a lui Y în RX este o transformare liniară a cărei matrice se obţine din: ( )a X X X Y= −' '1 Imediat: ( )Xa X X X X Y Hy= =−' '1 , unde: ( )H X X X X= −' '1 Deci, proiecţia Xa din RX se obţine prin transformarea lui Y cu ajutorul matricei
( )H X X X X= −' '1 . Se verifică imediat că matricea H este simetrică şi idempotentă: H = H’ şi H = H2. Într-adevăr: ( )( ) ( )[ ] ( )H X X X X X X X X X X X X H' ' ' ' ' ' ' ' ' ' '= = = =− − −1 1 1
( )( ) ( )( ) ( )H X X X X X X X X X X X X H2 1 1 1= = =− − −' ' ' ' ' ' Să definim matricea Q = I – H, unde I este matricea unitate de ordinul n: ( )Q I X X X X= − −' '1 Cum H este simetrică şi idempotentă, rezultă: Q I H I H Q' ' '= − = − = ( )( )Q I H I H I H H H I H Q2 2= − − = − − + = − = , adică Q este simetrică şi idempotentă. Pentru orice Z ∈ Rn, Qz este proiecţia lui Z pe un subspaţiu din Rn ortogonal cu RX (complementul ortogonal al lui RX în Rn). Se verifică imediat relaţiile: e Qy= QX = 0 Q Iy Hy y Xa e= − = − = ( )QX X HX X X X X X X X X= − = − = − =−' '1 0 Atunci: ( )e e Qy Qy y Q Qy y Q y' ' ' ' '= = = 2 sau e e y Qy' '= Însă ( )e Qy Q X Qx Q= = + = +α ε α ε ne conduce la: e Q= ε şi, de aici: e e Q' '= ε ε Cazul în care se izolează un termen constant: Adesea în practică intervine cazul în care modelul conţine un termen constant αp. Să notăm cu X0 matricea cu p – 1 coloane corespunzătoare variabilelor exogene X1, X2,…,Xp-1, şi cu α0 vectorul de componente (α1, α2,.., αp-1). Atunci modelul se scrie: Y X u p= + +0 0α α ε (αp termenul constant) Acest model apare ca un caz particular al modelului Y X= +α ε , unde:
( )X X up
= =⎛
⎝⎜
⎞
⎠⎟0
0 | , α
αα
Reluând calculul minimizării sumei pătratelor ecarturilor e e' , vom observa că apare o matrice de ordinul n, de o formă interesantă.
P In
uu= −1
'
Această matrice este o formă particulară a matricei Q definită mai sus, obţinută când
se înlocuieşte X prin u (se observă că ( )u un
' − =1 1).
Ea este o matrice simetrică şi idempotentă care realizează proiecţia oricărui vector din Rn pe subspaţiul ortogonal lui RX. Acest operator de proiecţie joacă un rol fundamental în statistică. Dacă z este un punct oarecare din Rn:
( )Pz zn
u u z= −1
' ,
unde:
1 1n
u zn
x zi' = =∑ media de selecţie.
Deci: Pz z uz z= − = $ vectorul de componente abaterile componentelor Matricea P efectuează, deci, operaţia de centrare în jurul mediei, pe coloane. Aplicată asupra unei matrice X, matricea P efectuează centrarea coloană pe coloana $X PX= .
Valorile a0 şi ap pentru coeficienţii α0 şi αp ai modelului pentru a minimiza expresia e e' vor trebui să anuleze derivatele parţiale de ordinul întâi:
( ) ( )( )
∂∂a
e e u Y X a uap
p' ',
= − − − =2 00 0 1 1
( ) ( )( )
∂∂a
e e X Y X a ua pp0
0 0 01 1
2 0' '
,= − − − =
−
Din prima ecuaţie se obţine:
an
u yn
u X a y a xp k kk
p
= − = −=
−
∑1 10 0
1
1
' '
Dezvoltând cea de-a doua relaţie şi înlocuind ap prin valoarea găsită obţinem:
X Y X X a X un
u Yn
u X a0 0 0 0 0 0 0
1 10' ' ' ' '− − −
⎛⎝⎜
⎞⎠⎟ =
Grupând termenii ce conţin pe a0 se obţine imediat: X PX a X Py0 0 0
' '= Întrucât P P P= =' 2 , ultima relaţie se poate scrie: $ $ $ $' 'X X a X y0 0 0 0= , unde $X PX0 0= şi $Y Py= sunt datele centrate. În final ( )a X X X Y0 0 0
1
0=−$ $ $ $' ' pentru coeficienţii a1, a2,…,ap-1;
a y a xp k kk
p
= −=
−
∑1
1
pentru termenul constant.
Cu alte cuvinte, cei p – 1 coeficienţi ai variabilelor exogene se pot obţine după regula generală, operând însă asupra datelor centrate. Termenul constant se deduce exprimând că mediile observaţiilor satisfac exact ecuaţia de ajustare. y a x a x ap p p= + + +− −1 1 1 1...
Să considerăm elementul de pe linia k şi coloana k’ din matricea $ $'X X0 0 . Acest termen se exprimă:
( )( )x x x xik k ik ki
n
− −=∑ ' '
1
Luând în consideraţie şi coeficientul n, obţinem matricea de covarianţă empirică a variabilelor exogene ale modelului, matrice notată Vxx:
Vn
X Xxx =1
0 0$ $'
În acelaşi mod vom scrie:
Vn
X yxy =1
0'
pentru vectorul celor p – 1 covarianţe între Y şi Xk, K = 1, 2, …, p – 1. Dacă se consideră matricea W de ordinul p a covarianţelor empirice între toate datele modelului, se poate face ipoteza că sunt aranjate ca în figura de mai jos:
( )W
V VV Vp p
xx xy
xy yy,'=
⎛
⎝⎜
⎞
⎠⎟
Atunci coeficienţii de ajustare se calculează uşor cu ajutorul formulelor transformate:
( )a V Vp
xx xy01 1
1
−
−=,
a y a xp = − 0' (termen constant)
Să vedem cum se poate evalua suma pătratelor ecarturilor. Dacă există un termen constant, proprietatea de ortogonalitate implică u e' = 0 şi, deci, e este centrată. Urmează că Pe e= şi în plus Pu = 0. În aceste condiţii: e Pe Py PX a Pua Py PX a y X ap= = − − = − = −0 0 0 0 0 0$ $ Din formula de calcul a lui a0 se obţine: a X y a X X a0 0 0 0 0 0
' ' ' '$ $ $ $= Deci, e e y Y a X X a Y Y a X Y' $ ' $ $ $ $' $ $ $' ' ' '= − = −0 0 0 0 0 0 , care, astfel exprimat, ne conduce la relaţia:
( ) ( )e n Var Y a Y Xi k kk
p
i
n2
1
1
1= −
⎡
⎣⎢⎤
⎦⎥=
−
=∑∑ cov ,
Se poate verifica (pornind de la ~y Xa X a ua p= = +0 0 ) că:
( ) ( ) ( ) ( )Var yn
a X X a Var X a Y X a Y y~ $ $ cov , cov , ~' '= = = =1
0 0 0 0 0 0 0 0
În cazul ajustării cu termen constant, se defineşte coeficientul de corelaţie multiplă prin R dat de:
( )
( ) ( )RY y
Y y2
2
=cov , ~
var var ~
Acest coeficient se mai poate exprima sub următoarele forme:
( )
( ) ( )( )( )
( )( )R
Y yY y
yY
Y X aY
22
0 0= = =cov , ~
var var ~var ~
varcov ,
var
sau:
( )( )R
a X X ay Y
a X Yy y
a Y X
Y
k kk
p
2 0 0 0 0 0 0 1
1
= = = =
−
∑' ' ' '$ $
$ '
$
$ ' $
cov ,
var
Coeficientul R2 capătă un sens prin împărţirea dispersiei totale în dispersie “explicată” şi dispersie “reziduală”. Dispersia explicată: ( ) ( )R Y Var Y2 var ~= Dispersia reziduală: ( ) ( ) ( )1 2− =R Y Var evar Dispersia totală: ( ) ( ) ( )var var ~ varY Y e= + Să mai menţionăm faptul că R2 se poate exprima şi în modul următor:
( )( ) ( )ReY
e
n Y
ii
n
2
2
11 1= − = − =∑var
var var
Din această relaţie rezultă că minimizând eii
n2
1=∑ se maximizează R. Cu alte cuvinte,
ajustarea prin metoda celor mai mici pătrate determină combinaţia liniară de variabile exogene care are o corelaţie maximală cu variabila endogenă Y. Se observă că introducerea în model a unei noi variabile exogene arbitrare, va conduce la micşorarea sumei pătratelor ecarturilor şi prin urmare implică o creştere a coeficientului R.
9.14. Ipotezele Gauss - Markov Până acum ne-am ocupat de rezolvarea unei probleme pur matematice de minimizare. Să presupunem acum că reziduul εi (eroarea) este efectul rezultant al unui mare număr de factori neidentificaţi şi., ca atare, va fi considerat ca o variabilă aleatoare. Considerând acest lucru pentru fiecare din cele n relaţii ale modelului, vom introduce vectorul aleator ε (cu n componente – variabile aleatoare) şi definim Y ca un vector aleator care în scrierea matricială este de forma: Y X= +α ε Asupra variabilelor εi vom face ipoteze apriori cât mai simple posibil şi vom arăta că ajustarea prin metoda celor mai mici pătrate este cea mai bună dintre toate tehnicile de ajustare, pentru identificarea modelului. Vom presupune că ( ) ( )M Di iε ε σ= =0 2 2,
( )cov , , , ,...,ε εi j i j n= ≠ =0 1 2 De aici urmează imediat ipotezele Gauss - Markov ( ) ( ) ( )
( )M Var M I
n nε ε εε σ= = =0 2; '
,
şi echivalent: ( ) ( )M Y X Var Y I= =α σ; 2 Ajustarea prin metoda celor mai mici pătrate proiectează pe Y în Xa pe RX, iar pe ε în e pe subspaţiul ortogonal lui RX (notat R X
¬ ) în Rn. Repartiţia vectorului Y în Rn determină în felul acesta repartiţia lui Xa în RX. Vom căuta să determinăm repartiţia componentelor ak ale vectorului a, care vor estima coeficienţii necunoscuţi αk ai modelului. Să arătăm că în ipotezele Gauss-Markov, estimatorii ak obţinuţi prin metoda celor mai mici pătrate sunt cei mai buni, în sensul următor: orice alt estimator are o repartiţie mai dispersată în jurul valorii αk de estimat. O primă proprietate a estimatorilor ak obţinuţi prin metoda celor mai mici pătrate este că ei au repartiţii centrate în coeficienţii αk.
Într-adevăr: ( ) ( )[ ] ( ) ( )M a M X X X Y X X X M Y= =− −' ' ' '1 1 , adică: ( )M a = α Aşadar vectorul a, estimatorul obţinut prin metoda celor mai mici pătrate a vectorului α a coeficienţilor necunoscuţi este un estimator nedeplasat. De asemenea, matricea de covarianţă a vectorului aleator are expresia: ( ) ( )( )[ ]V a M a a= − −α α ' Cum: ( ) ( ) ( ) ( )a X X X Y X X X X X X X= = + = +− − −' ' ' ' ' '1 1 1α ε α ε , avem: ( )a X X X− = −α ε' '1 şi, de aici:
( ) ( ) ( )[ ] ( ) [ ] ( )V a M X X X X X X X X X M X X X= = ⋅− − − −' ' ' ' ' ' ' '1 1 1 1εε εε Ţinând seama de ipotezele Gauss-Markov obţinem expresia: ( ) ( )V a X X= −σ 2 1' Teoremă (Gauss-Markov). În condiţiile Gauss-Markov, estimatorii ak ai parametrilor αk obţinuţi prin metoda celor mai mici pătrate sunt optimali în sensul că orice alt estimator nedeplasat şi care este o funcţie liniară de Y, are o varianţă mai mare. Demonstraţie. Estimatorul a, obţinut prin metoda celor mai mici pătrate, este funcţia liniară de Y: ( )[ ]a X X X Y= −' '1 Să considerăm un alt estimator: b By= Cum b şi a sunt liniari în Y, putem să scriem: b a CY= + (este suficient să luăm ( )C B X X X= − −' '1 ) Să punem acum condiţia că b este nedeplasat: ( ) ( )M b M a CY= + = α Atunci: α α α+ =CX , oricare ar fi α, implică CX = 0 Dacă evaluăm matricea de covarianţă a estimatorului b, atunci: ( ) ( )( )[ ]V b M b b= − −α α ' Cum
( )( )( ) ( ) ( )b a CY X X X C X X X X X CX X X X C= + = + + = + + + =− − −' ' ' ' ' '1 1 1α ε α α ε ε
( )[ ]= + +−α εX X X C' '1
Deci, ( )[ ]b X X X C− = +−α ε' '1 şi, de aici:
( ) ( ) ( )V b X X CC V a CC= + = +−σ σ σ2 1 2 2' ' ' Din modul cum s-a definit matricea C rezultă că CC' este negativ definită, iar elementele de pe diagonală sunt pozitive sau nule. Aceasta demonstrează teorema.
9.15. Estimarea matricei de covarianţă
Am văzut că var (ak) sunt minime, dar nu le cunoaştem, căci parametrul σ al modelului este în general necunoscut. Atunci, este natural să alegem drept estimator pentru σ2
statistica 1 2
1nei
i
n
=∑ , însă acesta este un estimator deplasat.
Într-adevăr:
( )Mn
e M e eii
n1 2
1=∑⎛
⎝⎜
⎞⎠⎟ = '
Dar: ( ) ( )e e tr e e tr Q' ' '= = ε ε 1 Cum tr(AB) = tr(BA), putem scrie: ( ) ( )e e tr Q tr Q' ' '= =ε ε εε şi, deoarece operatorii, urma şi valoarea medie sunt liniari, putem interverti ordinea operatorilor, ceea ce ne conduce la ( ) ( )[ ] ( )[ ]M e e M tr Q tr QM' ' '= =εε εε . Deci: ( ) ( )M e e tr Q' = σ 2 Urma matricii Q se calculează însă imediat:
( )( ) ( )[ ] ( )[ ]
( )trQ tr I X X X X n tr X X X X n tr X X X X n tr I
n n p p= −
⎡⎣⎢
⎤⎦⎥ = − = − = −
⎛⎝⎜
⎞⎠⎟ =− − −
, ,' ' ' ' ' '1 1 1
= −n p şi de aici rezultă că:
( ) ( )M e e M e n pii
n
' =⎛⎝⎜
⎞⎠⎟ = −
=∑ 2
1
2σ
Acum putem introduce statistica:
sn p i
i
n2 2
1
1=
− =∑ε ,
care este un estimator nedeplasat al parametrului σ2. În final se obţine estimatorul nedeplasat S al matricii de covarianţă, ( )S s X X= −2 1' ( ) ( )( )M S V a= Estimatorii individuali ai dispersiilor coeficienţilor ak sunt daţi de elementele de pe diagonala principală a matricii ( )S s X X= −2 1' . O schemă de estimare a parametrilor prin metoda celor mai mici pătrate, utilizând polinoame ortogonale: Să considerăm problema estimării parametrilor a a am1 2, ,..., din ecuaţia:
( )Y a xk kk
m
==∑ ϕ
1,
care constituie legătura între valorile observate Y şi variabila independentă x ce apare în relaţie prin intermediul funcţiilor ( ) ( ) ( )ϕ ϕ ϕ1 2x x xm, ,..., presupuse cunoscute. Dacă în particular ( ) ( ) ( )ϕ ϕ ϕ1 2
11x x x x xmm= = = −, ,..., , obţinem Y ca un polinom de
gradul m – 1, iar dacă m = 2 obţinem o dependenţă liniară.
1 Am notat tr(A) urma matricii A, adică suma elementelor de pe diagonala principală.
În unele probleme tehnice întâlnim sisteme de funcţii trigonometrice de forma: ( ) ( ) ( )ϕ ϕ ϕk k kx kx x k x x kx= = =cos , cos , sin Vom presupune că valorile observate ale variabilei Y, pentru un anumit sistem de valori x j nj , 1≤ ≤ ale argumentului sunt afectate de erorile ε j j n, 1≤ ≤ , astfel că:
( )Y a x j nj k k j jk
m
= + ≤ ≤=∑ ϕ ε , 1
1
Asupra erorilor ε j facem ipoteza că sunt independente şi că sunt repartizate normal de
parametri ( )M jε = 0.
( )D j nj2 2 1 2ε σ= =, , ,...,
Vom estima parametrii a a am1 2, ,..., minimizând suma pătratelor erorilor.
( ) ( ) ( )S a a a y a xm j k k jk
m
j
n
1 21
2
1, ,..., min= −
⎡⎣⎢
⎤⎦⎥==
∑∑ ϕ
Estimaţiile $ , $ ,..., $a a am1 2 ale parametrilor prin metoda celor mai mici pătrate se obţin rezolvând sistemul de ecuaţii:
( ) ( )− = −⎡⎣⎢
⎤⎦⎥
= ≤ ≤==∑∑1
20 1
11
∂∂
ϕ ϕ
Sa
y a x x i mi
j k k jk
m
j
n
i j ,
Notând pentru simplificare
( ) ( ) ( ) ( )ϕ ϕ ϕ ϕ ϕ ϕi j k j i k k ij
n
x x = ==∑ , ,
1
( ) ( ) ( )y x y yj i j i ij
n
ϕ ϕ ϕ= ==∑ , ,
1
Sistemul de ecuaţii se poate pune sub forma:
( ) ( )a y i mk i k ik
m
ϕ ϕ ϕ, , , ,...,= ==∑ 1 2
1
Soluţia acestui sistem constituie estimaţiile $ , $ ,..., $a a am1 2 . Rezolvarea sistemului se simplifică considerabil dacă sistemul de funcţii ( ) ϕ k x constituie un sistem “ortogonal” pe mulţimea valorilor argumentului x1, x2, …, xn. După cum se ştie, condiţia de ortogonalitate constă în faptul că pentru orice i k≠ ,
( ) ( ) ( )ϕ ϕ ϕ ϕ11
0, k i j k jj
n
x x= ==∑
Dacă funcţiile ϕ k sunt ortogonale, atunci şi ( ) ( )ϕ ϕk k kx C x= vor fi ortogonale, iar dacă ϕ k nu sunt ortogonale, ele se pot ortogonaliza prin procedeul obişnuit. Astfel, considerând sistemul de funcţii ( ) ( ) ( )ϕ ϕ ϕ1 2 11x x x x xm
m= = =+, ,..., , care nu este un sistem ortogonal, se construieşte sistemul ortogonal: ( ) ( ) ( )Ψ Ψ Ψ1 2 1x x xm, ,..., + din aproape în aproape cu:
( )( )( )
( )( )( )
( )ΨΨ
Ψ ΨΨ
Ψ
Ψ ΨΨi
ii
i
i ii
i
x xx
xx
x= − − −−−
−
− −−
−1
11
1 11
11
1 11
,
,...
,
,
( ) ( )i m x x= + = =2 1 11,..., , Ψ ϕ
Aşa, de exemplu:
( )( )( )
( )ΨΨ
Ψ ΨΨ2
1
1 11
1x xx
x xx
nx x
jj
n
= − = − = −=∑,
,
( )( )( )
( )( )( )
( )( )
( )( )Ψ
Ψ
Ψ ΨΨ
Ψ
Ψ ΨΨ3
22
2
2 22
21
1 11
2
2
1
2
1
2
1x xx
xx
x xx x x
x xx x
x
n
j jj
n
jj
n
jj
n
= − − = −−
−− − =
=
=
=∑
∑
∑,
,
,
,
( )= −−
−− −
==
==
=∑∑
∑∑
∑x
x x x
x x xx x
x
n
j jj
n
j
n
j jj
n
j
n
jj
n
2
3 2
11
2
11
2
1
Deci, ( )Ψi x i m, , ,..., = +1 2 1 sunt polinoame de gradul i – 1 cunoscute sub numele de polinoame Cebîşev. Din relaţia scrisă în general se vede imediat că orice putere xi−1 se poate reprezenta sub forma unei combinaţii liniare de funcţiile ( ) ( ) ( )Ψ Ψ Ψ1 2 1 2 1x x x i mi, ,..., , , ,..., = + .
Aceasta ne conduce la faptul că orice combinaţie liniară ( )a xk k jj
n
ϕ=∑
1 se transformă într-o
combinaţie liniară ( )b xk k jj
n
Ψ=∑
1 de funcţii ortogonale Ψk obţinute din ϕ k prin procedeul de
ortogonalizare menţionat. Să presupunem acum că sistemul de funcţii ϕ ϕ ϕ1 2, ,..., m constituie un sistem ortogonal, adică ( )ϕ ϕ1 2 0= ≠, i j . În acest caz, sistemul de ecuaţii:
( ) ( )a y i mk i k ik
m
ϕ ϕ ϕ, , , , ,...,= ==∑
11 2 ,
se poate scrie: ( ) ( )a y i mi i i iϕ ϕ ϕ, , , , ,...,= = 1 2 şi, deci,
( )( )
( )
( )$
,
,, , ,...,a
y y x
xi mi
i
i i
j j jj
n
i jj
n= = ==
=
∑
∑ϕ
ϕ ϕ
ϕ
ϕ
1
2
1
1 2 ,
care ne arată că estimaţiile $ai sunt funcţii liniare de observaţiile y j . Însă y j sunt date de:
( )y a x j nj k k j jk
m
= + ==∑ ϕ ε , , ,..., 1 2
1
Ţinând seama de faptul că ( )ϕk k m1 ≤ ≤ sunt ortogonale, putem scrie:
( )
( )( ) ( )( )
( )( )
( )$,
,
, ,a
x a x x xai
j i jj
n
i i
k k j i jk
m
i i
j i jj
n
i ii= + = +
= = =∑ ∑ ∑ε ϕ
ϕ ϕ
ϕ ϕ
ϕ ϕ
ε ϕ
ϕ ϕ1 1 1
De aici obţinem:
( )
( )$,
a ax
i i
j i jj
n
i ii− = =
=∑ε ϕ
ϕ ϕθ1
Cum ε j sunt variabile aleatoare independente, identic repartizate, normale ( )N 0,σ şi cum θ i sunt combinaţii liniare de ε j , rezultă că şi θ i sunt variabile aleatoare repartizate normal de parametri:
( ) ( ) ( ) ( )M x M i mii i
i jj
n
jθϕ ϕ
ϕ ε= = ==∑1
0 1 21,
, , ,...,
( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( )
( )D M x M x x Mi i
i i
i j j i j i k j kj kj
mi i
i i
2 22
2 2
1
2
2
1θ θ
ϕ ϕϕ ε ϕ ϕ ε ε
σ ϕ ϕ
ϕ ϕ= = +
⎡
⎣⎢
⎤
⎦⎥ =
≠=∑∑
,
,
,,
adică:
( ) ( )D i mii i
22
1 2θσϕ ϕ
= =,
, , ,...,
O proprietate foarte importantă a estimaţiilor $ai dezvoltate după funcţii ortogonale, o constituie faptul că sunt necorelate, iar în cazul când ε j sunt variabile normale, sunt şi independente. Într-adevăr, putem scrie:
( )( ) ( ) ( ) ( ) ( ) ( )ϕ ϕ ϕ ϕ θ θ ε ϕ ϕ ϕ ε εi i k k i k j i hj
n
i j k hj h
j hM M x x x M, , ,,
=⎡
⎣⎢
⎤
⎦⎥ =
=∑ ∑
1
Cum:
( )Mj hj hj hε ε
σ=
≠=
⎧⎨⎩
02
,,
,
rezultă:
( )( ) ( ) ( ) ( )ϕ ϕ ϕ ϕ θ θ σ ϕ ϕi i k k i k i j k jj
n
M x x, , ==∑2
1
Dar ( )ϕ i i m1 ≤ ≤ sunt ortogonale şi, deci, ( )M i kθ θ = 0 dacă i k≠ , ceea ce probează
necorelarea variabilelor $ai şi $ak .
Pentru estimarea dispersiei σ 2 vom folosi suma pătratelor abaterilor ( )ε j j jy Y22
= − Se poate arăta că:
( )sn m n m
y Yy jj
n
j jj
n2 2
1
2
1
1 1=
−=
−−
= =∑ ∑ε ,
în ipotezele pe care le-am formulat, constituie o estimaţie nedeplasată a dispersiei σ 2 .
Variabila n m
sy
−σ 2
2 are o repartiţie ( )χ 2 n m− .
Pentru a construi intervale de încredere pentru coeficienţii ak ne folosim de faptul că variabilele:
( )
( )t
a a
sk k k
y k k
=−$
/ ,ϕ ϕ
sunt variabile aleatoare repartizate Student cu n – m grade de libertate şi, deci, ( )