Cap 9 Elemente de Teoria Corelatiei Si Regresiei

Capitolul 9

ELEMENTE DE TEORIA CORELAŢIEI ŞI REGRESIEI Una din principalele probleme ale teoriei probabilităţilor şi statisticii matematice este cea a studiului dependenţei dintre două sau mai multe variabile. Două sau mai multe variabile pot fi sau independente sau dependente funcţional sau dependente stochastic. Prin dependenţa funcţională între Y şi X1, X2,…, Xn înţelegem o aplicaţie f care asociază fiecărui (x1, x2,…,xn) ∈ E un element Y ∈ F şi numai unul, adică: Y = f(x1, x2,…,xn) Exemple de dependenţă funcţională se întâlnesc în toate domeniile în care pare

modelul matematic. Un astfel de exemplu îl poate constitui legea gazelor perfecte P RTV

= ,

unde R este o constantă caracteristică gazului. Dependenţa funcţională poate exista şi între variabile aleatoare, aşa, de exemplu, avem variabila Student:

( )t nX

nx j

j

n=

=∑1 2

1

unde X, X1, X2,…,Xn sunt variabile aleatoare independente repartizate normal N(0;1). De asemenea,

( ) ( )( )F n nn n

n n1 2

21 1

22 2

,/

/=χ

χ,

unde ( )χ 21n şi ( )χ 2

2n sunt variabile hi pătrat independente. Între variabilele aleatoare poate exista şi o altă dependenţă – dependenţa stochastică – pe care o vom studia în cele ce urmează. O astfel de dependenţă apare atunci când acţionează factori externi atât asupra unei variabile, cât şi asupra celeilalte (celorlalte). Aceştia determină o anumită legitate probabilistică a variabilelor (X, Y, Z, …). Vom spune că între variabilele X1, X2,…,Xn există o dependenţă stochastică, dacă se dă legea de repartiţie a vectorului aleator (X1, X2,…,Xn), care dă posibilitatea stabilirii legilor de repartiţie condiţionate. Această dependenţă îşi găseşte o aplicaţie fundamentală în prognoză, adică în indicarea limitelor în care cu un anumit nivel de încredere se va găsi o variabilă, dacă celelalte, cu care se află în legătură stochastică, iau valori bine determinate. Să studiem dependenţa stochastică în cazul a două variabile aleatoare X şi Y discrete, caz întâlnit deosebit de frecvent în aplicaţii, apoi să menţionăm modul cum se obţin rezultatele corespunzătoare în cazul continuu. Fie vectorul aleator (X,Y) cu repartiţia:

( ) ( )( ) ( )X Yx y

p x yx y I x J, :

,,

, , ∈⎛

⎝⎜

⎞

⎠⎟ ,

unde am pus p(x,y) = P(X=x; Y=y) De aici se obţin probabilităţile marginale: ( ) ( ) ( ) ( )P X x p x P Y y p y= = = =, ( ) ( )p x p x y x I

y J= ∈

∈∑ , ;

( ) ( )p y p x y y Jx I

= ∈∈∑ , ;

şi repartiţiile marginale:

( ) ( )Xx

P x x I Yy

P y y J: , ; : ,∈⎛

⎝⎜

⎞

⎠⎟ ∈

⎛

⎝⎜

⎞

⎠⎟

Probabilităţile condiţionate sunt date de: ( ) ( )( )p x y

p x yp y

//

= , dacă p(y) ≠ 0,

( ) ( )( )p y x

p x yp x

//

= , dacă p(x) ≠ 0.

Problemele practice cer adesea să se stabilească cum variază media unei variabile, când cealaltă ia o valoare determinată. Să observăm mai întâi că dacă variabilele aleatoare X şi Y sunt independente, atunci p(x,y) = p(x)p(y) pentru orice x ∈ I şi y ∈ J şi reciproc. Rezultă de aici că p(x/y) = p(x), p(y/x) = p(y). Definiţie. Se numeşte regresie a lui Y asupra lui X, ( ) ( )M Y X x y x/ = = . Se numeşte regresie a lui X asupra lui Y: ( ) ( )M X Y y x y/ = = . Din definiţie rezultă: ( ) ( ) ( ) ( )M Y X x M Y x y x yp y x

y J/ / /= = = =

∈∑

( ) ( ) ( ) ( )M X Y y M x y x y xp x yx I

/ / /= = = =∈∑

Observaţie. Dacă variabilele X şi Y sunt independente, atunci: ( ) ( )M Y X x y x ay/ = = = (constantă) ( ) ( )M X Y y x y ax/ = = = (constantă) Locul geometric al punctelor ( )( )x y x, poartă numele de curbă de regresie a variabilei Y asupra variabilei X. Analog, locul geometric al punctelor ( )( )y x y, poartă numele de curbă de regresie a variabilei X asupra variabilei Y. Se observă imediat că aceste curbe de regresie mai pot fi exprimate astfel:

( ) ( ) ( )( )

( )

( )y x yp y x yp x yp x

yp x y

p x yy Jy J

y J

y J

= = =∈∈

∈

∈

∑∑∑∑/

,,

,

şi

( ) ( )( )( )x y xp x y

xp x y

p x yx I

x I

x I

= =∈

∈

∈

∑∑∑/

,

,

În jurul mediilor condiţionate, ca şi în jurul mediilor obişnuite, împrăştierea este supusă de fiecare dată unei legi de repartiţie determinată, lege care depinde pentru fiecare variabilă de valoarea luată de cealaltă variabilă. Să vedem cum măsurăm împrăştierea valorilor variabilei Y în jurul mediei condiţionate ( )y x . Prin definiţie: ( ) ( )( ) ( )D Y x y x y y x p y x

y J

2 2 2/ / /= = −∈∑σ

Odată cu curba de regresie ( )y x avem şi curba dispersiilor condiţionate σ 2 y x/ , numită şi linia schedastică.

Analog, pentru variabila X avem: ( ) ( )( ) ( )D X y x y x x x p x y

x I

2 2 2/ / /= = −∈∑σ

Media condiţionată introduce repartiţia:

( )( )

y xp x

x I, ∈⎛

⎝⎜

⎞

⎠⎟

şi, de aici: ( )( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )M y x y x p x p x yp y x yp y x p x yp x y M Y a

x Ix I x Iy J

x Iy J

y Jy= = = = = =

∈∈ ∈∈

∈∈

∈∑∑ ∑∑∑ / / /

(constantă) şi:

( )( ) ( )( )( ) ( )D y x y x a p xy x y

x I

22

= = −∈∑σ

Relaţiile anterioare pentru media condiţionată ( )x y şi:

( )( ) ( )( ) ( ) ( )

x yp y

y J M x y xp x y M x ax Iy J

x, ; ,∈⎛

⎝⎜

⎞

⎠⎟ = = =

∈∈

∑ (constantă)

şi: ( )( ) ( ) ( )( ) ( )D x y x y a p y

x y xy J

2 2 2= = −

∈∑σ

Dacă luăm acum în consideraţie repartiţia:

( )σ y x

p xx I/ ,

2

∈⎛

⎝⎜

⎞

⎠⎟

Suntem conduşi la valoarea medie: ( ) ( )M p xy x y x

x Iy xσ σ σ/ / /

2 2 2= ⋅ =

∈∑

pe care o vom numi dispersie condiţionată medie. Am introdus, aşadar, relativ la componenta Y a vectorului aleator (X,Y) următoarele dispersii: ( )σ σ σy y x y x

2 2 2, , / Între aceste dispersii are loc egalitatea: ( )σ σ σy y x y x

2 2 2= + /

Demonstraţie:

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )σ y y yx I

y yx Ix I

y Jy Jy J

y a p y y a p x p y x y a p x p y x y a p y x22 2 2 2

= − = − = − = −∈ ∈∈

∈∈∈

∑ ∑∑∑∑ / / /

Însă:

( ) ( )( ) ( )( ) ( )( ) ( )( )y a y y x y y x y x a y x ay y y− = − + − − + −2 2 2

2 şi, de aici:

( ) ( ) ( ) ( )( ) ( )( ) ( )( )y a p y x y y x p y x y x a y x ayy J

y yy Jy J

− = − + − −∈ ∈∈∑ ∑∑

2 2 22/ /

Cum: ( )( ) ( ) ( ) ( ) ( ) ( ) ( )y y x p y x yp y x y x p y x y x y x

y J y Jy J− = − = − =

∈ ∈∈∑ ∑∑/ / / 0,

avem:

( ) ( )( ) ( ) ( )( ) ( )

( ) ( ) ( )( ) ( ) ( ) ( )

σ

σ σ

y yy Jy Jx J

yy Jx Ix I

p x y y x p y x y x a p y x

D Y x p x y x a p x p y x y x y x

2 2 2

22

2 2

= − + −⎡

⎣⎢

⎤

⎦⎥ =

= + − = +

∈∈∈

∈∈∈

∑∑∑

∑∑∑

/ /

/ / /

9.1. Raportul de corelaţie

Prin definiţie, raportul de corelaţie al variabilei Y în raport cu X, notat η y x/ , este dat de:

( )

ησσ

σ

σy xy x

y

y x

y/

/22

2

2

21= − =

Analog, raportul de corelaţie al variabilei X în raport cu Y, notat η x y/ , este dat de:

( )

ησσ

σ

σx yx y

x

x y

x/

/22

2

2

21= − =

Se vede imediat că 0 1≤ ≤η y x/ , dacă se convine să se ia raportul de corelaţie pozitiv sau nul. Raportul de corelaţie este un indicator numeric al intensităţii legăturii de corelaţie între variabilele X şi Y. Proprietăţile raportului de corelaţie:

(1) Dacă între variabilele X şi Y există o dependenţă univocă, atunci: η y x/

2 1= Într-adevăr, în acest caz nu există împrăştiere în jurul curbei de regresie ( )y x , căci unica valoare a variabilei Y pentru X = x coincide cu ( )y x . (2) Dacă η y x/

2 1= , atunci Y este funcţie univocă de X.

Într-adevăr, dacă η y x/2 1= rezultă că σ y x/

2 0= şi, drept urmare, nu există împrăştiere în jurul curbei de regresie. Deci, fiecărei valori x a lui X îi corespunde o valoare determinată

( )Y y x= . (3) Dacă x şi y sunt necorelate, atunci: η y x/

2 0= . Într-adevăr, necorelarea variabilei Y în raport cu X înseamnă că media condiţionată ( )y x este constantă:

( ) ( )y x M Y ay= = Deci, în acest caz, ( )σ

y x2 0= şi, de aici, η y x/

2 0= .

În particular, η y x/2 0= dacă Y nu depinde de X, căci atunci ( )y x ay= .

(4) Dacă η y x/2 0= , atunci Y este necorelată cu X, adică ( ) ( )y x M Y const= = .

Într-adevăr, ( )

ησσy x

y x

y/

22

2 0= = conduce la ( )σy x2 0= , ceea ce înseamnă că

( )y x a consty= = . Să observăm că între η x y/

2 şi η y x/2 nu există nici o legătură. Se poate ca unul din

coeficienţi să ia valoarea zero, iar celălalt valoarea 1, cu toate consecinţele ce se deduc din

proprietăţile raportului de corelaţie. Dacă, însă, η ηy x x y/ /2 2 1= = , atunci dependenţa funcţională

a lui Y în raport cu X este monotonă.

9.2. Coeficientul de corelaţie Un alt indicator ce măsoară existenţa şi intensitatea legăturii stohastice este coeficientul de corelaţie. Să considerăm variabilele aleatoare X şi Y, despre care presupunem că au dispersii finite ( ) ( )D X D Y2 2< ∞ < ∞, . Atunci definim corelaţia variabilelor X şi Y, sau covarianţa lor, şi o vom nota

( )µ xy X Y= cov , .

( ) ( )( ) ( )( )[ ] ( ) ( ) ( )µ xy X Y M X M x Y M y M X Y M X M Y= = − − = −cov , , Coeficientul de corelaţie al variabilelor X şi Y este, prin definiţie:

( ) ( )ρµ

XYXY

D X D Y=

Proprietăţile coeficientului de corelaţie: (i) Dacă variabilele X şi Y sunt independente, atunci: ρ XY = 0. Reciproc nu este adevărat. (ii) Oricare ar fi variabilele aleatoare X şi Y, avem: − ≤ ≤1 1ρ XY (iii) Dacă ρ XY = ±1, atunci între X şi Y există o relaţie liniară, adică Y = aX + b, cu a ≠ =, b constante şi reciproc. Să demonstrăm aceste proprietăţi: (i) Cum ( ) ( ) ( )µ XY M XY M X M Y= − ⋅ şi cum prin ipoteză X şi Y sunt independente, rezultă că: ( ) ( ) ( )M XY M X M Y= ⋅ şi, de aici, µ XY = 0, adică ρ XY = 0. Variabilele aleatoare X şi Y pentru care ρ XY = 0 se zic necorelate. Dacă se consideră vectorul aleator (X,Y), cu repartiţia:

Y X 0 1

-1 29

19

13

0 39

0 1

3

1 29

19

13

79

29

Se constată imediat că ( ) ( ) ( )M XY M Y M X=−

+ = = =1

919

029

0; , .

Deci, ρ X Y, = 0, deşi variabilele aleatoare X şi Y nu sunt independente.

Se constată imediat că ( ) ( ) ( )P X Y P X P Y= = = ≠ = = ⋅ =0 013

727

0 0, .

(ii) Din definiţia coeficientului de corelaţie şi din inegalitatea lui Schwartz obţinem:

( )( ) ( )( )[ ] ( )( )[ ]( ) ( )( )[ ]( ) ( ) ( )M X M X Y M Y M X M X M Y M Y D X D Y− − ≤ − − =212 2

12

Se observă că dacă Y = X, atunci: ( )( )[ ]

( )ρ X X

M X M X

D X, =−

=

2

2 1 şi dacă Y = - X,

atunci: ( )( )[ ]

( )ρ X X

M X M X

D X,− =− −

= −

2

2 1,

adică sunt atinse valorile extreme. (iii) Să arătăm că dacă ρ X Y, = ±1, atunci între X şi Y există o relaţie liniară şi reciproc. Să presupunem că Y = aX + b. Atunci ( ) ( )M Y aM X b= + şi:

( )( ) ( )( )[ ]( ) ( )

( )( )[ ]( )

( )( )

ρ X Y

M X M X aX b aM X bD X D aX b

M a X M X

a D X

aD Xa D X

a oaa

,

,,,

=− + − −

+=

−=

= =−⎧

⎨⎪

⎩⎪

<=>

2

2

2

2

101

00

Să presupunem acum că ρ = ±1 şi să notăm:

( )

( )( )

( )XX M X

D XY

Y M YD Y

' , '=−

=−

Se constată că: ( )M X Y xy' ' = = ±ρ 1 şi că:

( )( )( )( )

( )( )( )( )

( )( )M X Y

M X M X

D X

M Y M Y

D YM X Y' ' ' '± =

−+

−±2

2

2

2

2 2

Deci: ( ) ( )M X Y' '± = ± ± =2 2 2 1 0, de unde rezultă că X Y' '± = 0 aproape peste tot pe Ω. De aici obţinem:

Y X' '= ± , adică ( )

( )( )

( )Y M Y

D YX M X

D X−

= ±−

, sau:

( )( )( )

( )( )Y M YD YD X

X M X= ± − ,

ceea ce dovedeşte afirmaţia. Dreptele:

( )

( )( )

( )x M X

D Xy M Y

D Y−

=−

ρ

( )

( )( )

( )y M Y

D Yx M X

D X−

=−

ρ

se numesc drepte de regresie şi trec prin punctul ( ) ( )( )M X M Y, .

9.3. Corelaţie şi dependenţă stohastică

în cazul variabilelor continue Să considerăm vectorul aleator (X,Y), cu densitatea de repartiţie f(x,y). Atunci:

( ) ( ) ( )M Y x y x yf y x dy/ /= =−∞

∞

∫ ,

unde:

( ) ( )( )

( ) ( )f y xf x yf x

f x f x y dy/,

; ,= =−∞

∞

∫1

1

sunt respectiv densitatea de repartiţie condiţionată şi densitatea de repartiţie marginală. Cu acestea mai putem scrie:

( )( )

( )M Y x

yf x y dy

f x y dy/

,

,= −∞

∞

−∞

∞

∫

∫

Analog:

( ) ( )[ ] ( )σ Y x D Y x y M Y x f y x dy/ / / /2 2 2= = −

−∞

∞

∫

şi, de aici, dispersia condiţionată medie:

( ) ( )( )[ ] ( ) ( )σ σY X Y x f x dx y M Y x f y x dy f x dx/ / / /2 21 1= = −

⎛

⎝⎜

⎞

⎠⎟ ⋅ =

−∞

∞

−∞

∞

−∞

∞

∫∫∫

( )[ ] ( )= −−∞

∞

−∞

∞

∫∫ y M Y x f x y dxdy/ ,2

În fine, dispersia mediilor condiţionate este:

( )( ) ( )[ ] ( )σ

y xM Y x M Y f x dx2 2

1= −−∞

∞

∫ /

Să punem în evidenţă o proprietate generală a curbei de regresie şi anume: Propoziţie. Curba de regresie are proprietatea că: ( )( )[ ]M Y M Y x− =/ min2 şi, analog:

( )( )[ ]M X M X y− =/ min2

Demonstraţie. Fie u(x) o curbă oarecare şi să considerăm:

( )( )[ ] ( )( ) ( ) ( )( ) ( ) ( )M Y u x y u x f x y dxdy y u x f y x dy f x dxR

− = − = −⎛

⎝⎜

⎞

⎠⎟

−∞

∞

−∞

∞

∫∫∫∫2 2 21

2

, /

Cum ( )( ) ( )y u x f y x dy−−∞

∞

∫ 2/ reprezintă abaterea pătratică medie de la curba u(x) şi

cum pentru variabila unidimensională avem ( )[ ]σ x M X a2 2≤ − cu egalitate dacă şi numai dacă ( )a M X= , rezultă că ( )( )[ ]M Y u x− =

2 min dacă şi numai dacă ( ) ( )u x M Y x= / .

Exemplul 1. Se consideră vectorul aleator (X,Y) cu densitatea de repartiţie

( )f x ye y daca x x x

in rest,

,=

− ≤ < ∞ ≤ < ∞⎧⎨⎩

00

Să se determine curbele de regresie M(Y/x) şi M(X/y). Soluţie. Conform definiţiei:

( ) ( )M Y x yf y x dx/ /=−∞

∞

∫

Însă:

( ) ( )f x f x y dy e dy ey x

x1 = = =− −

∞

−∞

∞

∫∫ ,

şi de aici:

( )f y xe daca x y

in rest

x y

/ =≤ ≤ < ∞⎧

⎨⎩

−

00

Urmează că:

( ) [ ]M Y x ye dy e ye dy e xe ex y x y x x x

xx

/ = = = +− − − −∞∞

∫∫

Să aflăm curba de regresie a lui X asupra lui Y:

( ) ( )M X y xf x y dx/ /=−∞

∞

∫

Cum:

( ) ( )f y f x y dx e dx ye yy yy

20

0= = = ≥− −

−∞

∞

∫∫ ,

( )f x ye yye

x y y

in rest

y,, ,

,=

−≤ ≤ >

⎧⎨⎪

⎩⎪

− 0 0

0

Atunci:

( )M X yxydx

yy

y

/ ,= = >∫0 2

0

Exemplul 2. Se consideră vectorul aleator (X,Y) repartizat normal bidimensional de

parametri ( )m mx y, şi σ ρσ σ

ρσ σ σx x y

x y y

2

2

⎛

⎝⎜

⎞

⎠⎟.

Să se determine curbele de regresie M(Y/x) şi M(X/y). Soluţie. Vectorul (X,Y), fiind normal bidimensional, are densitatea de repartiţie:

( ) ( )( ) ( )( ) ( )

f x yx m x m y m y m

x y

x

x

x y

x y

y

y, exp=

−−

−

−−

− −+

−⎡

⎣

⎢⎢

⎤

⎦

⎥⎥

⎧

⎨⎪

⎩⎪

⎫

⎬⎪

⎭⎪

12 1

12 1

22 2

2

2

2

2Πσ σ ρ ρ σ

ρσ σ σ

Urmează că densitatea de repartiţie marginală a lui X este:

( ) ( )

( )( ) ( )( ) ( )

f x x y dy

x m x m y m y mdy

x y

x

x

x y

x y

y

y

1

2 2

2

2

2

12 1

12 1

2

= =

=−

−−

⋅−

−− −

+−⎡

⎣

⎢⎢

⎤

⎦

⎥⎥

⎧

⎨⎪

⎩⎪

⎫

⎬⎪

⎭⎪

−∞

∞

−∞

∞

∫

∫

,

expΠσ σ ρ ρ σ

ρσ σ σ

Făcând schimbarea de variabile:

x m

uy m

v dy dvx

x

y

yy

−=

−= =

σ σσ, ,

obţinem:

( )( ) [ ]f x u u u uv v dv

x1 2 2

2 2 2 2 2 212 1

12 1

2=−

−−

− + − +⎧⎨⎩

⎫⎬⎭

=−∞

∞

∫Πσ ρ ρ

ρ ρexp

( ) ( )=−

−−

−⎧⎨⎩

⎫⎬⎭

−

−∞

∞

∫ev u dv

u

x

2

2 11

2 12 2

2

Πσ ρ ρρexp

Dacă punem acum:

v u

z dv dz−

−= = −

ρ

ρρ

11

22, ,

obţinem mai departe:

( )f x ex

x mx

x1

121

2=

−−⎛

⎝⎜

⎞

⎠⎟

σσ

Π

Prin simetrie, avem:

( )f y ey

y my

y

2

121

2=

−−⎛

⎝⎜

⎞

⎠⎟

σσ

Π

De aici:

( ) ( )( ) ( )

( ) ( )( )f x y

f x yf y

x m x m y m

x

x

x

x y

x y/

,exp= =

−−

−⋅

−⎡

⎣⎢⎢

⎧⎨⎪

⎩⎪−

− −+

22 2

2

2

12 1

12 1

2Πσ ρ ρ σ

ρσ σ

( )( )

( )( ) ( )+

−− − ⋅

− ⎤

⎦

⎥⎥

⎫

⎬⎪

⎭⎪=

−−

−⋅

−−

−⎡

⎣⎢

⎤

⎦⎥

⎧⎨⎪

⎩⎪

⎫⎬⎪

⎭⎪

y m y m x m y my

y

y

y x

x

x

y

y

2

22

2

2 2 2

2

11

2 1

12 1σ

ρσ σ ρ ρ σ

ρσΠ

exp

Deci:

( )( ) ( ) ( )f x y x m y m

x xx

x

yy/ exp=

−−

−− − ⋅ −

⎡

⎣⎢

⎤

⎦⎥

⎧⎨⎪

⎩⎪

⎫⎬⎪

⎭⎪

1

2 1

12 12 2 2

2

σ ρ ρ σρσσΠ

Cum avem de a face cu repartiţie normală de parametrii: valoarea medie

( )m y mxx

yy+ −ρ

σσ

şi dispersiei ( )1 2 2− ρ σ x avem ( ) ( )M X y m y mxx

yy/ = + ⋅ −ρ

σσ

( )σ ρ σX y x/2 2 21= −

Prin simetrie avem:

( )( ) ( ) ( )f y x y m x m

y yy

y

xx/ exp=

−−

−− − ⋅ −

⎡

⎣⎢⎤

⎦⎥⎧⎨⎪

⎩⎪

⎫⎬⎪

⎭⎪1

2 1

12 12 2 2

2

σ ρ ρ σρσσΠ

şi:

( ) ( ) ( )M Y x m x myy

xx Y x y/ /= + − = −ρ

σσ

σ ρ σ 2 2 21

Graficul funcţiei M(X/y) (precum şi al funcţiei M(Y/x)) este o dreaptă. Deci, în cazul repartiţiei normale bidimensionale curbele de regresie sunt drepte (dreptele de regresie).

Aceste drepte trec prin punctul ( )P m mx y, , care este numit centrul repartiţiei normale bidimensionale.

9.4. Ecuaţiile de regresie. Coeficienţii de regresie şi corelaţie Am văzut că fiind dat vectorul aleator (X,Y), curbele de regresie a lui Y faţă de X şi al lui X faţă de Y sunt: ( ) ( ) ( ) ( )M Y x y x M X y x y/ ; /= = Să admitem că aceste curbe de regresie sunt drepte: ( ) ( )M Y x y x a bx/ = = + ( ) ( )M X y x y c dy/ = = + luând valoarea medie obţinem: ( )( ) ( )( ) ( )M M Y x M y x a bM X/ = = + , sau m a bmy x= + . Scăzând-o din relaţia ce dă pe ( )y x , obţinem: ( ) ( )y x m b x my x− = − Înmulţind cu x mx− şi luând valoarea medie se obţine: ( )µ σXY xX Y b= =cov , 2, adică:

b X Y

x=µσ

,2

De aici se obţine că coeficientul unghiular al dreptei de regresie a lui Y în raport cu X este coeficientul de regresie pe care-l notăm bY X/ şi care se mai poate exprima:

bY Xy

x/ =

σσ

Cu acestea obţinem ecuaţia dreptei de regresie: ( ) ( )y x m b x my Y X x− = −/ Să vedem care este expresia raportului de corelaţie când avem o regresie liniară. Pentru aceasta, să exprimăm ( )σ

y x2 .

Conform definiţiei:

( )( )( ) ( )[ ]σ σ ρ

σσ

σ ρ σy x y Y X x Y X x

y

xx yM y x m M b X m b2

22 2 2 2 2

2

22 2 2= −⎡

⎣⎤⎦ = − = = =/ /

De aici, rezultă:

( )

ησ

σρY X

y x

y/

22

22= =

sau: η ρY X/ = Dacă regresia lui X faţă de Y este, de asemenea, liniară, se obţin rezultatele simetrice: ( ) ( )x y m b y mx X Y y− = −/

bX YXY

y

x

y/ = =

µσ

ρσσ2

η ρX Y/ =

De aici se obţine: η η ρY X X Y/ /= =

b bX Y Y Xx

y

y

x/ /⋅ = =ρ

σσ

ρσσ

ρ 2 şi ρ = ⋅b bX Y Y X/ /

Relaţiile bX Yx

y/ = ρ

σσ

şi bY Xy

x/ = ρ

σσ

spun că bX Y/ şi bY X/ au acelaşi semn ca şi ρ .

Dacă ρ > 0, ambele drepte de regresie (ce trec prin punctul ( )m mx y, ) formează unghiuri ascuţite cu direcţiile axelor Ox şi Oy respectiv. În acest caz spunem că avem o corelaţie pozitivă, ceea ce înseamnă că dacă o variabilă creşte, creşte şi cealaltă. Pentru ρ = 0, dreapta de regresie a lui Y faţă de X este o paralelă cu Ox, iar ( )x y este paralelă cu Oy. În acest caz, unghiul dintre cele două drepte este de 900. Când ρ creşte, unghiul ascuţit dintre dreptele de regresie descreşte, iar pentru ρ = 1 dreptele coincid.

y m x my

y

x

x

−=

−σ σ

,

în care caz fiecare dintre variabilele aleatoare X şi Y sunt funcţii liniare una de cealaltă. Dacă ρ < 0, adică avem o corelaţie negativă, dreptele de regresie ce trec prin punctul

( )m mx y, formează un unghi obtuz cu direcţiile pozitive ale axelor Ox şi Oy respectiv. Unghiul ascuţit dintre drepte descreşte pe măsură ce ρ → −1 şi în cazul când ρ = −1 ambele drepte coincid.

9.5. Dreapta de regresie ca aproximaţie a curbei de regresie neliniară În cazul unei corelaţii liniare, variabilele X şi Y se exprimă liniar una în funcţie de cealaltă:

Y m X m X m Y mY

Y

X

X

X

X

Y

Y

−=

− −=

−σ

ρσ σ

ρσ

;

Se pot menţine aceste drepte în cazul unei corelaţii strânse, dar arbitrare în sensul pe care-l precizăm mai jos. Să exprimăm variabila Y cu ajutorul unei funcţii liniare de X: ( )Y X y X≅ + =α β $ Pentru a da un sens precis acestei aproximări, vom introduce o măsură a abaterii de la

liniaritate prin ( )( )[ ] ( )( )( )[ ]S M Y X M Y y XY2 2 2= − + = −α β $ şi determinăm parametrii α şi β

astfel încât SY2 să fie minim.

Putem presupune că X şi Y sunt centrate, adică ( ) ( )M X M Y= = 0, ceea ce-i echivalent cu a face transformarea ( ) ( )X X M X Y Y M Y' ; '= − = − . În acest caz, liniaritatea între X şi Y este echivalentă cu liniaritatea lui X’ şi Y’. Atunci: ( )( )[ ] ( )[ ]S M Y X M Y XY

2 2 2 2= − − = − +β α β α (căci ( )M Y X− =β 0)

( ) ( ) ( ) ( )S M Y M XY M XY Y X Y X X Y2 2 2 2 2 2 2 2 2

2 2= − + + = − + = − +β β α σ βρσ σ β σ βσ ρσ ( )+ − +1 2 2 2ρ σ αY

Această expresie este minimă dacă se aleg parametrii α şi β:

α β ρσσ

= = =0, /Y

XY Xb

De aici urmează: ( )$ /y x b XY X= ⋅ care este o dreaptă ce trece prin originea axelor de coordonate ( )P m mX Y, . Luând pentru Y valoarea aproximativă ( )$y x am realizat o descompunere ( )Y y x Y= +$ 0 , unde ( )Y Y y x0 = − $ este abaterea care se înregistrează dacă se scade din Y cea mai bună dreaptă în raport cu X, ca aproximaţie a lui Y. Dispersia acestei abateri este dată de: ( ) ( )SY Y

2 2 21min = −σ ρ Să calculăm corelaţia variabilelor Y şi ( )$y X :

( )( ) ( ) ( )( ) ( ) ( )M Y y X M Y M y X M Yb X b M YX bY X Y X Y X XYY

XX Y Y⋅ − = = = = =$ $ / / / µ ρ

σσ

ρσ σ ρ σ2 2

Cum:

( )σ σ ρσσ

σ ρ σ$ /y X Y X xY

XX Yb2 2 2 2

2

22 2 2= = = ,

rezultă că:

( )

( )( )( )

ρσ σ

ρ σσ ρσ

ρY y X

y X

Y y X

Y

Y Y

M Y, $

$

$

= = =2 2

Să arătăm că variabilele Y0 şi X sunt necorelate. Întrucât M(x) = 0, este suficient să calculăm M(Y0X) şi avem:

( ) ( )( )[ ] ( ) ( )( ) ( )M Y X M Y y X X M XY M y X X b M XXY Y X

XYY

XX

02

2 0

= − = − = − =

= − =

$ $ /µ

µ ρσσ

σ

Să considerăm:

( )( )[ ] ( ) ( ) ( )( )[ ] ( )( )[ ]

( )( ) ( ) ( )( )[ ] ( ) ( )( )[ ]S M Y y X M Y y X y X y X M Y y X

M Y y X y X y X M y X y X

Y0

2 2 2 2

22

= − = − + − = − +

+ − − + −

$ $

$ $

Dar ( )( )[ ]M Y y X Y X− =2 2σ /

( )( ) ( ) ( )( )[ ] ( )( ) ( ) ( )( ) ( )M Y y X y X y X y y X y X y X f x y dxdy− − = − − =ℜ

∫∫$ $ ,2

( ) ( )( ) ( ) ( )( ) ( )= − −⎡

⎣⎢

⎤

⎦⎥ =

ℜℜ

∫∫ y X y X f X y y X f y x dy dx$ /1 0,

căci:

( )( ) ( )y y X f y x dy− =ℜ

∫ / 0

Notând: ( )

( ) ( )( )[ ]δy X

M y X y X2 2= − $

obţinem: ( )SY Y X y X0

2 2 2= +σ δ/ ,

unde σ Y X/2 măsoară gradul de împrăştiere a valorilor variabilei Y în jurul liniei de regresie

( )y x , adică eroarea pe care-o facem când calculăm Y cu ajutorul liniei de regresie.

( )δy X2 măsoară abaterea liniei de regresie ( )y x de la expresia aproximativă ( )$y x .

Să observăm acum că: ( ) ( )S SY Y

202 2 21min = = − ρ σ ,

iar: ( )σ η σY X Y X Y/ /

2 2 21= − Atunci: ( ) ( ) ( )1 12 2 2 2 2− = − +ρ σ η σ δY Y X Y y X/ , iar, de aici:

( )

η ρδ

σY Xy X

Y/

2 2

2

= +⎛

⎝⎜

⎞

⎠⎟

ceea ce ne conduce la: ρ η≤ Y X/ , cu egalitate dacă şi numai dacă ( )δ

y X= 0, adică în cazul când linia de regresie este o dreaptă.

9.6. Estimarea pe baza observaţiilor a coeficienţilor de corelaţie şi regresie,

precum şi a raportului de corelaţie Să determinăm, mai întâi, coeficientul de corelaţie a două însuşiri calitative A, B ale unui fenomen. Dacă punem ( ) ( ) ( ) ( )P A B p P A B p P A B p P A B p∩ = ∩ = ∩ = ∩ =11 12 21 22, , , obţinem următoarea repartiţie a acestor însuşiri calitative:

B B

A p11 p12 p1.

A p21 p22 p2.

p.1 p.2

Ataşăm experimentului care conduce la observarea celor două însuşiri calitative vectorul aleator (X,Y), cu repartiţia:

Y X

1

0

1 p11 p12 p1.

0 p21 p22 p2.

p.1 p.2

Atunci: ( ) ( ) ( )M XY p M X p M Y p= = =11 1 1 . .; ( ) ( )D X p p D Y p p2

1 12 2

1 12= − = −. . . .;

Se obţine acum imediat:

( )( )( )( )

ρ A B

p p p p

p p p p p p p p, =

−

+ + + +

11 22 12 21

11 12 21 22 11 21 12 22

Să presupunem acum că s-au făcut n observaţii asupra fenomenului în care se urmăresc caracteristicile A şi B şi că s-au obţinut rezultatele:

B B

A n11 n12 n11 + n12 n11 + n12 + n21 + n22 = n

A n21 n22 n21 + n22

n11 + n21 n12 + n22

Atunci coeficientul empiric de corelaţie al caracteristicilor A şi B este dat de:

( )( )( )( )

rn n n n

n n n n n n n nA B, =

−

+ + + +

11 22 12 21

11 12 12 22 11 12 21 22

Dacă se consideră vectorul aleator (X,Y) şi n observaţii asupra acestui vector, atunci coeficientul empiric de corelaţie este dat de:

( )( )

rn

n x x y y

s sn

n xyn

n xn

n y

s s

xyyx

x y

xy xx

yyyx

x y=

− −=

−⎛⎝⎜

⎞⎠⎟⎛

⎝⎜

⎞

⎠⎟∑∑ ∑ ∑∑∑1 1 1 1

,

sau încă:

rn n xy n x n y

n n x n x n n y n y

xy xx

yyyx

x xxx

y yyy

=

− ⋅⎛⎝⎜

⎞⎠⎟ ⋅⎛

⎝⎜

⎞

⎠⎟

− ⋅⎛⎝⎜

⎞⎠⎟

⎡

⎣⎢

⎤

⎦⎥ −

⎛

⎝⎜

⎞

⎠⎟

⎡

⎣⎢⎢

⎤

⎦⎥⎥

∑ ∑∑∑

∑∑ ∑∑22

2

2

În mod asemănător se obţine coeficientul empiric de regresie pe care-l vom nota bY X/ :

bss

r

n n y n y

n n x n x

rY Xy

x

y yyy

x xxx

/ = =

−⎛

⎝⎜

⎞

⎠⎟

−⎛⎝⎜

⎞⎠⎟

∑∑

∑∑

2

2

22

şi raportul empiric de corelaţie:

( )

η Y Xy x

y

xyy

xxy

yxx

y yyy

s

s

nn y

nn y

n n y n y/ = =

⎛

⎝⎜

⎞

⎠⎟

−⎛

⎝⎜

⎞

⎠⎟

−⎛

⎝⎜

⎞

⎠⎟

∑∑∑∑

∑∑

2

2

2

2

Din expresia coeficientului empiric de corelaţie se obţine că:

( )r nP

n →∞> ρ

În cazul când cele n observaţii se fac dintr-o populaţie normală bidimensională se poate arăta că:

( ) ( )M rn

≅ − −1

21 2ρ ρ ,

de unde rezultă că ( )M r < ρ , deci că r este o estimaţie negativă deplasată a coeficientului de corelaţie ρ. De asemenea, abaterea medie pătratică a lui r este:

σρ

r n≅

−1 2

Să presupunem că sunt satisfăcute următoarele cerinţe: (1) În cursul observaţiilor se menţine aceeaşi repartiţie. (2) Observaţiile sunt independente (3) Repartiţia populaţiei este normală sau aproximativ normală (4) Numărul n de observaţii este suficient de mare În aceste condiţii:

σσσ

ρb

Y

XY X n/

≅−1 2

Fischer a arătat că variabila aleatoare:

Zrr

=+−

12

11

ln , adică r th Zee

iZ

iZ= =−+

11

urmează aproximativ o lege de repartiţie normală, chiar pentru valori nu prea mari ale volumului de selecţie n, de parametrii M(z) şi D2(z), unde:

( )( )M zn

=+−

+−

12

11 2 1

lnρρ

ρ

( ) ( )D zn

D znz

2 13

13

=−

= =−

; σ

Pentru n mare şi r mic (mai mic decât 0,5) se poate construi un interval de încredere utilizând legea normală, şi anume:

r urn

r urn

−−

< < +−

α αρ1 12 2

unde uα se determină cu nivelul de încredere α prin relaţia: ( )α = ∅2 u Analog se determină un interval de încredere pentru coeficientul de regresie by/x:

b urn

b b urn

Y XY

XY X Y X

Y

X/ / /−

−< < +

−α α

σσ

σσ

1 12 2

9.7. Corelaţie multiplă

În practică apar frecvent situaţii când intervin mai mult de două variabile între care se manifestă o dependenţă stohastică. Studiul unei astfel de dependenţe ridică dificultăţi şi complicaţii. Ne vom opri mai întâi asupra dependenţei stochastice liniare care este mai simplă şi totodată prezintă importanţă practică deosebită. Vom efectua studiul pentru trei variabile aleatoare X1, X2, X3 şi apoi vom prezenta rezultatele în cazul general. Dacă (x1, x2, x3) sunt

rezultatele măsurătorilor pentru vectorul aleator (X1, X2, X3) într-o observaţie şi dacă repetăm măsurătorile de un număr mare de ori, obţinem un nor de puncte din spaţiul euclidian R3. Dacă legătura dintre X1, X2, X3 are un caracter stochastic, atunci ne va interesa în primul rând media fiecărei variabile când celelalte două iau valori fixate. Aşa de exemplu:

( ) ( ) ( )( )

( )M X X x X x x x x x f x x x dx

x f x x x dx

f x x x dx1 2 2 3 3 1 2 3 1 1 1 2 3 1

1 1 2 3 1

1 2 3 1

/ ; , / ,, ,

, ,= = = = = ℜ

ℜ

ℜ

∫

∫∫

În spaţiul euclidian R3 al punctelor (x1, x2, x3) funcţia ( )x x x1 2 3, reprezintă o suprafaţă care poartă numele de suprafaţă de regresie a lui X1 faţă de X2 şi X3. În mod analog se definesc suprafeţele de regresie ( )x x x2 1 3, şi ( )x x x3 1 2, . Corelaţia dintre X1, X2, X3 se zice liniară dacă suprafeţele de regresie sunt plane. Atunci funcţia ( )x x x1 2 3, este liniară în raport cu argumentele: ( )x x x a a x a x1 2 3 10 12 2 13 3, = + + , care este ecuaţia planului de regresie a lui X1 faţă de X2 şi X3. Coeficienţii planelor de regresie se pot exprima cu ajutorul momentelor de ordinul unu şi doi şi covarianţelor variabilelor X1, X2, X3, pe care le vom estima cu datele de selecţie. Ecuaţiile de regresie se utilizează pentru prognozarea valorii variabilei X1 faţă de valorile X2 = x2, X3 = x3 ale celorlalte variabile. Precizia prognozei depinde de intensitatea şi forma legăturii de corelaţie. Considerând cazul unei legături apropiate de cea liniară, vom căuta să descompunem variabila X1 în două componente X X X1 1 1 23= +$

. , unde $X 1 este componentă complet prognozabilă cu ajutorul unei funcţii liniare şi, în plus, cea de a doua componentă X1.23 să aibă dispersie minimă. Va trebui, deci, să determinăm funcţia liniară: ( )$ ,X X X a a X a X1 2 3 10 12 2 13 3= + + , astfel încât X X X1 1 1 23− =$

. să aibă dispersie minimă. Pentru a simplifica expunerea, vom presupune că: ( ) ( ) ( )M X m M X m M X mX X X1 2 31 2 3

0 0 0= = = = = =; ; ceea ce se poate face totdeauna considerând variabilele: X X m ii Xi1 1 2 3' , , ,= − = Atunci: ( ) ( )( ) ( )( )D X D X X M X X2

1 232

1 1 1 1

2

.$ $= − = −

Determinarea minimului: ( ) ( ) ( )( ) ( )[ ]min , , $H a a a M X X M X a a X a X10 12 13 1 1

2

1 10 12 2 13 3

2= − = − − −

revine la rezolvarea sistemului de ecuaţii:

( )− = − − − =12

010

1 10 12 2 13 3

∂∂

Ha

M X a a X a X

( )[ ]− = − − − =12

012

1 10 12 2 13 3 2

∂∂

Ha

M X a a X a X X

( )[ ]− = − − − =12

013

1 10 12 2 13 3 3

∂∂

Ha

M X a a X a X X

Dacă ţinem seama de faptul că ( )M X X j kj K jK j K; = ≠ρ σ σ (şi ρ ρjK Kj= ), sistemul de ecuaţii scris mai jos devine:

m a a m a m

a m a a

a m a a

X X X

X

X

1 2 3

2

3

10 12 13

12 1 2 10 12 22

13 23 2 3

13 1 3 10 12 23 2 3 13 32

0

0

0

− − − =

− − − =

− − − =

ρ σ σ σ ρ σ σ

ρ σ σ ρ σ σ σ

Având în vedere ipoteza făcută m iXi= =0 1 2 3, , , , rezultă că a10 = 0, şi obţinem

sistemul de ecuaţii:

a aa a

12 22

13 23 2 3 12 1 2

12 23 2 3 13 32

13 1 3

σ ρ σ σ ρ σ σ

ρ σ σ σ ρ σ σ

+ =

+ =

Determinantul sistemului este:

( )σ ρ σ σρ σ σ σ

ρ σ σ σ σ22

23 2 3

23 2 3 32 23

222

32

11 22

321= − = ∆ ,

unde am pus ∆11 2321= − ρ din motive pe care le vom explica mai târziu.

Acest determinant este nenul dacă ρ 232 1≠ . Dacă ρ 2 1= , atunci X2 şi X3 se exprimă

liniar una în funcţie de cealaltă şi deci în locul unei dependenţe între trei variabile apare o dependenţă între două variabile. Presupunem deci că ρ 23

2 1≠ . În acest caz:

a1211 2

232

12 1 2 23 2 3

13 1 3 32

1 2 32

11 22

32

12 23

13

1

2

12

11

11

= = = −∆ ∆

∆∆σ σ

ρ σ σ ρ σ σρ σ σ σ

σ σ σσ σ

ρ ρρ

σσ

,

unde am pus:

∆1212 23

1323 31 121

= − = −ρ ρρ

ρ ρ ρ

Analog:

a1311 2

232

22

12 1 2

23 2 3 13 1 3

1

3

13

11

1= = −∆

∆∆σ σ

σ ρ σ σρ σ σ ρ σ σ

σσ

cu:

∆1321

31 3221 32 31

1= = −ρρ ρ

ρ ρ ρ

Se vede acum imediat că ∆11, ∆12, ∆13 sunt complemenţii algebrici ai elementelor primei linii din determinantul:

∆ =1

11

12 13

21 23

31 32

ρ ρρ ρρ ρ

Ecuaţia funcţiei liniare $X 1 se poate scrie acum sub forma:

( )$ ,X X X X X1 2 31

2

12

112

1

3

13

113= − −

σσ

σσ

∆∆

∆∆

,

sau dacă revenim la variabilele necentrate.

( ) ( )$X m X m X mX X X11

2

12

112

1

3

13

1131 2 3

− = − − − −σσ

σσ

∆∆

∆∆

Funcţia liniară ( )$ ,X X X1 2 3 astfel determinată are proprietatea că este cea mai bună estimaţie liniară, pentru valori date ale variabilelor X2 şi X3.

Să arătăm că restul X X X1 23 1 1.$= − este necorelat atât cu X2, cât şi cu X3, adică:

( ) ( )ρ ρX X X X1 23 2 1 23 3 0. ., ,= = Să presupunem iarăşi că variabilele sunt centrate. Atunci:

X X X X X X1 23 1 1 11

2

12

112

1

3

13

113.

$= − = + +σσ

σσ

∆∆

∆∆

şi, de aici:

X X X X X X1 23

1

1 1

1 11

11 1

1

12 2

2

13 3

3

1.$

σ σ σ σ σ=

−= + +

⎛

⎝⎜

⎞

⎠⎟

∆∆ ∆ ∆

Urmează că:

( )MX X1 23

1

1

1 1111 12 12 13 13

11

1.

σ σρ ρ⋅

⎛

⎝⎜

⎞

⎠⎟ = + + =

∆∆ ∆ ∆

∆∆

MX X

M X X X X X1 23

1

2

2 11

11

1 21 2

12

22 2

2 13

1 32 3

1.

σ σ σ σ σ σ σ⋅

⎛

⎝⎜

⎞

⎠⎟ = + +

⎛

⎝⎜

⎞

⎠⎟

⎡

⎣⎢

⎤

⎦⎥ =∆

∆ ∆ ∆

= + +⎛

⎝⎜

⎞

⎠⎟ =

1

11

11

1 212 1 2

12

22

13

2 323 2 3∆

∆ ∆ ∆σ σ

ρ σ σσ σ σ

ρ σ σ

( )= + + =1

011

11 12 12 13 23∆∆ ∆ ∆ρ ρ

căci în paranteză avem dezvoltarea după prima linie a determinantului:

ρ ρρ ρρ ρ

21 23

21 23

31 32

11

10=

Analog:

MX X1 23

1

3

30.

σ σ⋅

⎛

⎝⎜

⎞

⎠⎟ =

Să calculăm dispersia ( )D X21 23.

( ) ( )D X M X M X X X X21 23 1 23

21 232

1 23 11

2

12

112

1

3

13

113. . . .= = = + +

⎛

⎝⎜

⎞

⎠⎟

⎡

⎣⎢

⎤

⎦⎥ =σ

σσ

σσ

∆∆

∆∆

( ) ( ) ( )= + +M X X M X X M X X1 23 11

2

12

111 23 2

1

3

13

111 23 3. . .

σσ

σσ

∆∆

∆∆

Având în vedere rezultatele obţinute mai sus rezultă:

( )σ σ1 232 2

1 2311

12

. .= =D X∆∆

Sau, dezvoltând determinanţii ∆ şi ∆11, obţinem:

σρ ρ ρ ρ ρ ρ

ρσ1 23

2 12 13 23 122

132

232

232 1

21 21. =

+ − − −−

Acest indicator măsoară precizia aproximaţiei liniare a variabilei X1 prin variabilele X2 şi X3. Să calculăm coeficientul de corelaţie al variabilelor X1 şi $X 1 , pe care-l notăm ( )ρ1 23.

( )

( )ρ

σ σ1 231 1

1 1

.$

, $=

M X X

X

Observăm că:

( ) ( )( )M X X M X X X1 1 1 1 1 23 12

1112

11121$

.= − = − = −⎛

⎝⎜

⎞

⎠⎟σ σ σ

∆∆

∆∆

( ) ( )[ ] ( ) ( ) ( )σ $ . . .$ 'X M X M X X M X M X X M X

1

212

1 23

2

12

1 1 23 1 2322= + = + ⋅ +

Deci:

σ σ σ σ σ$X1

212

1112

1112

11122 1 0= − + = −

⎛

⎝⎜

⎞

⎠⎟ >

∆∆

∆∆

∆∆

Urmează că:

( )

( )ρ

σ σ

σ

σ σ1 23

1 1 1112

111

1 2

1

11

1 2

1 1

1

1

1.$

/

/$=

⋅=

−⎛

⎝⎜

⎞

⎠⎟

−⎛

⎝⎜

⎞

⎠⎟

= −⎛

⎝⎜

⎞

⎠⎟

M X X

X X

∆∆

∆∆

∆∆

sau:

( )ρσσ

ρ ρ ρ ρ ρρ1 23

1 232

12

1 2122

132

12 13 23

232

1 2

12

1..

/ /

= −⎛

⎝⎜

⎞

⎠⎟ =

+ −−

⎛

⎝⎜

⎞

⎠⎟

Se constată că ( )0 11 23≤ ≤ρ . Dacă ( )ρ1 23 1. = , atunci σ 1 23

2 0. = , adică X 1 23 0. = , ceea ce înseamnă că X1 coincide cu

( )$ ,X X X2 3 care este o funcţie liniară de variabilele X2 şi X3. Putem să scriem: ( )( )σ σ ρ1 23

212

1 2321. .= −

Dacă considerăm corelaţia dintre X1 şi X2 şi exprimăm liniar pe X1 în funcţie de X2, atunci dispersia restului aproximării conduce la: ( )σ σ ρ1 2 12

21. = − Aproximând pe X1 printr-o funcţie liniară de X2 şi X3, se obţine o aproximare mai bună decât printr-o singură variabilă şi, deci, avem următoarea relaţie între dispersii: σ σ1 23

21 22

. .≤ , care conduce la:

( )1 11 232

122− ≤ −ρ ρ.

şi, deci: ( )ρ ρ12 1 23≤ . şi, analog: ( )ρ ρ13 1 23≤ . , ceea ce este echivalentă cu: ( ) ρ ρ ρ1 23 12 13. max ,≥ De aici rezultă că dacă ( )ρ1 23 0. = , atunci ρ ρ13 12 0= = , ceea ce înseamnă că X1 este necorelată atât cu X2, cât şi cu X3. Dacă X2 şi X3 sunt necorelate, urmează că ρ 23 0= şi, în acest caz, ρ ρ ρ1 23

2122

132

. = + Să vedem în ce caz: ρ ρ1 23 12. =

Să exprimăm diferenţa:

( )

ρ ρρ ρ ρ ρ ρ

ρρ

ρ ρ ρρ1 23

2122 12

2132

12 13 23

232 12

2 13 12 23

2

232

21 1. − =

+ −−

− =−

−

ρ ρ1 232

122

. = este echivalentă cu ρ ρ ρ13 12 23= . În acest caz variabila X3 din relaţia liniară de prognoză a lui X1 este inutilă. Rezultate şi interpretări analoage se obţin când se schimbă rolul variabilelor: ( ) ( )$

. .X m a X m a X m1 1 12 3 2 2 13 2 3 3− = − + − ( ) ( )$

. .X m a X m a X m2 2 21 3 1 1 23 1 3 3− = − + − ( ) ( )$

. .X m a X m a X m3 3 31 2 1 1 32 1 2 2− = − + − cu ( )m M X ii i= =, , , 1 2 3. Corespunzător acestor estimaţii, avem dispersiile:

σ σ1 232

1112

. =∆∆

; σ σ2 132

2222

. =∆∆

; σ σ3 122

3332

. =∆∆

şi coeficienţii de corelaţie:

( )ρσσ1 23

2 1 232

12

111 1.

.= − = −∆∆

; ( )ρσσ2 13

2 2 132

22

221 1.

.= − = −∆∆

;

( )ρσσ3 12

2 3 122

32

331 1.

.= − = −∆∆

, cu ∆11 2321= − ρ , ∆ 22 13

21= − ρ , ∆ 33 1221= − ρ ;

∆ = + −1 2 12 13 23 122

132

232ρ ρ ρ ρ ρ ρ

9.8. Coeficientul de corelaţie parţială Pentru a clarifica cât mai bine intensitatea legăturii stochastice dintre două variabile, în situaţii concrete vom căuta să estimăm această legătură după înlăturarea influenţei tuturor celorlalte variabile legate de variabilele considerate. Indicatorul astfel obţinut măsoară legătura dintre două variabile şi va fi numit coeficient de corelaţie parţială. Să ne menţinem în acelaşi cadru a trei variabile aleatoare X1, X2, X3. Se poate considera că dependenţa stochastică între variabilele X1 şi X2 măsurată prin coeficientul de corelaţie ρ12 depinde într-o anumită măsură de existenţa unei legături atât a variabilei X1, cât şi a variabilei X2 de variabila X3. Pentru a elimina influenţa lui X3 asupra variabilelor X1 şi X2 vom considera abaterile: ( )~ $

. /X X X X X b X1 3 1 1 3 1 1 3 3= − = − ( )~ $

. /X X X X X b X2 3 2 2 3 2 2 3 3= − = − , unde am presupus că variabilele sunt centrate şi unde am notat b b bX X X X1 3 1 3 2 3/ / /;= = b2/3 , care, după cum ştim, au expresiile:

b b1 31

313 2 3

2

323/ /;= =

σσ

ρσσ

ρ

Coeficientul de corelaţie al variabilelor ~.X1 3 şi ~

.X 2 3 poartă numele de coeficient de corelaţie parţială a variabilelor X1 şi X2 în raport cu variabila X3 şi-l vom nota ρ12 3. . Deci, din definiţie (ţinând seama de ipotezele de lucru):

( )

ρσ σ12 3

1 3 2 3

1.3 2 3

.. .

~ ~

~ ~

.

=M X X

X X

Cum:

( ) ( )σ σ ρ σ σ ρ~ ~,.X X1.3 2 31 13

212

2 232

121 1= − = − ,

iar: ( ) ( )[ ] ( ) ( ) ( )M X X M X X b X M X X b M X X M X X~ ~ ~ ~ ~ ~

. . . / . / . .1 3 2 3 1 3 2 2 3 3 1 3 2 2 3 1 3 3 1 3 2= − = − = , întrucât:

( ) ( )[ ] ( ) ( )M X X M X b X X M X X b M X~. / /1 3 3 1 1 3 3 3 1 3 1 3 3

213 1 3

1

313 3

2 0= − = − = − =ρ σ σσσ

ρ σ

Însă:

( ) ( )( ) ( ) ( )M X X M X b X X M X X b M X X~. / /1 3 2 1 1 3 3 2 1 2 1 3 3 2 12 1 2

1

313 23 2 3= − = − = −ρ σ σ

σσ

ρ ρ σ σ

Deci: ( ) ( )M X X~ ~

. .1 3 2 3 1 2 12 13 23= −σ σ ρ ρ ρ şi, de aici:

( )( )

ρρ ρ ρ

ρ ρ12 3

12 13 23

132

2321 1

. =−

− −

Coeficientul de corelaţie parţială ρ12 3. este în general diferit de ρ12 . Aceşti coeficienţi pot avea semne diferite şi, mai mult, unul poate fi nul iar celălalt să fie egal cu unitatea.

Ecuaţiile liniilor de regresie pe baza datelor experimentale Să notăm pentru simplificare variabilelor X1, X2, X3 prin X, Y Z respectiv şi să presupunem că efectuând n observaţii asupra vectorului aleator (X, Y, Z) s-au obţinut rezultatele (xi, yi, zi), i = 1, 2, … , n. Dacă n este suficient de mare atunci parametrii repartiţiei tridimensionale se pot estima cu ajutorul indicatorilor empirici: x y z s s s r r rx y z xy yz zx, , ; , , ; , , , cu expresiile cunoscute. Atunci, regresiile empirice sunt:

( ) ( )$z zss

x xss

y yz

x

z

y− = − − − −

∆∆

∆∆

31

33

32

33

( ) ( )$y yss

x xss

z zy

x

y

z− = − − − −

∆∆

∆∆

21

22

23

22

( ) ( )$x xss

y yss

z zx

y

x

z− = − − − −

∆∆

∆∆

12

11

13

11

∆ = = + − − −1

11

1 2 2 2 2

r rr rr r

r r r r r rxy xz

yx yz

zx zy

xy yz xz xy yz zx

cu: r r r r r rxy yx yz zy xz zx= = =; ; ∆ ∆ ∆11

222

233

21 1 1= − = − = −r r ryz xz xy; ;

( )∆ 313 11 1= − = −+

r rr r r r

xy xz

xyxy yz xz

( )∆ 323 21

1= − = −+

rr r r r r

xz

xy yzxy xz yz

( )∆ 212 11 1= − = −+

r rr r r r

xy xz

zyxz zy xy

Cu acestea, regresiile empirice se scriu:

$z zs

r r rr

x ys

r r rr

y ysz

xz xy yz

xy x

yz xy zx

xy y

−=

−

−⋅

−+

−

−⋅

−1 12 2

$y ys

r r rr

x xs

r r rr

z zsy

xy xz zy

xz x

yz xy xz

xz z

−=

−

−⋅

−+

−

−⋅

−1 12 2

$x xs

r r rr

y ys

r r rr

z zsx

xy yz xz

yz y

xz xy yz

yz z

−=

−

−⋅

−+

−

−⋅

−1 12 2

Coeficienţii empirici de corelaţie generală se obţin astfel:

r r rx yz y xz z xy. . .; ;= − = − = −1 1 111 22 33

∆∆

∆∆

∆∆

,

iar coeficienţii empirici de corelaţie parţială:

( )( )

rr r r

r rxy z

xy xz yz

xz yz

. =−

− −1 12 2

( )( )

rr r r

r rxz y

xz xy yz

xy yz

. =−

− −1 12 2

( )( )

rr r r

r ryz

yz yx zx

xy xz

=−

− −1 12 2

Nu prezintă nici o dificultate acum trecerea la vectorii aleatori (X1, X2, …, Xs), cu s > 3. Să presupunem că vectorul aleator (X1, X2, …, Xs) are densitatea de repartiţie f(x1, x2, …, xs) şi că există momentele mixte care intervin în consideraţiile pe care le facem. Atunci: ( ) ( )M X m x f x x dx dxi i i s= = ∫ ∫... ,..., ...1 3 1

RS

( ) ( )[ ] ( ) ( )Var X M X m x m f x x dx dxi ii i i i i i s s= = = − = −∫∫µ σ 2 2 2

1 1... ,..., ...`RS

( ) ( )( )[ ] ( )( ) ( )cov ... ,..., ... X M X m X m x m x m f x x dx dxi ij i i j j i i j j s s= = − − = − −∫∫µ 1 1R s

Natural, coeficientul de corelaţie al variabilelor Xi şi Xj, i ≠ 1, 2, …, 1 este dat de:

ρ ρµ

µ µX X ijij

ii jji j

i j s, , , ,...,= = ≠ = 1 2

Exprimând densitatea de repartiţie condiţionată:

( ) ( )( )

( )( )f x x x

f x x x

f x x

f x x

f x x x dxss

s s

s

s1 2

1 2

2 2

1

1 2 1

/ ,...,, ,...,

,...,

,...,

, ,...,....

= =∫R

,

definim valoarea medie a variabilei X1 condiţionată de faptul că X2 = x2; X3 = x3; …; Xs = xs ( ) ( ) ( )M X X x X x x f x x x dx x x xs s s s1 2 2 1 1 2 1 1 2/ ,..., / ,..., ,...,= = = =∫

R

În spaţiul euclidian real s – dimensional, ( )x x xs1 2 ,..., reprezintă o hipersuprafaţă pe care o vom numi suprafaţă de regresie a variabilelor X2, X3, …, Xs faţă de X1. Analog se definesc şi celelalte s – 1 suprafeţe de regresie: ( ) ( )x x x x x M X X x X x X x X xi i i s i i i i i s s1 1 1 1 1 1 1 1 1,..., , ,..., / ,..., , ,..,− + − − + += = = = = Dispersia variabilei Xi faţă de regresia variabilelor X2,…, Xs, adică faţă de media condiţionată ( )x x x x xi i i s1 1 1,..., , ,...,− + va fi:

( ) ( )[ ] ( )σ i i i s i i i i i s i i i s ix x x x x x x x x x f x x x x x dx21 1 1 1 1

2

1 1 1,..., , ,..., ,..., , , / ,..., ,...,− + − + − += −∫R

Să considerăm acum mediile condiţionate: ( )m x f x x x x dx dxs s1 34 1 1 2 3 1 2. ... , / ,...,= ∫∫

R 2

( )m x f x x x x dx dxs s2 34 2 1 2 3 1 2. ... , / ,...,= ∫∫R 2 ,

unde ( ) ( )( )f x x x x

f x x x

f x xss

s s1 2 3

1 2

34 3

, / ,...,, ,...,

,...,...

=

Dispersiile variabilelor X1, respectiv X2, condiţionate de variabilele X3, X4,.., Xs sunt date de: ( ) ( )σ 1 34

21 1 34

2

1 2 3 1 2. ... . ... , / ...s s sx m f x x x x dx dx= −∫∫R 2

( ) ( )σ 2 342

2 2 34

2

1 2 3 1 2. ... . ... , / ...s s sx m f x x x x dx dx= −∫∫R 2 ,

iar covarianţa variabilelor X1, X2 condiţionate de X3, X4,…, Xs este dată de expresia: ( )( ) ( )µ12 34 1 1 3 2 2 3 1 2 3 1 2. ... . ... . ... , / ...s s s sx m x m f x x x x dx dx= − −∫∫

R 2 Putem acum să definim coeficientul de corelaţie parţială al variabilelor X1, X2 faţă de variabilele X3,…, Xs prin expresia:

ρµ

σ σ12 3412 34

1 34 2 34. ...

. ...

. ... . ...s

s

s s=

În mod analog se defineşte coeficientul de corelaţie parţială al variabilelor Xi, Xj când celelalte iau valori determinate.

ρµ

σ σij i i j j sij i i j s

i i i j j s j i i j j s. ... , ,..., , ,...

. ... , ,..., ,...

. ... , ... , ... . ... , ,... , ,...1 1 1 1 1

1 1 1 1

1 1 1 1 1 1 1 1 1 1− + − +

− + +

− + − + − + − +

=

i j s≠ = 1 2, , ... Putem acum să definim şi coeficientul multiplu de corelaţie, pe care-l vom nota R1.23…s (coeficientul de corelaţie al variabilei X1 cu toate celelalte variabile). Dacă reluăm notaţia µij pentru momentul centrat al variabilelor aleatoare Xi şi Xj şi notăm:

∆ =

µ µ µµ µ µ

µ µ µ

11 12 1

21 22 2

1 2

...

...... ... ... ...

...

s

s

s s ss

; ∆11

22 23 2

32 33 3

2 3

=

µ µ µµ µ µ

µ µ µ

...

...... ... ... ...

...

s

s

s s ss

,

atunci coeficientul definit prin relaţia:

R s1 2311 11

1. ... = −∆∆µ

se numeşte coeficient multiplu de corelaţie al variabilei X1 în raport cu toate celelalte. Dintre proprietăţile acestui coeficient amintim doar următoarele:

(1) 0 11 2≤ ≤R s. ...

(2) Dacă R s1 2 1. ... = , atunci repartiţia are punctele sale situate aproximativ în acelaşi plan.

9.9. Coeficienţi de corelaţie a rangurilor Calculul coeficientului de corelaţie a două variabile aleatoare X şi Y prin relaţia:

( ) ( ) ( )

( ) ( )ρ X Y

M XY M X M YD X D Y, =

−2 2

presupune că se pot exprima cantitativ valorile variabilelor X şi Y. Deci, atunci când exprimăm coeficientul de corelaţie empiric va trebui ca datele de observaţie să fie măsurate cu precizie, altfel nu vom putea determina acest coeficient de corelaţie. Pot apărea însă adesea situaţii când avem de stabilit intensitatea legăturii între caracteristici calitative. Aşa, de exemplu, la un concurs sportiv se prezintă un număr de concurenţi care vor trebui clasificaţi. Pentru o clasificare cât mai obiectivă se folosesc doi arbitri judecători şi vrem să cunoaştem dacă există o legătură puternică între clasificările date de cei doi arbitri. Un alt exemplu îl poate constitui legătura dintre intensitatea culorii unor fibre textile şi gradul de umiditate al lor pentru un număr dat de loturi. Rezultă clar că nu este vorba de măsurători ce pot fi efectuate cu precizie. Să presupunem că avem o populaţie C în care unităţilor ei notate Ui, 1 ≤ i ≤ n le asociem rangurile lor când le clasificăm după două caracteristici A şi B, conform cu tabelul ce urmează:

Unitatea U1 U2 U3 … Uk … Un-1 Un Rangul Proprietatea A i1 i2 i3 … ik … in-1 in Proprietatea B j1 j2 j3 … jk … jn-1 jn

unde (i1, i2, …, in-1, in) şi (j1, j2, …, jn-1, jn) sunt două permutări ale numerelor 1, 2, …, n din tabelul de n! permutări ale acestor numere. Se pune problema dacă între cele două clasificări există o legătură stochastică şi cât de puternică este această legătură. Vom realiza acest lucru cu ajutorul coeficientului de corelaţie a rangurilor.

Coeficientul de corelaţie a rangurilor al lui Spearman C. Spearman a propus drept măsură a corelaţiei rangurilor coeficientul de corelaţie alcătuit pe baza rangurilor:

R AB

A B=

µσ σ

unde:

( )( )µ AB k A k Bk

n

ni m j m= − −

=∑1

1

mn

i mn

jn

i mn

j mA kk

n

B kk

n

A k A B k Bk

n

k

n

= = = − = −= = ==∑ ∑ ∑∑1 1 1 1

1 1

2 2 2 2 2 2

11; ; ; σ σ

Să efectuăm calculele pentru obţinerea expresiilor µ σ σAB A B A Bm m, , , , 2 2 .

Mai întâi:

( )( )

m mn

n nn n

nn

A B= = + + + − + =+

=+1

1 2 11

21

2...

( ) ( ) ( )( ) ( )σ A k A

k

n

ni m

nn

n n n n n n2 2 2 2 2 2

1

2 2 21 11 2

14

1 2 16

14

112

= − = + + + −+

=+ +

−+

=−

=∑ ...

Analog,

σ B

n22 112

=−

Să calculăm

( )( )µ AB k A k Bk

n

ni m j m= − −

=∑1

1

Pentru aceasta, să considerăm identitatea:

( ) ( )a b a b a bk k k k k kk

n

k

n

k

n

− = + −===∑∑∑ 2 2 2

1112

De aici obţinem:

( ) ( )a b a b a bk k k k k kk

n

k

n

k

n

= + − −⎡⎣⎢

⎤⎦⎥===

∑∑∑ 12

2 2 2

111

Dacă în această egalitate facem:

a in

b jn

k k k k= −+

= −+1

21

2; ,

obţinem:

µ AB k k k k kk

n

k

n

k

n

ni

nj

nn

in

jn

in

= −+⎛

⎝⎜

⎞⎠⎟ −

+⎛⎝⎜

⎞⎠⎟ = −

+⎛⎝⎜

⎞⎠⎟ + −

+⎛⎝⎜

⎞⎠⎟

⎡

⎣⎢

⎤

⎦⎥ − −

+⎛⎝⎜

⎞⎠⎟

⎡⎣⎢

⎧⎨⎩ ===

∑∑∑1 12

12

12

12

12

12

2 2

111-

− −+⎛

⎝⎜

⎞⎠⎟⎤⎦⎥⎫⎬⎭

jn

k

12

2

sau:

( )µ AB k kk

nn nn

i j=−

+−⎛

⎝⎜

⎞

⎠⎟ − −

=∑1

21

121

121

2

2 22

1

Notând: i j d K nk k k− = =, , ,..., 1 2 , obţinem:

µ AB kk

nnn

d=−

−=∑

22

1

112

12

şi, cu aceasta:

( )Rd

n n

kk

n

= −⋅ −

=∑

16

1

2

12

Coeficientul de corelaţie a rangurilor R (al lui Spearman) variază între – 1 şi + 1. Pentru două clasificări de ranguri identice, adică: d i j k nk k k= − = =0 1 2, , ,..., obţinem imediat R = 1. Pentru două clasificări de ranguri perfect inverse, obţinem R = - 1.

Într-adevăr, dacă: i i i i nn n1 2 1 1 2, ,..., , , ,...,− este iar: j j j j n nn n1 2 1 1 2 1, ,..., , , ,..., ,− − este

atunci: d d d dn n1 2 1, ,.., ,− vor fi 1 3 5 3− − − −n n n n n, , ,..., , . Dacă acum n este par, adică n = 2m, atunci:

( )[ ] ( ) ( )( )[ ]d m m mkk

m2

1

22 2 2 2 2 2 2 2 22 1 2 2 1 2 1 2 2 2 4 2

=∑ = + + + − = + + + − + + + =... ... ...

( )( ) ( )( )

( )( )22 2 1 4 1

64 1 2 1

623

2 1 2 1m m m m m m

m m m+ +

−+ +⎡

⎣⎢⎤⎦⎥= + −

Înlocuind în expresia lui R, obţinem:

( ) ( )( )( )R

d

m m m mm m m

kk

n

= −−

= −−

⋅ + − = −=∑

16

2 4 11

62 4 1

23

2 1 2 1 1

2

12 2

Dacă n = 2m + 1, atunci:

( )[ ] ( )( )d m

m m mk

k

m2 2 2 2

1

2 1

2 2 4 24 1 2 1

3= + + + =

+ +

=

+

∑ ...

Deci:

( ) ( )[ ]

( )( )Rm m

mm m= −

+ + −⋅ + + = −1

62 1 2 1 1

43

1 2 1 12

9.10. Reunirea sau comasarea rangurilor În practică apar adesea probleme de ordonare în care este imposibil să distingem situaţia de rang a unui număr de elemente alăturate. În astfel de situaţii este comod să facem media rangurilor şi să asociem acelaşi rang fiecăruia dintre unităţile respective, chiar dacă un astfel de rang este fracţionar. Să analizăm efectul întrunirii a l elemente care ocupă rangurile h + 1, h + 2, …, h + l.

Suma pătratelor rangurilor nereunite este:

( ) ( ) ( ) ( ) ( )( )h h h l lh hl l l l l+ + + + + + = + + + + +1 2 116

1 2 12 2 2 2...

Suma pătratelor rangurilor reunite este:

( ) ( ) ( )l h l lh hl l l l+ +⎡⎣⎢

⎤⎦⎥+ + + + +

12

1 114

12

2 2

Diferenţa lor va fi:

( )( ) ( ) ( )16

1 2 114

11

122 3l l l l l l l+ + − + = −

Prin urmare, dacă se reunesc l ranguri, suma pătratelor se micşorează cu ( )112

3l l− . Pe

de altă parte, media rangurilor rămâne neschimbată, adică n +1

2 şi, deci, dispersia rangurilor

reunite se micşorează cu ( )112

3

nl l− .

Evident, efectul reunirii rangurilor pentru diferite mulţimi de ranguri este aditiv, astfel încât, dacă avem ordonare cu ordonări reunite de câte l l ls1 2, ,..., elemente şi aportul total va fi pentru caracteristica A:

( )L l lA p pp

s

= −=∑ 1

123

1

Rezultă că:

( )1 12

112

112

2

1ni

nn

nLk A

k

n

−+⎛

⎝⎜

⎞⎠⎟ = − −

=∑

şi, analog, pentru caracteristica B:

( )1 12

112

112

2

1nj

nn

nLk B

k

n

−+⎛

⎝⎜

⎞⎠⎟ = − −

=∑ ,

cu LB definit în mod asemănător cu LA. Calculând acum µ AB , obţinem:

( )1 12

12

112

11

21

21

21

2 2

1ni

nj

nn

nd

nL

nLk

k

n

k k A Bk

n

−+⎛

⎝⎜

⎞⎠⎟ −

+⎛⎝⎜

⎞⎠⎟ = − − − −

= =∑ ∑

Urmează, de aici, că în acest caz coeficientul de corelaţie a rangurilor lui Spearman va fi dat de:

( ) ( )

( ) ( )R

n n L L d

n n L n n L

A B kk

n

A B

=− − + −

− −⎡⎣⎢

⎤⎦⎥

− −⎡⎣⎢

⎤⎦⎥

=∑1

616

216

2

2 2

1

3 3

Exemplu Să se stabilească dacă există corelaţie între intensitatea culorii firelor în 10 loturi de materiale destinate industriei textile şi umiditatea lor. Un expert a dispus loturile în următoarea ordine:

Lotul L1 L2 L3 L4 L5 L6 L7 L8 L9 L10 Intensitatea

culorii 3 8 5 4 2 10 1 7 9 6

Umiditatea 1 9 10 2 4 9 3 5 8 6 d 2 -1 -5 2 -2 1 -2 2 1 0 d2 4 1 25 4 4 1 4 4 1 0

dkk

2

1

10

4 1 25 4 4 1 4 4 1 0 48= + + + + + + + + + ==∑

R = −⋅−

=16 48

1000 100 709

.,

Putem trage concluzia că există o legătură între intensitatea culorii şi umiditate şi ea este destul de puternică. Exemplu. La concursul de figuri libere doi arbitri au dispus participanţii în următoarea ordine: Participanţii P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 I. arbitru 1,5 1,5 3 4 6 6 6 8 9,5 9,5 II. arbitru 1 2 4 4 4 6 7 8 9 10 Să se stabilească cât de obiectivă este aprecierea arbitrilor, adică cât de puternică este legătura între aprecierile celor doi arbitri.

Soluţie: Primul arbitru a împărţit primul loc între participanţii P1 şi P2. Rangul lor

reunit este 1 2

21 5

+= ,

Participanţii P5, P6, P7 împart locurile 5, 6, 7. Rangul lor reunit este 5 6 7

36

+ += . La

fel şi pentru celelalte situaţii. Calculăm acum mărimile LA şi LB. Pentru calculul lui LA avem: P1 şi P2 sunt două ranguri reunite, P5, P6, P7 sunt ranguri reunite, P9, P10 iarăşi două ranguri reunite. Astfel:

( ) ( ) ( )

LA =− + − + −

=2 2 3 3 2 2

123

3 3 3

Analog:

LB =−

=3 3

122

3

şi:

( ) ( )

( )[ ] ( )[ ] ( )( )R =

− − + −

− − − −=

− −

− − − −=

10 10 6 3 2 7

10 10 6 6 10 10 6 4

1000 10 12 61000 10 36 1000 10 24

3

3 3

/

/ /

.

= = =918

954 966918

959 980 956

. ,,

Se poate afirma că aprecierile arbitrilor date concurenţilor sunt obiective, căci coeficientul de corelaţie a rangurilor este foarte apropiat de unitate. Repartiţia exactă a coeficientului de corelaţie a rangurilor R al lui Spearman se obţine prin enumerarea celor n! permutări echiprobabile ale rangurilor şi ea este tabelată. În cazul selecţiilor de volum mare, repartiţia lui R este aproximativ normală cu parametrii:

( ) ( )M R D Rn

= =−

01

12,

Aceasta rezultă imediat din următoarele:

( ) ( ) ( )M in

D in

i in

k k k e=+

=−

= −+1

212

1 112

22

; ; cov ,

( ) ( ) ( ) ( )M i j M i M j

nk h k h= =

+14

2

Cu acestea, ( )( )

( )M R

n nn n n

n=

−⋅

+−

+−

=12

11

43

11

02

2

( )( ) ( )D R

n nD a b

n nM a bk k

kk k

k

22

2

22

2 2121

121

=−

⎡

⎣⎢

⎤

⎦⎥

⎛⎝⎜

⎞⎠⎟ =

−

⎡

⎣⎢

⎤

⎦⎥ ⋅

⎛⎝⎜

⎞⎠⎟

⎡

⎣⎢

⎤

⎦⎥∑ ∑

Dacă se ridică la pătrat expresia a bk kk∑ atunci avem de calculat:

( ) ( ) ( )M a b M a M bn

k k k k2 2 2 2

2 21

12= =

−⎛

⎝⎜

⎞

⎠⎟

şi

( ) ( ) ( ) ( ) ( )M a b a b M a a M b b a a b bn

k k l l k l k l k l k l= = = −+⎛

⎝⎜

⎞⎠⎟cov , cov ,

112

2

De aici urmează:

( )( )

( )D Rn n

nn

n nn

n2

2

2 2 2 2121

112

11

121

1=

−

⎛

⎝⎜

⎞

⎠⎟

−⎛

⎝⎜

⎞

⎠⎟ + +

+⎛⎝⎜

⎞⎠⎟

⎡

⎣⎢

⎤

⎦⎥ =

−

Deci, dacă n este suficient de mare, variabila n R−1 urmează o lege normală N(0;1).

9.11. Coeficientul de corelaţie a rangurilor al lui Kendall La deducerea coeficientului R de corelaţie a rangurilor al lui Spearman, s-au luat în considerare n diferenţe dk = ik – jk corespunzătoare celor două şiruri de clasificări. M. G. Kendall a propus să fie luate în considerare toate diferenţele ce le prezintă cele două şiruri de clasificări, acestea fiind calculate ordonând crescător rangurile după o proprietate, de obicei proprietatea A. Ran- gul

Unitatea Ul1 Ul2

Ul3 … Ulk

… Uln

Proprietatea A 1 2 3 … k … n Proprietatea B j1

' j2' j3

' … jk' … jn

' Clasificarea a fost făcută astfel: Unitatea Ul1

avea rangurile ih = 1 şi jh. Am pus această unitate pe poziţia rangului şi, totodată, am notat j jh1

' = şi tot aşa mai departe cu toate celelalte unităţi. Faţă de noua clasificare considerăm diferenţele: j j j j j j j j j j j j2 1 3 1 3 2 4 1 4 2 4 3

' ' ' ' ' ' ' ' ' ' ' '; ; ; ; ; ; ...− − − − − − Avem, aşadar, diferenţele: δ kl k lj j k n l k= − = = −' ' , ,..., ; , ,..., 2 3 1 2 1 Pentru o clasificare identică avem δ kl k l> 0; , cu valorile menţionate, iar pentru clasificarea inversă δ kl < 0. În cazul unui tabel de corelaţie oarecare avem şi diferenţe pozitive şi diferenţe negative. Introducem funcţia: C k n l kkl : δ , , ,..., ; , ,..., ,= = − → −2 3 1 2 1 11 prin relaţia:

( )C klkl

kl

δδδ

=>

− <⎧⎨⎩

1 01 0

şi efectuăm suma:

( )S C kll

k

k

n

==

−

=∑∑ δ

1

1

2

Atunci coeficientul de corelaţie a rangurilor al lui Kendall se defineşte prin:

( )τ ABn

SC

Sn n

= =+2

21

,

unde Cn2 este numărul tuturor diferenţelor posibile.

Coeficientul τ poate fi considerat, într-un anumit sens, ca o corelaţie de tip general, dacă procedăm în felul următor: pentru orice ranguri i şi j referitor la caracteristica A asociem variabila:

ai ji jij =>

− <⎧⎨⎩

1 1

,

iar pentru caracteristica B:

bi ji jij =>

− <⎧⎨⎩

1 1

Atunci:

( )

( ) ( )τ AB

ij iji j

ij ij

a b

a b=∑ ,

,

2 2

şi se constată imediat că se obţine expresia pe care am menţionat-o. Pentru selecţii de volum mare (în practică, n superior lui 8-10), repartiţia statisticii S este aproximativ normală de parametrii:

( ) ( )( )( )

M S D Sn n n

= =− +

01 2 518

2

De aici rezultă că însuşi coeficientul de corelaţie a rangurilor τ AB al lui Kendall pentru n mare are aproximativ repartiţia normală de parametri:

( ) ( ) ( )( )M Dn

n nAB ABτ τ= =++

02 2 59 1

2,

Analizând forma coeficientului τ AB exprimat cu ajutorul variabilelor aij şi bij, precum şi coeficientul de corelaţie parţială, se poate introduce şi coeficientul de corelaţie parţială a rangurilor al lui Kendall şi că acesta verifică relaţia:

( )( )

ττ τ τ

τ τAB C

AB AC BC

AC BC

. =−

− −1 12 2,

întru-totul analoagă cu ρ XY Z. Coeficientul de corelaţie a rangurilor al lui Kendall se utilizează cu succes în detectarea tendinţei monotone într-o serie dinamică. O altă utilizare importantă o constituie estimarea parametrilor cu o anumită semnificaţie. Dacă θ este probabilitatea unei concordanţe, adică probabilitatea: ( )( )[ ]P X X Y Yi j i j− − > =0 θ ,

unde ( )X Xi j, două valori extrase la întâmplare, aranjate în aceeaşi ordine ca şi valorile

( )Y Yi j, asociate.

Ipoteza nulă H0

12

: θ = se testează cu ajutorul statisticii:

( ) ( )$θ τ=−

= +2

112

1C

n n XY ,

unde ( )

C Sn n

= +−⎡

⎣⎢⎤⎦⎥

12

12

Din faptul că ( )[ ] ( )( )M C klδ θ θ θ= + − − = −1 1 1 2 1. rezultă că:

( )( )

( )M Sn n

=−

−1

22 1θ

Deci:

( ) ( )M $θ θ θ= − + =12

2 112

,

ceea ce arată că $θ este un estimator nedeplasat pentru: ( )( )[ ]θ = − − >P X X Y Yi j i j 0

Dispersia exactă a estimatorului $θ depinde de repartiţia vectorului aleator ( )X Y, . M. G. Kendall a arătat că:

( ) ( )( )Dn

2 5 19 1

$θθ θ

=−−

,

care permite construirea unui interval de încredere aproximativ pentru θ .

9.12. Coeficientul de contingenţă al lui Pearson Să considerăm vectorul aleator ( )X Y, , cu repartiţia:

Y X

y1 y2 … yn

x1 P11 P12 … P1n P1* x2 P21 P22 … P2n P2* . . .

xm Pm1 Pm2 … Pmn Pm* P*1 P*2 … P*n

unde am pus ( )P X x Y y pi j ij= = =; , iar pentru repartiţiile marginale:

P P P Pij ij

n

ij ji

m

= =∗=

∗=

∑ ∑1 1

;

Coeficientul ϕ introdus de K. Pearson prin relaţia:

( )( )

( )ϕ 2

2

11

11 1

=− −

− ∗ ∗

∗ ∗==∑∑

m n

P P PP P

ij i j

i jj

n

i

m

măsoară dependenţa dintre variabilele X şi Y. Acest coeficient are unele proprietăţi importante referitoare la dependenţa variabilelor. (1) 0 ≤ ϕ2 ≤ 1 Acest lucru rezultă imediat din faptul:

( )P P P

P PP

P Pij i j

i jj

n

i

mij

i jj

n

i

m−= −

∗ ∗

∗ ∗== ∗ ∗==∑∑ ∑∑

2

11 111

şi

PP

PP

PP

P

P

ij

ij

nij

j

ij

j

ij

iji

m∗= ∗ ∗

=

∑∑

⋅ ≤ = ≤1

1

1'

'

'

'

Deci, dacă m ≤ n, atunci:

( )P P P

P Pm

ij ix j

i jji

−≤ −

∗

∗ ∗∑∑

2

1,

iar dacă n ≤ m, această expresie este:

( )P P P

P Pn

ij ix j

i jji

−≤ −

∗

∗ ∗∑∑

2

1

De aici rezultă afirmaţia: 2) Dacă variabilele aleatoare X şi Y sunt independente, atunci ϕ2 = 0. Afirmaţia este imediată, căci în acest caz: P P Pij i j= ∗ ∗ 3) Dacă între variabilele aleatoare X şi Y există o dependenţă funcţională, atunci ϕ2 = 1. Într-adevăr, în acest caz:

Pi j

P P i jiji j

=≠

= =⎧⎨⎩ ∗ ∗

0, ,

şi totodată m = n. Dar, atunci:

ϕ 22

1

11

11

11

11

1 1 1=−

−⎛

⎝⎜

⎞

⎠⎟ =

−−

⎛

⎝⎜

⎞

⎠⎟ =

−⎛⎝⎜

⎞⎠⎟ −

⎡

⎣⎢⎤

⎦⎥=

∗ ∗ ∗ =∑∑ ∑∑ ∑m

PP P m

PP m

ij

i jji

ij

jji i

m

Proprietatea reciprocă nu are loc şi, deci, din egalitatea cu 1 a coeficientului de contingenţă al lui Pearson nu rezultă că între X şi Y este o dependenţă funcţională.

9.13. Metoda celor mai mici pătrate Să considerăm modelul liniar în care cele n ecuaţii ale modelului sunt de forma: Y X X Xp p= + + + +α α α ε1 1 2 2 ... , unde Y, X1, X2,…, Xp sunt vectori (n,1), α1, α2,…, αp parametri. ε este vectorul rezidual al

modelului. Se pune problema estimării parametrilor α1, α2,…, αp astfel încât ε ii

n2

1=∑ min.

Se numeşte ajustare a modelului, orice soluţie a sistemului de n ecuaţii cu p necunoscute a1,…, ap.

y a x e i ni j ij ij

p

= + ≤ ≤=∑ 1

1

Ecuaţiile pot fi scrise matricial ( ) ( ) ( ) ( )Y Xan n p p n, , , ,1 1 1

= + ε , cu ε ii

n

e e2

1=∑ = '

Ajustarea prin metoda celor mai mici pătrate este cea care dă coeficienţii a1, a2,…, ap

care minimizează eii

n2

1=∑ , unde e y a xi i j ij

i

n

= −=∑

1.

Sintetic, o ajustare se defineşte prin ( ) ( ) ( )Y a X en j j

n nj

p

, , ,1 1 11= +

=∑ sau încă

( ) ( ) ( ) ( )Y Xan n p p n, , , ,1 1 1

= + ε .

Ajustarea prin metoda celor mai mici pătrate este cea care realizează ( )min 'e e eii

n

==∑ 2

1.

Putem pune modelul sub forma: e Y Xa= − , şi atunci:

( ) ( )e e Y Xa Y Xa Y Y Y Xa a X Y a X Xa Y Y a X Y a X Xa' ' ' ' ' ' ' ' ' ' ' ' ' ' '= − − = − − + = − +2 Să aflăm punctele de extrem:

( )∂∂ a

e e' = 0

Cum ( )∂∂ a

e e X Y X Xa' ' '= − +2 2 ,

rezultă condiţia de extrem X Xa X Y' '= . Dacă n ≥ p şi dacă rang X = p, atunci X X' este o matrice de ordinul p şi de rang p şi, deci, este inversabilă. Rezultă: ( )a X X X Y= −' '1 Rămâne să arătăm că extremul atins prin e e' este un minim. Fie ~a o altă soluţie şi ~e vectorul ecarturilor corespunzător. Atunci: ( ) ( ) ( )~ ~ ~ ~e Y X a Y Xa Xa X a e X a a= − − − + − = + − ( )( ) ( )( ) ( ) ( ) ( ) ( )~' ~ ~ ' ~ ' ~ ' ' ~ ' ' ~e e e X a a e X a a e e a a X Y Xa a a X X a a= + − + − = + − − + − −2 Cum ( )X Y Xa Y Xa' − = ⇒ − =0 0, obţinem: ( )( ) ( )( )~' ~ ' ~ ' ~e e e e X a a X a a= + − − − În această egalitate, cel de-al doilea termen este o sumă de pătrate şi, deci, este pozitiv sau nul. Prin urmare: e e e e' ~' ~≤ Observaţie. Dacă n ≥ p şi rang X = p, ajustarea ( )a X X X Y= −' '1 este unică. Relaţia:

Y Xj jj

p

= +=∑α ε

1

se interpretează astfel: variabila endogenă Y este suma vectorială a doi termeni;

α j jj

p

X=∑

1, care aparţine, prin construcţie, subspaţiului liniar generat de variabilele

exogene X X X P1 2, ... ; Vectorul rezidual ε, oarecare în Rn.

Analog, ajustarea Y a X ej jj

p

= +=∑

1 indică faptul că variabila endogenă Y este suma

vectorială dintre elementul a Xj jj

p

=∑

1 din subspaţiul liniar generat de X X X P1 2, ... şi elementul

e ∈ Rn, care este vectorul ecarturilor; (geometric, acest lucru rezultă în figura de mai jos). Rx y e ε Xa Xα Din punct de vedere geometric, metoda celor mai mici pătrate aplicată modelului Y X= +α ε constă în a minimiza distanţa de la elementul Y la subspaţiul Rx generat de

( )X X X p= 1 ,...., . Aşadar, modelul Y X= +α ε defineşte o descompunere a lui Y în doi termeni necunoscuţi X Xα ∈ R şi ε ∈ Rn a cărui lungime ε’ε este apriori slabă. Metoda celor mai mici pătrate propune drept soluţie descompunerea lui Y = Xa + e, care minimizează lungimea lui e, proiectând ortogonal vectorul Y pe RX. Vectorii Xa şi e sunt ortogonali.

Proiecţia ortogonală a lui Y în RX este o transformare liniară a cărei matrice se obţine din: ( )a X X X Y= −' '1 Imediat: ( )Xa X X X X Y Hy= =−' '1 , unde: ( )H X X X X= −' '1 Deci, proiecţia Xa din RX se obţine prin transformarea lui Y cu ajutorul matricei

( )H X X X X= −' '1 . Se verifică imediat că matricea H este simetrică şi idempotentă: H = H’ şi H = H2. Într-adevăr: ( )( ) ( )[ ] ( )H X X X X X X X X X X X X H' ' ' ' ' ' ' ' ' ' '= = = =− − −1 1 1

( )( ) ( )( ) ( )H X X X X X X X X X X X X H2 1 1 1= = =− − −' ' ' ' ' ' Să definim matricea Q = I – H, unde I este matricea unitate de ordinul n: ( )Q I X X X X= − −' '1 Cum H este simetrică şi idempotentă, rezultă: Q I H I H Q' ' '= − = − = ( )( )Q I H I H I H H H I H Q2 2= − − = − − + = − = , adică Q este simetrică şi idempotentă. Pentru orice Z ∈ Rn, Qz este proiecţia lui Z pe un subspaţiu din Rn ortogonal cu RX (complementul ortogonal al lui RX în Rn). Se verifică imediat relaţiile: e Qy= QX = 0 Q Iy Hy y Xa e= − = − = ( )QX X HX X X X X X X X X= − = − = − =−' '1 0 Atunci: ( )e e Qy Qy y Q Qy y Q y' ' ' ' '= = = 2 sau e e y Qy' '= Însă ( )e Qy Q X Qx Q= = + = +α ε α ε ne conduce la: e Q= ε şi, de aici: e e Q' '= ε ε Cazul în care se izolează un termen constant: Adesea în practică intervine cazul în care modelul conţine un termen constant αp. Să notăm cu X0 matricea cu p – 1 coloane corespunzătoare variabilelor exogene X1, X2,…,Xp-1, şi cu α0 vectorul de componente (α1, α2,.., αp-1). Atunci modelul se scrie: Y X u p= + +0 0α α ε (αp termenul constant) Acest model apare ca un caz particular al modelului Y X= +α ε , unde:

( )X X up

= =⎛

⎝⎜

⎞

⎠⎟0

0 | , α

αα

Reluând calculul minimizării sumei pătratelor ecarturilor e e' , vom observa că apare o matrice de ordinul n, de o formă interesantă.

P In

uu= −1

'

Această matrice este o formă particulară a matricei Q definită mai sus, obţinută când

se înlocuieşte X prin u (se observă că ( )u un

' − =1 1).

Ea este o matrice simetrică şi idempotentă care realizează proiecţia oricărui vector din Rn pe subspaţiul ortogonal lui RX. Acest operator de proiecţie joacă un rol fundamental în statistică. Dacă z este un punct oarecare din Rn:

( )Pz zn

u u z= −1

' ,

unde:

1 1n

u zn

x zi' = =∑ media de selecţie.

Deci: Pz z uz z= − = $ vectorul de componente abaterile componentelor Matricea P efectuează, deci, operaţia de centrare în jurul mediei, pe coloane. Aplicată asupra unei matrice X, matricea P efectuează centrarea coloană pe coloana $X PX= .

Valorile a0 şi ap pentru coeficienţii α0 şi αp ai modelului pentru a minimiza expresia e e' vor trebui să anuleze derivatele parţiale de ordinul întâi:

( ) ( )( )

∂∂a

e e u Y X a uap

p' ',

= − − − =2 00 0 1 1

( ) ( )( )

∂∂a

e e X Y X a ua pp0

0 0 01 1

2 0' '

,= − − − =

−

Din prima ecuaţie se obţine:

an

u yn

u X a y a xp k kk

p

= − = −=

−

∑1 10 0

1

1

' '

Dezvoltând cea de-a doua relaţie şi înlocuind ap prin valoarea găsită obţinem:

X Y X X a X un

u Yn

u X a0 0 0 0 0 0 0

1 10' ' ' ' '− − −

⎛⎝⎜

⎞⎠⎟ =

Grupând termenii ce conţin pe a0 se obţine imediat: X PX a X Py0 0 0

' '= Întrucât P P P= =' 2 , ultima relaţie se poate scrie: $ $ $ $' 'X X a X y0 0 0 0= , unde $X PX0 0= şi $Y Py= sunt datele centrate. În final ( )a X X X Y0 0 0

1

0=−$ $ $ $' ' pentru coeficienţii a1, a2,…,ap-1;

a y a xp k kk

p

= −=

−

∑1

1

pentru termenul constant.

Cu alte cuvinte, cei p – 1 coeficienţi ai variabilelor exogene se pot obţine după regula generală, operând însă asupra datelor centrate. Termenul constant se deduce exprimând că mediile observaţiilor satisfac exact ecuaţia de ajustare. y a x a x ap p p= + + +− −1 1 1 1...

Să considerăm elementul de pe linia k şi coloana k’ din matricea $ $'X X0 0 . Acest termen se exprimă:

( )( )x x x xik k ik ki

n

− −=∑ ' '

1

Luând în consideraţie şi coeficientul n, obţinem matricea de covarianţă empirică a variabilelor exogene ale modelului, matrice notată Vxx:

Vn

X Xxx =1

0 0$ $'

În acelaşi mod vom scrie:

Vn

X yxy =1

0'

pentru vectorul celor p – 1 covarianţe între Y şi Xk, K = 1, 2, …, p – 1. Dacă se consideră matricea W de ordinul p a covarianţelor empirice între toate datele modelului, se poate face ipoteza că sunt aranjate ca în figura de mai jos:

( )W

V VV Vp p

xx xy

xy yy,'=

⎛

⎝⎜

⎞

⎠⎟

Atunci coeficienţii de ajustare se calculează uşor cu ajutorul formulelor transformate:

( )a V Vp

xx xy01 1

1

−

−=,

a y a xp = − 0' (termen constant)

Să vedem cum se poate evalua suma pătratelor ecarturilor. Dacă există un termen constant, proprietatea de ortogonalitate implică u e' = 0 şi, deci, e este centrată. Urmează că Pe e= şi în plus Pu = 0. În aceste condiţii: e Pe Py PX a Pua Py PX a y X ap= = − − = − = −0 0 0 0 0 0$ $ Din formula de calcul a lui a0 se obţine: a X y a X X a0 0 0 0 0 0

' ' ' '$ $ $ $= Deci, e e y Y a X X a Y Y a X Y' $ ' $ $ $ $' $ $ $' ' ' '= − = −0 0 0 0 0 0 , care, astfel exprimat, ne conduce la relaţia:

( ) ( )e n Var Y a Y Xi k kk

p

i

n2

1

1

1= −

⎡

⎣⎢⎤

⎦⎥=

−

=∑∑ cov ,

Se poate verifica (pornind de la ~y Xa X a ua p= = +0 0 ) că:

( ) ( ) ( ) ( )Var yn

a X X a Var X a Y X a Y y~ $ $ cov , cov , ~' '= = = =1

0 0 0 0 0 0 0 0

În cazul ajustării cu termen constant, se defineşte coeficientul de corelaţie multiplă prin R dat de:

( )

( ) ( )RY y

Y y2

2

=cov , ~

var var ~

Acest coeficient se mai poate exprima sub următoarele forme:

( )

( ) ( )( )( )

( )( )R

Y yY y

yY

Y X aY

22

0 0= = =cov , ~

var var ~var ~

varcov ,

var

sau:

( )( )R

a X X ay Y

a X Yy y

a Y X

Y

k kk

p

2 0 0 0 0 0 0 1

1

= = = =

−

∑' ' ' '$ $

$ '

$

$ ' $

cov ,

var

Coeficientul R2 capătă un sens prin împărţirea dispersiei totale în dispersie “explicată” şi dispersie “reziduală”. Dispersia explicată: ( ) ( )R Y Var Y2 var ~= Dispersia reziduală: ( ) ( ) ( )1 2− =R Y Var evar Dispersia totală: ( ) ( ) ( )var var ~ varY Y e= + Să mai menţionăm faptul că R2 se poate exprima şi în modul următor:

( )( ) ( )ReY

e

n Y

ii

n

2

2

11 1= − = − =∑var

var var

Din această relaţie rezultă că minimizând eii

n2

1=∑ se maximizează R. Cu alte cuvinte,

ajustarea prin metoda celor mai mici pătrate determină combinaţia liniară de variabile exogene care are o corelaţie maximală cu variabila endogenă Y. Se observă că introducerea în model a unei noi variabile exogene arbitrare, va conduce la micşorarea sumei pătratelor ecarturilor şi prin urmare implică o creştere a coeficientului R.

9.14. Ipotezele Gauss - Markov Până acum ne-am ocupat de rezolvarea unei probleme pur matematice de minimizare. Să presupunem acum că reziduul εi (eroarea) este efectul rezultant al unui mare număr de factori neidentificaţi şi., ca atare, va fi considerat ca o variabilă aleatoare. Considerând acest lucru pentru fiecare din cele n relaţii ale modelului, vom introduce vectorul aleator ε (cu n componente – variabile aleatoare) şi definim Y ca un vector aleator care în scrierea matricială este de forma: Y X= +α ε Asupra variabilelor εi vom face ipoteze apriori cât mai simple posibil şi vom arăta că ajustarea prin metoda celor mai mici pătrate este cea mai bună dintre toate tehnicile de ajustare, pentru identificarea modelului. Vom presupune că ( ) ( )M Di iε ε σ= =0 2 2,

( )cov , , , ,...,ε εi j i j n= ≠ =0 1 2 De aici urmează imediat ipotezele Gauss - Markov ( ) ( ) ( )

( )M Var M I

n nε ε εε σ= = =0 2; '

,

şi echivalent: ( ) ( )M Y X Var Y I= =α σ; 2 Ajustarea prin metoda celor mai mici pătrate proiectează pe Y în Xa pe RX, iar pe ε în e pe subspaţiul ortogonal lui RX (notat R X

¬ ) în Rn. Repartiţia vectorului Y în Rn determină în felul acesta repartiţia lui Xa în RX. Vom căuta să determinăm repartiţia componentelor ak ale vectorului a, care vor estima coeficienţii necunoscuţi αk ai modelului. Să arătăm că în ipotezele Gauss-Markov, estimatorii ak obţinuţi prin metoda celor mai mici pătrate sunt cei mai buni, în sensul următor: orice alt estimator are o repartiţie mai dispersată în jurul valorii αk de estimat. O primă proprietate a estimatorilor ak obţinuţi prin metoda celor mai mici pătrate este că ei au repartiţii centrate în coeficienţii αk.

Într-adevăr: ( ) ( )[ ] ( ) ( )M a M X X X Y X X X M Y= =− −' ' ' '1 1 , adică: ( )M a = α Aşadar vectorul a, estimatorul obţinut prin metoda celor mai mici pătrate a vectorului α a coeficienţilor necunoscuţi este un estimator nedeplasat. De asemenea, matricea de covarianţă a vectorului aleator are expresia: ( ) ( )( )[ ]V a M a a= − −α α ' Cum: ( ) ( ) ( ) ( )a X X X Y X X X X X X X= = + = +− − −' ' ' ' ' '1 1 1α ε α ε , avem: ( )a X X X− = −α ε' '1 şi, de aici:

( ) ( ) ( )[ ] ( ) [ ] ( )V a M X X X X X X X X X M X X X= = ⋅− − − −' ' ' ' ' ' ' '1 1 1 1εε εε Ţinând seama de ipotezele Gauss-Markov obţinem expresia: ( ) ( )V a X X= −σ 2 1' Teoremă (Gauss-Markov). În condiţiile Gauss-Markov, estimatorii ak ai parametrilor αk obţinuţi prin metoda celor mai mici pătrate sunt optimali în sensul că orice alt estimator nedeplasat şi care este o funcţie liniară de Y, are o varianţă mai mare. Demonstraţie. Estimatorul a, obţinut prin metoda celor mai mici pătrate, este funcţia liniară de Y: ( )[ ]a X X X Y= −' '1 Să considerăm un alt estimator: b By= Cum b şi a sunt liniari în Y, putem să scriem: b a CY= + (este suficient să luăm ( )C B X X X= − −' '1 ) Să punem acum condiţia că b este nedeplasat: ( ) ( )M b M a CY= + = α Atunci: α α α+ =CX , oricare ar fi α, implică CX = 0 Dacă evaluăm matricea de covarianţă a estimatorului b, atunci: ( ) ( )( )[ ]V b M b b= − −α α ' Cum

( )( )( ) ( ) ( )b a CY X X X C X X X X X CX X X X C= + = + + = + + + =− − −' ' ' ' ' '1 1 1α ε α α ε ε

( )[ ]= + +−α εX X X C' '1

Deci, ( )[ ]b X X X C− = +−α ε' '1 şi, de aici:

( ) ( ) ( )V b X X CC V a CC= + = +−σ σ σ2 1 2 2' ' ' Din modul cum s-a definit matricea C rezultă că CC' este negativ definită, iar elementele de pe diagonală sunt pozitive sau nule. Aceasta demonstrează teorema.

9.15. Estimarea matricei de covarianţă

Am văzut că var (ak) sunt minime, dar nu le cunoaştem, căci parametrul σ al modelului este în general necunoscut. Atunci, este natural să alegem drept estimator pentru σ2

statistica 1 2

1nei

i

n

=∑ , însă acesta este un estimator deplasat.

Într-adevăr:

( )Mn

e M e eii

n1 2

1=∑⎛

⎝⎜

⎞⎠⎟ = '

Dar: ( ) ( )e e tr e e tr Q' ' '= = ε ε 1 Cum tr(AB) = tr(BA), putem scrie: ( ) ( )e e tr Q tr Q' ' '= =ε ε εε şi, deoarece operatorii, urma şi valoarea medie sunt liniari, putem interverti ordinea operatorilor, ceea ce ne conduce la ( ) ( )[ ] ( )[ ]M e e M tr Q tr QM' ' '= =εε εε . Deci: ( ) ( )M e e tr Q' = σ 2 Urma matricii Q se calculează însă imediat:

( )( ) ( )[ ] ( )[ ]

( )trQ tr I X X X X n tr X X X X n tr X X X X n tr I

n n p p= −

⎡⎣⎢

⎤⎦⎥ = − = − = −

⎛⎝⎜

⎞⎠⎟ =− − −

, ,' ' ' ' ' '1 1 1

= −n p şi de aici rezultă că:

( ) ( )M e e M e n pii

n

' =⎛⎝⎜

⎞⎠⎟ = −

=∑ 2

1

2σ

Acum putem introduce statistica:

sn p i

i

n2 2

1

1=

− =∑ε ,

care este un estimator nedeplasat al parametrului σ2. În final se obţine estimatorul nedeplasat S al matricii de covarianţă, ( )S s X X= −2 1' ( ) ( )( )M S V a= Estimatorii individuali ai dispersiilor coeficienţilor ak sunt daţi de elementele de pe diagonala principală a matricii ( )S s X X= −2 1' . O schemă de estimare a parametrilor prin metoda celor mai mici pătrate, utilizând polinoame ortogonale: Să considerăm problema estimării parametrilor a a am1 2, ,..., din ecuaţia:

( )Y a xk kk

m

==∑ ϕ

1,

care constituie legătura între valorile observate Y şi variabila independentă x ce apare în relaţie prin intermediul funcţiilor ( ) ( ) ( )ϕ ϕ ϕ1 2x x xm, ,..., presupuse cunoscute. Dacă în particular ( ) ( ) ( )ϕ ϕ ϕ1 2

11x x x x xmm= = = −, ,..., , obţinem Y ca un polinom de

gradul m – 1, iar dacă m = 2 obţinem o dependenţă liniară.

1 Am notat tr(A) urma matricii A, adică suma elementelor de pe diagonala principală.

În unele probleme tehnice întâlnim sisteme de funcţii trigonometrice de forma: ( ) ( ) ( )ϕ ϕ ϕk k kx kx x k x x kx= = =cos , cos , sin Vom presupune că valorile observate ale variabilei Y, pentru un anumit sistem de valori x j nj , 1≤ ≤ ale argumentului sunt afectate de erorile ε j j n, 1≤ ≤ , astfel că:

( )Y a x j nj k k j jk

m

= + ≤ ≤=∑ ϕ ε , 1

1

Asupra erorilor ε j facem ipoteza că sunt independente şi că sunt repartizate normal de

parametri ( )M jε = 0.

( )D j nj2 2 1 2ε σ= =, , ,...,

Vom estima parametrii a a am1 2, ,..., minimizând suma pătratelor erorilor.

( ) ( ) ( )S a a a y a xm j k k jk

m

j

n

1 21

2

1, ,..., min= −

⎡⎣⎢

⎤⎦⎥==

∑∑ ϕ

Estimaţiile $ , $ ,..., $a a am1 2 ale parametrilor prin metoda celor mai mici pătrate se obţin rezolvând sistemul de ecuaţii:

( ) ( )− = −⎡⎣⎢

⎤⎦⎥

= ≤ ≤==∑∑1

20 1

11

∂∂

ϕ ϕ

Sa

y a x x i mi

j k k jk

m

j

n

i j ,

Notând pentru simplificare

( ) ( ) ( ) ( )ϕ ϕ ϕ ϕ ϕ ϕi j k j i k k ij

n

x x = ==∑ , ,

1

( ) ( ) ( )y x y yj i j i ij

n

ϕ ϕ ϕ= ==∑ , ,

1

Sistemul de ecuaţii se poate pune sub forma:

( ) ( )a y i mk i k ik

m

ϕ ϕ ϕ, , , ,...,= ==∑ 1 2

1

Soluţia acestui sistem constituie estimaţiile $ , $ ,..., $a a am1 2 . Rezolvarea sistemului se simplifică considerabil dacă sistemul de funcţii ( ) ϕ k x constituie un sistem “ortogonal” pe mulţimea valorilor argumentului x1, x2, …, xn. După cum se ştie, condiţia de ortogonalitate constă în faptul că pentru orice i k≠ ,

( ) ( ) ( )ϕ ϕ ϕ ϕ11

0, k i j k jj

n

x x= ==∑

Dacă funcţiile ϕ k sunt ortogonale, atunci şi ( ) ( )ϕ ϕk k kx C x= vor fi ortogonale, iar dacă ϕ k nu sunt ortogonale, ele se pot ortogonaliza prin procedeul obişnuit. Astfel, considerând sistemul de funcţii ( ) ( ) ( )ϕ ϕ ϕ1 2 11x x x x xm

m= = =+, ,..., , care nu este un sistem ortogonal, se construieşte sistemul ortogonal: ( ) ( ) ( )Ψ Ψ Ψ1 2 1x x xm, ,..., + din aproape în aproape cu:

( )( )( )

( )( )( )

( )ΨΨ

Ψ ΨΨ

Ψ

Ψ ΨΨi

ii

i

i ii

i

x xx

xx

x= − − −−−

−

− −−

−1

11

1 11

11

1 11

,

,...

,

,

( ) ( )i m x x= + = =2 1 11,..., , Ψ ϕ

Aşa, de exemplu:

( )( )( )

( )ΨΨ

Ψ ΨΨ2

1

1 11

1x xx

x xx

nx x

jj

n

= − = − = −=∑,

,

( )( )( )

( )( )( )

( )( )

( )( )Ψ

Ψ

Ψ ΨΨ

Ψ

Ψ ΨΨ3

22

2

2 22

21

1 11

2

2

1

2

1

2

1x xx

xx

x xx x x

x xx x

x

n

j jj

n

jj

n

jj

n

= − − = −−

−− − =

=

=

=∑

∑

∑,

,

,

,

( )= −−

−− −

==

==

=∑∑

∑∑

∑x

x x x

x x xx x

x

n

j jj

n

j

n

j jj

n

j

n

jj

n

2

3 2

11

2

11

2

1

Deci, ( )Ψi x i m, , ,..., = +1 2 1 sunt polinoame de gradul i – 1 cunoscute sub numele de polinoame Cebîşev. Din relaţia scrisă în general se vede imediat că orice putere xi−1 se poate reprezenta sub forma unei combinaţii liniare de funcţiile ( ) ( ) ( )Ψ Ψ Ψ1 2 1 2 1x x x i mi, ,..., , , ,..., = + .

Aceasta ne conduce la faptul că orice combinaţie liniară ( )a xk k jj

n

ϕ=∑

1 se transformă într-o

combinaţie liniară ( )b xk k jj

n

Ψ=∑

1 de funcţii ortogonale Ψk obţinute din ϕ k prin procedeul de

ortogonalizare menţionat. Să presupunem acum că sistemul de funcţii ϕ ϕ ϕ1 2, ,..., m constituie un sistem ortogonal, adică ( )ϕ ϕ1 2 0= ≠, i j . În acest caz, sistemul de ecuaţii:

( ) ( )a y i mk i k ik

m

ϕ ϕ ϕ, , , , ,...,= ==∑

11 2 ,

se poate scrie: ( ) ( )a y i mi i i iϕ ϕ ϕ, , , , ,...,= = 1 2 şi, deci,

( )( )

( )

( )$

,

,, , ,...,a

y y x

xi mi

i

i i

j j jj

n

i jj

n= = ==

=

∑

∑ϕ

ϕ ϕ

ϕ

ϕ

1

2

1

1 2 ,

care ne arată că estimaţiile $ai sunt funcţii liniare de observaţiile y j . Însă y j sunt date de:

( )y a x j nj k k j jk

m

= + ==∑ ϕ ε , , ,..., 1 2

1

Ţinând seama de faptul că ( )ϕk k m1 ≤ ≤ sunt ortogonale, putem scrie:

( )

( )( ) ( )( )

( )( )

( )$,

,

, ,a

x a x x xai

j i jj

n

i i

k k j i jk

m

i i

j i jj

n

i ii= + = +

= = =∑ ∑ ∑ε ϕ

ϕ ϕ

ϕ ϕ

ϕ ϕ

ε ϕ

ϕ ϕ1 1 1

De aici obţinem:

( )

( )$,

a ax

i i

j i jj

n

i ii− = =

=∑ε ϕ

ϕ ϕθ1

Cum ε j sunt variabile aleatoare independente, identic repartizate, normale ( )N 0,σ şi cum θ i sunt combinaţii liniare de ε j , rezultă că şi θ i sunt variabile aleatoare repartizate normal de parametri:

( ) ( ) ( ) ( )M x M i mii i

i jj

n

jθϕ ϕ

ϕ ε= = ==∑1

0 1 21,

, , ,...,

( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( )

( )D M x M x x Mi i

i i

i j j i j i k j kj kj

mi i

i i

2 22

2 2

1

2

2

1θ θ

ϕ ϕϕ ε ϕ ϕ ε ε

σ ϕ ϕ

ϕ ϕ= = +

⎡

⎣⎢

⎤

⎦⎥ =

≠=∑∑

,

,

,,

adică:

( ) ( )D i mii i

22

1 2θσϕ ϕ

= =,

, , ,...,

O proprietate foarte importantă a estimaţiilor $ai dezvoltate după funcţii ortogonale, o constituie faptul că sunt necorelate, iar în cazul când ε j sunt variabile normale, sunt şi independente. Într-adevăr, putem scrie:

( )( ) ( ) ( ) ( ) ( ) ( )ϕ ϕ ϕ ϕ θ θ ε ϕ ϕ ϕ ε εi i k k i k j i hj

n

i j k hj h

j hM M x x x M, , ,,

=⎡

⎣⎢

⎤

⎦⎥ =

=∑ ∑

1

Cum:

( )Mj hj hj hε ε

σ=

≠=

⎧⎨⎩

02

,,

,

rezultă:

( )( ) ( ) ( ) ( )ϕ ϕ ϕ ϕ θ θ σ ϕ ϕi i k k i k i j k jj

n

M x x, , ==∑2

1

Dar ( )ϕ i i m1 ≤ ≤ sunt ortogonale şi, deci, ( )M i kθ θ = 0 dacă i k≠ , ceea ce probează

necorelarea variabilelor $ai şi $ak .

Pentru estimarea dispersiei σ 2 vom folosi suma pătratelor abaterilor ( )ε j j jy Y22

= − Se poate arăta că:

( )sn m n m

y Yy jj

n

j jj

n2 2

1

2

1

1 1=

−=

−−

= =∑ ∑ε ,

în ipotezele pe care le-am formulat, constituie o estimaţie nedeplasată a dispersiei σ 2 .

Variabila n m

sy

−σ 2

2 are o repartiţie ( )χ 2 n m− .

Pentru a construi intervale de încredere pentru coeficienţii ak ne folosim de faptul că variabilele:

( )

( )t

a a

sk k k

y k k

=−$

/ ,ϕ ϕ

sunt variabile aleatoare repartizate Student cu n – m grade de libertate şi, deci, ( )

( )( )( )( )P t tn m

kn mk

− −< =,ε δ

(δ - nivelul de încredere)

ne conduce la intervalul:

( )

( )( )

( )$

,$

,, ,a t

sa a t

sk n m

k y

k k

k k n mk y

k k

− < < +− −δ δϕ ϕ ϕ ϕ

, k = 1, 2, …, m.

Cap 9 Elemente de Teoria Corelatiei Si Regresiei

Documents