Top Banner
Biostatistică - Cursul al V-lea CURSUL AL V-LEA 1. Noţiunea de corelaţie Funcţionarea organismul ca un tot unitar este condiţionată de conlucrarea într-o armonie perfectă a unei miriade de factori, mulţi dintre ei încă necunoscuţi. Legăturile dintre ei sunt de o complexitate ce ne scapă deocamdată în multe cazuri. Cunoaşterea umană, cu toate progresele făcute, a reuşit să dezvăluie ceea ce am putea numi vălul exterior al proceselor complexe din organism. Rămân de studiat corelaţii pe care acum nici nu le bănuim sau pe care le cunoaştem doar superficial şi trebuie să le aprofundăm. Pentru a explica noţiunea de corelaţie, vom exemplifica câteva legături între parametri de macrosistem, adică parametri ce caracterizează organismul în totalitatea lui sau sistemele mai importante din organism. Astfel, ştim cu toţii că există o corelaţie între tensiunea arterială sistolică şi cea diastolică. Ce înseamnă acest fapt? Înseamnă că tendinţa de creştere a tensiunii sistolice, este însoţită de o tendinţă de creştere şi a tensiunii diastolice, iar tendinţa de scădere a primeia este însoţită de o tendinţă de scădere a celei de-a doua. Tot astfel, alte perechi de parametri manifestă o comportare asemănătoare: greutatea şi înălţimea, numărul de eritrocite şi hemoglobina, vitezele de sedimentare a hematiilor la o oră şi la două ore, colesterolemia şi lipemia, etc. Trebuie subliniat că variaţia concomitentă a celor doi parametri se manifestă numai ca tendinţă, nu este o regulă. Pot exista indivizi cu tensiunea sistolică foarte mare şi cea diastolică normală sau invers, indivizi cu tensiunea sistolică normală şi cea diastolică scăzută. Totuşi, majoritatea indivizilor manifestă tendinţa de a avea valori crescute sau scăzute, pentru ambele concomitent. Definiţie: Vom spune că doi parametri care au tendinţa de a creşte sau descreşte simultan sunt direct corelaţi. Aşa cum a fost dată mai sus, noţiunea de corelaţie se referă la tendinţa de creştere sau descreştere simultană a doi parametri indiferent cît de puternică sau de slabă este această tendinţă. Vom vedea mai departe că este nevoie de o cuantificare a tăriei corelaţiei între doi parametri, altfel discuţiile nu pot fi nuanţate şi corelaţia ar fi o noţiune prea puţin utilă. Pe de altă parte, există cazuri în care doi parametri se corelează prin creşterea unuia însoţită de o tendinţă de descreştere a celuilalt. Astfel, creşterea concentraţiei hormonului tiroidian T 4 , este însoţită de o scădere a frecvenţei cardiace. Aceşti doi parametri sunt un exemplu de corelaţie inversă. Definiţie: Vom spune că doi parametri sunt corelaţi invers dacă au tendinţa ca, odată cu creşterea sau descreşterea unuia, celălalt să descrească sau să crească. (au tendinţă inversă de variaţie). Trebuie făcute câteva observaţii care să clarifice cele introduse mai sus şi să evite o folosire abuzivă a termenului de corelaţie: Corelaţiile le vom căuta pentru parametri care pot fi măsuraţi cantitativ şi deci sunt exprimaţi prin numere. Nu vom căuta corelaţii, cel puţin nu în sensul definiţiei de mai sus între parametri calitativi care se exprimă prin simboluri nenumerice, adică care produc date nominale sau ordinale. Tendinţa de corelaţie o putem înţelege în mai multe sensuri dintre care două interesează mai mult domeniul medicinii: Tendinţa unui parametru de a se schimba de la pacient la pacient poate fi însoşită de tendinţa altui parametru de a se schimba în acelaşi sens sau invers Corelaţii în sensul că un parametru variază la acelaşi individ, de exemplu în timp, şi variaţia este însoţită de o variaţie corepunzătoare a altui parametru, la acelaşi pacient 1
13

- Cursul al V-lea CURSUL AL V-LEA - umfcv.ro MG - Cursul V.pdf · Biostatistică - Cursul al V-lea . Figura 7 . Graficul de corelaţie între viteza de sedimentare a hematiilor la

Aug 29, 2019

Download

Documents

duongdien
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: - Cursul al V-lea CURSUL AL V-LEA - umfcv.ro MG - Cursul V.pdf · Biostatistică - Cursul al V-lea . Figura 7 . Graficul de corelaţie între viteza de sedimentare a hematiilor la

Biostatistică - Cursul al V-lea

CURSUL AL V-LEA

1. Noţiunea de corelaţie

Funcţionarea organismul ca un tot unitar este condiţionată de conlucrarea într-o armonie perfectă a unei miriade de factori, mulţi dintre ei încă necunoscuţi. Legăturile dintre ei sunt de o complexitate ce ne scapă deocamdată în multe cazuri. Cunoaşterea umană, cu toate progresele făcute, a reuşit să dezvăluie ceea ce am putea numi vălul exterior al proceselor complexe din organism. Rămân de studiat corelaţii pe care acum nici nu le bănuim sau pe care le cunoaştem doar superficial şi trebuie să le aprofundăm.

Pentru a explica noţiunea de corelaţie, vom exemplifica câteva legături între parametri de macrosistem, adică parametri ce caracterizează organismul în totalitatea lui sau sistemele mai importante din organism. Astfel, ştim cu toţii că există o corelaţie între tensiunea arterială sistolică şi cea diastolică. Ce înseamnă acest fapt? Înseamnă că tendinţa de creştere a tensiunii sistolice, este însoţită de o tendinţă de creştere şi a tensiunii diastolice, iar tendinţa de scădere a primeia este însoţită de o tendinţă de scădere a celei de-a doua.

Tot astfel, alte perechi de parametri manifestă o comportare asemănătoare: greutatea şi înălţimea, numărul de eritrocite şi hemoglobina, vitezele de sedimentare a hematiilor la o oră şi la două ore, colesterolemia şi lipemia, etc. Trebuie subliniat că variaţia concomitentă a celor doi parametri se manifestă numai ca tendinţă, nu este o regulă. Pot exista indivizi cu tensiunea sistolică foarte mare şi cea diastolică normală sau invers, indivizi cu tensiunea sistolică normală şi cea diastolică scăzută. Totuşi, majoritatea indivizilor manifestă tendinţa de a avea valori crescute sau scăzute, pentru ambele concomitent.

Definiţie:

Vom spune că doi parametri care au tendinţa de a creşte sau descreşte simultan sunt direct corelaţi.

Aşa cum a fost dată mai sus, noţiunea de corelaţie se referă la tendinţa de creştere sau descreştere simultană a doi parametri indiferent cît de puternică sau de slabă este această tendinţă. Vom vedea mai departe că este nevoie de o cuantificare a tăriei corelaţiei între doi parametri, altfel discuţiile nu pot fi nuanţate şi corelaţia ar fi o noţiune prea puţin utilă.

Pe de altă parte, există cazuri în care doi parametri se corelează prin creşterea unuia însoţită de o tendinţă de descreştere a celuilalt. Astfel, creşterea concentraţiei hormonului tiroidian T4, este însoţită de o scădere a frecvenţei cardiace. Aceşti doi parametri sunt un exemplu de corelaţie inversă.

Definiţie:

Vom spune că doi parametri sunt corelaţi invers dacă au tendinţa ca, odată cu creşterea sau descreşterea unuia, celălalt să descrească sau să crească. (au tendinţă inversă de variaţie).

Trebuie făcute câteva observaţii care să clarifice cele introduse mai sus şi să evite o folosire abuzivă a termenului de corelaţie:

• Corelaţiile le vom căuta pentru parametri care pot fi măsuraţi cantitativ şi deci sunt exprimaţi prin numere.

• Nu vom căuta corelaţii, cel puţin nu în sensul definiţiei de mai sus între parametri calitativi care se exprimă prin simboluri nenumerice, adică care produc date nominale sau ordinale.

Tendinţa de corelaţie o putem înţelege în mai multe sensuri dintre care două interesează mai mult domeniul medicinii:

• Tendinţa unui parametru de a se schimba de la pacient la pacient poate fi însoşită de tendinţa altui parametru de a se schimba în acelaşi sens sau invers

• Corelaţii în sensul că un parametru variază la acelaşi individ, de exemplu în timp, şi variaţia este însoţită de o variaţie corepunzătoare a altui parametru, la acelaşi pacient

1

Page 2: - Cursul al V-lea CURSUL AL V-LEA - umfcv.ro MG - Cursul V.pdf · Biostatistică - Cursul al V-lea . Figura 7 . Graficul de corelaţie între viteza de sedimentare a hematiilor la

Biostatistică - Cursul al V-lea

2 Graficul Scatter (Graficul punctual, Graficul de corelaţie)

Este un grafic care:

• Reprezintă valorile a doi parametri măsuraţi la mai mulţi pacienţi

• Reprezintă fiecare pacient printr-un punct

• Pe abscisă (orizontală) este reprezentat unul din parametri

• Pe ordonată (verticală) este reprezentat celălalt parametru, la acelaşi pacient

Acest grafic este extrem de util în statistică, furnizând o informaţie bogată, deoarece nu pierde din informaţie ca histograma. În figurile 1 – 4 sunt redate câteva grafice de acest tip întâlnite în practică.

Figura 1 Graficul de corelaţie între greutatea şi înălţimea a 1042 de pacienţi cu diferite afecţiuni

Figura 2 Graficul de corelaţie între tensiunea sistolică şi diastolică a 593 de pacienţi cu diferite afecţiuni

2

Page 3: - Cursul al V-lea CURSUL AL V-LEA - umfcv.ro MG - Cursul V.pdf · Biostatistică - Cursul al V-lea . Figura 7 . Graficul de corelaţie între viteza de sedimentare a hematiilor la

Biostatistică - Cursul al V-lea

Figura 3 Graficul de corelaţie între greutate şi bilirubina totală la 287 de pacienţi cu diferite afecţiuni

Figura 4 Graficul de corelaţie între IgA şi IgG la 605 de pacienţi cu diferite afecţiuni

Graficul Scatter (XY) se foloseste pentru a evalua, vizual, corelatia dintre doi parametri. Exemple de situaţii în care avem corelaţie între doi parametri sunt redate în figurile 5, 6 şi 7.

În figura 5, sunt reprezentate valorile bilirubinei totale şi ale bilirubinei directe la 521 de pacienţi cu ciroze hepatice şi cancer hepatic. Se observă o corelaţie extrem de puternică, din forma norului de puncte care este extrem de alungit şi subţire.

3

Page 4: - Cursul al V-lea CURSUL AL V-LEA - umfcv.ro MG - Cursul V.pdf · Biostatistică - Cursul al V-lea . Figura 7 . Graficul de corelaţie între viteza de sedimentare a hematiilor la

Biostatistică - Cursul al V-lea

Figura 5 Valorile bilirubinei totale şi ale bilirubinei directe la 521 de pacienţi cu ciroze hepatice şi cancer hepatic. Se observă o corelaţie extrem de puternică, din forma norului de puncte care este extrem de alungit şi subţire

În figura 6, sunt reprezentate valorile pentru hormonul tiroidian T4 şi cele ale hormonului T3, la 9 pacienţi cu hipertiroidie şi 9 pacienţi hipotiroidie. Valorile sunt puternic corelate, fapt care se observă din forma norului dublu de puncte care se aliniază de-a lungul unei linii aproape drepte.

Faptul că norul este întrerupt nu are o relevanţă prea mare în acest caz, dar de multe ori are o importanţă mare. La mijlocul norului de puncte lipsesc de fapt valorile normale. Pacienţii pentru care s-au făcut măsurătorile, având diferite forme de tiroidii, valorile pentru cei doi hormoni sunt extreme.

Corelatia hormonilor T3 si T4 la pacientii cu diferite forme de tiroidism

0

50

100

150

200

250

300

350

0 5 10 15 20 25 30

Hormonul T4

Hor

mon

ul T

3

Figura 6 Valorile pentru hormonul tiroidian T4 şi cele ale hormonului T3, la 9 pacienţi cu hipertiroidie şi 9 pacienţi hipotiroidie. Valorile sunt puternic corelate, fapt care se observă din forma norului dublu de puncte care se aliniază

de-a lungul unei linii aproape drepte.

În figura 7 este dat un alt exemplu de pereche de parametri care se corelează puternic: VSH la o oră şi VSH la două ore. Norul foarte alungit şi subţire, arată tendinţa de corelaţie. Cele câteva puncte care sunt mult în afar norului, trădează erori de introducere a datelor. Acest exemplu ne spune şi că unele din valorile aberante pot fi observate pe graficul de corelaţie.

4

Page 5: - Cursul al V-lea CURSUL AL V-LEA - umfcv.ro MG - Cursul V.pdf · Biostatistică - Cursul al V-lea . Figura 7 . Graficul de corelaţie între viteza de sedimentare a hematiilor la

Biostatistică - Cursul al V-lea

Figura 7 Graficul de corelaţie între viteza de sedimentare a hematiilor la o oră şi la două ore la 292 de

pacienţi cu diferite afecţiuni. Norul foarte alungit şi subţire, arată tendinţa de corelaţie

În figura 8 se observă că între valorile sodiului seric şi potasiului seric ale pacienţilor cu afecţiuni hepato-renale nu există nici o corelaţie, deoarece datele sunt distribuite aproximativ întâmplător. Nu se poate observa o tendinţă clară ca punctele graficului să fie aşezate într-un fel anume, în afară de tendinţa naturală ca densitatea să fie mai mare în mijloc, tendinţă care se poate observa în general, la majoritatea datelor în medicină şi biologie şi nu numai. Pe de altă parte, tendinţa punctelor de a se aşeza într-un singur nor, arată omogenitatea seriei de valori.

Corelatia intre sodiul si potasiul seric la pacientii cu afectiuni hepato-renale

3.0

3.5

4.0

4.5

5.0

120 125 130 135 140 145 150

Na seric

K s

eric

Figura 8 Valorile sodiului seric şi potasiului seric la 235 de pacienţi cu afecţiuni hepato-renale. Nu există corelaţie,

deoarece punctele norului sunt distribuite întâmplător.

În ce priveşte graficul punctual (SCATTER), se vor urmări totdeauna trei tipuri diferite de informaţie pe care acesta ni le poate oferi: dacă cele două serii de valori sunt corelate (Corelaţia). dacă eşantionul pe care s-au făcut măsurătorile este omogen sau este eterogen (Omogenitatea). anumite informaţii despre simetria distribuţiei celor două serii de valori (Simetria).

Exemple:

În graficul din figura 8 se observă că între valorile sodiului seric şi potasiului seric ale pacienţilor cu afecţiuni hepato-renale nu există nici o corelaţie, deoarece datele sunt distribuite aproximativ întâmplător. Nu se poate observa o tendinţă clară ca punctele graficului să fie aşezate într-un fel anume, în afară de tendinţa naturală ca densitatea să fie mai mare în mijloc, tendinţă care se poate observa în general, la majoritatea

5

Page 6: - Cursul al V-lea CURSUL AL V-LEA - umfcv.ro MG - Cursul V.pdf · Biostatistică - Cursul al V-lea . Figura 7 . Graficul de corelaţie între viteza de sedimentare a hematiilor la

Biostatistică - Cursul al V-lea datelor în medicină şi biologie şi nu numai. Pe de altă parte, tendinţa punctelor de a se aşeza într-un singur nor, arată omogenitatea seriei de valori.

În graficul din figura 5, se observă că între valorile bilirubinei totale şi bilirubinei directe ale pacienţilor cu ciroze şi cancere hepatice există o corelaţie puternică, deoarece datele sunt distribuite aproximativ de-a lungul unei linii drepte. De asemeni, eşantionul este omogen, ca şi în cazul graficului 1, lucru care se observă din faptul că norul de puncte nu are tendinţa de a se divide în doi nori diferiţi.

Pe de altă parte se vede că norul este mult mai dens în stânga jos. Deci, valorile din seria bilirubinei totale (orizontală), sunt distribuite asimetric (valori mai multe în stânga = asimetrie dreapta). La fel, valorile din seria bilirubinei directe (verticală), sunt mai dense jos, la valori mici, deci sunt distribuite tot asimetric (asimetrie dreapta).

În figura 6, se observă că între valorile hormonilor tiroidieni T4 şi T3 ale pacienţilor cu diferite forme de tiroidism există o corelaţie datele fiind distribuite tot de-a lungul unei linii, chiar dacă este discontinuă. De asemeni, se observă că distribuţia lor este grupată: o grupă cu valori mici pentru cei doi hormoni indicând hipotiroidienii şi o grupă cu valori mari pentru cei doi hormoni indicând hipertiroidienii, adică o tendinţă clară de separare în doi nori diferiţi. Spunem în acest caz că eşantionul este eterogen sau neomogen.

La fiecare grafic de acest tip este bine să fie urmărite cele trei tipuri de informaţie pe care poate să ni le ofere (Corelaţie, Omogenitate şi Simetrie). Unele ne dau o informaţie mai utilă privind corelaţia, altele ne informează mai bine în ce priveşte omogenitatea sau simetria, deci nu totdeauna se pot obţine dintr-un singur grafic toate cele trei tipuri de informaţie la fel de uşor. Aprecierile sunt totdeauna subiective şi depind de deprinderile pe care utilizatorul şi le-a format lucrând cu cât mai muote şi mai variate exemple.

3. Coeficientul de corelaţie PEARSON

Este evident că o exprimare a tendinţei de corelaţie astfel încât să surprindem tăria corelaţiei este foarte utilă. De-a lungul timpului au fost propuse mai multe metode de măsurare a tendinţei de corelaţie, dintre ele cele mai utile s-au dovedit acelea care propun coeficienţi ce ţin cont de toate valorile pe care le avem la dispoziţie.

Coeficientul de corelaţie PEARSON este de departe cel mai utilizat în exprimarea tăriei corelaţiei între doi parametri numerici.

Anume, fie nxxxX ,......., 21÷ şi nyyyY ,......., 21÷ , valorile măsurate pentru cei doi parametri şi fie YX , , mediile de eşantionare respective. Atunci coeficientul de corelaţiile al parametrilor exprimaţi de seriile statistice X şi Y va fi:

( ) ( )

( ) ( )∑∑

==

=

−⋅−

−⋅−=

n

ii

n

ii

n

iii

YyXx

YyXxr

1

2

1

2

1

Această formulă, care la prima vedere pare foarte complicată, ne oferă în realitate într-un mod relativ simplu, o valoare numerică care, se va vedea mai jos, apreciază foarte obiectiv situaţia de fapt în ceea ce priveşte corelaţia.

Pentru a înţelege cum funcţionează formula de mai sus să luăm un exemplu: tensiunile arteriale sistolică şi diastolică măsurate la 10 pacienţi sunt următoarele:

• Tensiunea sistolică TMAX: 170, 160, 160, 150, 150, 170, 160, 180, 150, 150.

• Tensiunea diastolică TMIN: 85, 80, 80, 75, 80,, 85, 80, 85, 75, 75

Se observă că pentru calculul lui r avem nevoie de mediile celor două serii statistice, X şi Y , şi pentru fiecare pacient în parte de diferenţele Xxi − şi Yyi − , care pentru numărător trebuie înmulţite între ele, iar pentru numitor trebuie ridicate la pătrat şi apoi sumate pentru toţi pacienţii. Deoarece valorile au fost alese special ca să se uşureze calculele, se observă că mediile pentru TAMAX şi TAMIN sunt X =160 şi Y =80.

6

Page 7: - Cursul al V-lea CURSUL AL V-LEA - umfcv.ro MG - Cursul V.pdf · Biostatistică - Cursul al V-lea . Figura 7 . Graficul de corelaţie între viteza de sedimentare a hematiilor la

Biostatistică - Cursul al V-lea Este bine ca toate calculele necesare pentru găsirea lui r să fie organizate într-un tabel aşa cum se vede în tabelul 9.1:

Tabelul 9.1 Calculul coeficientului de corelaţie Pearson

ix 170, 160, 160, 150, 150, 170, 160, 180, 150, 150 Valorile pentru TAMAX

iy 85, 80, 80, 75, 80,, 85, 80, 85, 75, 75 Valorile pentru TAMIN

Xxi − ( X =160) 10 0 0 -10 -10 10 0 20 -10 -10 Diferenţele pentru TAMAX

Yyi − (Y =80) 5 0 0 -5 0 5 0 5 -5 -5 Diferenţele pentru TAMIN

( ) ( )YyXx ii −⋅− 50 0 0 50 0 50 0 100 50 50

( ) ( )∑=

−⋅−10

1iii YyXx =350

( )2Xxi − 100 0 0 100 100 100 0 400 100 100

( )210

1∑=

−i

i Xx =1000

( )2Yyi − 25 0 0 25 0 25 0 25 25 25

( )∑=

−10

1

2

ii Yy =150

Calculul lui r este:

%37,909037,029,387

3508729,3100

350

1000015

350

1501000

350===

⋅=

⋅=

⋅=r

Trecând peste faptul că de obicei calculele sunt puţin mai dificile din cauza unor zecimale care apar inerent la calculul mediilor şi deci al diferenţelor, să căutăm să vedem ce se poate întâmpla în diverse situaţii ce pot apare în legătură cu valorile luate de cei doi parametri. În primul rând să observăm că la numărător, în cazul nostru, numărul 350 a fost obţinut prin adunarea unor numere pozitive şi anume 5x50+100. Dar observăm că valoarea 50 obţinută pentru al patrulea pacient (ca şi la al nouălea şi al zecelea, de altfel) s-au înmulţit două numere negative, pe când la celelalte valori diferite de 0, la pacienţii 1, 6 şi 8, numerele au fost obţinute prin înmulţirea unor numere pozitive. Acest lucru nu este nici pe de parte lipsit de importanţă, ci din contră, este ceea ce caracterizează situaţia prezentată în mod fundamental.

Să facem următoarele observaţii referitoare la cazul prezentat:

• Pacienţii 4,9 şi 10 au şi valori TAMAX şi TAMIN sub media celor 10 pacienţi. Deci diferenţele Xxi − şi Yyi − sunt ambele negative iar produsul lor, cel care se adună la numărător este pozitiv

• Pacienţii 1,6 şi 8 au şi valori TAMAX şi TAMIN peste media celor 10 pacienţi. Deci diferenţele Xxi − şi Yyi − sunt ambele pozitive iar produsul lor, cel care se adună la numărător este pozitiv

• Pacienţii 2, 3, 5 şi 7 au valori TAMAX sau TAMIN egale cu media celor 10 pacienţi. Deci, dintre diferenţele Xxi − şi Yyi − cel puţin una este 0 iar produsul lor, cel care se adună la numărător este 0.

Ceea ce am precizat în rândurile de mai sus este caracteristic pentru situaţiile în care cei doi parametri se corelează: cei doi parametri iau valori preponderent în acelaşi sens, adică ori ambii sub medie, ori ambii peste medie.

Din cauza tendinţei a doi parametri care se corelează direct, ca atunci când unul este crescut, să fie şi celălalt crescut, vom fi pentru majoritatea pacienţilor în situaţii ca mai sus şi produsele care se adună la numărător sunt preponderent pozitive. În acest caz, suma de la numărător tinde să aibă valori pozitive crescute. Evident, corelaţia dintre parametri este doar o tendinţă şi este probabil să întâlnim pacienţi care, deşi au unul din parametri crescut, de exemplu peste medie, celălalt poate să nu fie crescut, chiar să fie sub medie, caz în care

7

Page 8: - Cursul al V-lea CURSUL AL V-LEA - umfcv.ro MG - Cursul V.pdf · Biostatistică - Cursul al V-lea . Figura 7 . Graficul de corelaţie între viteza de sedimentare a hematiilor la

Biostatistică - Cursul al V-lea

produsul ( ) ( )YyXx ii −⋅− corespunzător lui va fi negativ. Dar acest fenomen nu este o tendinţă dacă parametrii sunt corelaţi ci mai curând accident. Suma obţinută la numărător va avea tendinţa de a lua valori mari şi pozitive în ciuda unor astfel de accidente.

Dacă cei doi parametri sunt corelaţi invers, adică tendinţa unuia de a avea valori crescute este însoţită de tendinţa celuilalt de a avea valori scăzute, în acest caz, predominante vor fi situaţiile în care în produsul ( ) ( )YyXx ii −⋅− , ia des valori negative. Într-adevăr, dacă un parametru are valori sub medie şi celălalt peste medie, o paranteză va fi pozitivă şi una negativă. Dacă acest fapt este o tendinţă, parantezele de la numărător vor fi cele mai multe negative. Suma obţinută la numărător va avea tendinţa de a lua valori mari şi negative.

Dacă cei doi parametri nu sunt corelaţi, parantezele de la numărător vor avea semne aleatorii, vor fi unele produse ( ) ( )YyXx ii −⋅− pozitive şi unele negative. Tendinţa va fi ca cele negative şi cele pozitive să se anuleze unele pe altele. Suma obţinută la numărător va avea tendinţa de a lua valori mici, pozitive sau negative.

Nu am discutat nimic despre numitorul coeficientului r, deoarece el are totdeauna semnul +, iar rolul lui este numai de a face ca r să fie cuprins între -1 şi +1. Magnitudinea lui r, precum şi semnul său, sunt dictate de suma de la numărător. Aşadar, orice valori ar lua cei doi parametri, prin calculul lui r, obţinem un număr real cuprins în intervalul de numere reale [-1, 1].

Interpretarea coeficientului de corelaţie Pearson se face în termeni extrem de subiectivi şi imprecis astfel: • Valori foarte apropiate de 1 arată o foarte puternică corelaţie directă • Valori în jurul a 0,7 – 0,9 arată o corelaţie puternică • Valori între 0,4 – 0,7 arată corelaţie • Valori între 0,15 – 0,4 arată corelaţie slabă • Valori sub 0,15 arată lipsă de corelaţie

La fel, pentru valori negative pentru anticorelaţie (corelaţie inversă).

4. Noţiunea de dreaptă de regresie

Dacă doi parametri sunt suficient de puternic corelaţi, atunci cunoscând valoarea unuia dintre ei, celălalt nu ia valori absolut aleatorii ci valoarea pe care acesta o poate lua este într-o legătură mai puternică sau mai slabă cu valoarea primului, în funcţie de cât de puternic este coeficientul de corelaţie între cei doi parametri.

Să privim puţin mai atent pe un grafic (vezi figura 6), ce se întâmplă în cazul unei corelaţii puternice. Anume, să reprezentăm pe orizontală valorile latenţei undei P100 pentru ochiul drept (LD), iar pe verticală valorile latenţei undei P100 pentru ochiul stâng (LS), la 913 de pacienţi, măsurate în milisecunde.

Figura 6 Corelaţia valorilor latenţei undei P100 pentru ochiul drept (verticală) şi valorile latenţei undei P100 pentru

ochiul stâng (orizontală), la 913 de pacienţi, măsurate în milisecunde. Fiecare punct de pe grafic corespunde unui pacient. Se observă o corelaţie puternică din aranjarea norului de puncte, care are o formă alungită.

8

Page 9: - Cursul al V-lea CURSUL AL V-LEA - umfcv.ro MG - Cursul V.pdf · Biostatistică - Cursul al V-lea . Figura 7 . Graficul de corelaţie între viteza de sedimentare a hematiilor la

Biostatistică - Cursul al V-lea Aşa cum era de aşteptat valorile LD şi LS se corelează, în sensul că au tendinţa de a se aşeza într-un nor alungit dinspre stânga jos spre dreapta sus pe grafic, cu unele excepţii, reprezentate de punctele care sunt ieşite din nor. De fapt, se observă că majoritatea punctelor din grafic se aranjază într-o zonă ovală.

În cazurile ca cel din figura 6, se poate încerca găsirea unei drepte care să treacă cât mai aproape de punctele graficului, dreaptă care să reprezinte o legătură între cei doi parametri. În figura 7 este reprezentată o astfel de dreapta pentru graficul din figura 6. Această dreaptă există pentru nori de puncte foarte diverşi, şi se numeşte dreaptă de regresie.

Figura 7 Dreapta de regresie pentru cazul latenţei semnalului nervos pe cei doi ochi, la apcienţi cu diverse afecţiuni.

Pe orizontală, valorile pentru ochiul stâng, iar pe verticală cele pentru ochiul drept.

Numim această dreaptă legătură între cei doi parametri în sensul următor: dacă se cunoaşte valoarea de pe orizontală, se poate calcula cu oarecare aproximare valoarea de pe verticală, şi invers. În exemplul din figura 7, dacă ştim latenţa pentru ochiul stâng, putem calcula cu o anumită aproximaţie latenţa pentru ochiul drept, şi invers. Acest fapt este sugerat în figura 8, de săgeţile care indică valoarea aproximativă de pe o axă, corespunzătoare unei anumite valori de pe cealaltă axă.

Figura 8 Folosirea dreptei de regresie ca legătură între cei doi parametri care sunt puternic corelaţi.

Dreapta de regresie este de obicei căutată prin aşa-numita metodă a celor mai mici pătrate, expusă în subcapitolul următor.

Metoda celor mai mici pătrate (MCMMP)

Vom căuta o dreaptă care să se apropie cât mai mult de punctele graficului, dreaptă care o vom numi dreptă de regresie liniară. Pentru a ne da seama cum intrepretăm expresia “se apropie cât mai mult de punctele graficului”, să luăm un exemplu simplu, ca cel din figura 9.

Figura 9 O dreapă de regresie se caută acea dreapta care este situată cât mai

aproape de punctele graficului. Distanţele de la punctele graficului la dreaptă se măsoară pe verticală. În imagine, distanţele care trebuie să fie cât mai mici sunt

segmente verticale

9

Page 10: - Cursul al V-lea CURSUL AL V-LEA - umfcv.ro MG - Cursul V.pdf · Biostatistică - Cursul al V-lea . Figura 7 . Graficul de corelaţie între viteza de sedimentare a hematiilor la

Biostatistică - Cursul al V-lea Vom spune că o dreaptă este dreaptă de regresie dacă suma distanţelor de la puncte la dreaptă, măsurate pe verticală şi ridicate la pătrat, este minimă.

Dreapta pe care o căutăm are ecuaţia baxy += , şi vom înţelege prin aceasta că, odată cunoscută valoarea parametrului de pe abscisă, x, putem calcula valoarea parametrului de pe ordonată, y, prin înmulţirea cu a şi adunarea lui b. Aşadar, găsirea dreptei de regresie este echivelentă cu găsirea coeficienţilor a şi b. În figura 10 este prezentată o situaţie în care dreapta de regresie poate fi folositî pentru aproximarea unui efect Y (care poate fi un rezultat al unei medicaţii) în funcţie de o cauză X (care poate fi medicația). Se observă că putem găsi nivelul efectului după valoarea luată de factorul cauză. Pentru valoarea 10 a lui X, efectul Y are valoarea aproximativă 1010. Pentru valoarea 50 a lui X, Y ia valoarea 925.

Figura.10 Dreapta de regresie ca legătură între cauză şi efect. Se observă că putem găsi nivelul efectului după valoarea luată de

factorul cauză. Pentru valoarea 10 a lui X, efectul Y are valoarea aproximativă 1010. Pentru valoarea 50 a lui X, Y ia valoarea 925

- facultativ-

Proprietatea de bază a dreptei de regresie, se scrie astfel:

( )∑=

=−−=n

iii baxyS

1

2 min

ceea ce exprimă faptul că segmentele ce unesc fiecare punct cu punctele de pe dreaptă situate pe aceeaşi verticală, trebuie să fie cât mai scurte posibil. Exprimarea aceasta nu este tocmai corectă, ci mai degrabă intuitivă, căci, a spune că segmentele sunt cât mai scurte, nu precizează nimic când se referă la toate segmentele. Nu vom şti exact care dintre ele trebuie să fie mai scurt şi care mai lung când suma pătratelor lor este minimă.

Vom interpreta expresia de mai sus ca o expresie ce conţine două necunoscute, şi anume a şi b, şi dorim aflarea lor pentru a putea fi utilizate în ecuaţia baxy += , atunci când avem nevoie.

Minimul expresiei ce are ca variabile pe a şi pe b, se poate afla printr-un procedeu care este cunoscut din analiza matematică, şi anume, minimul unei funcţii se realizează pentru acele valori ale necunoscutei care anulează derivata întâi a funcţiei în raport cu variabila respectivă. În cazul în care avem o funcţie cu două variabile, ca cea de mai sus, va trebui să anulăm derivatele ei în raport cu fiecare dintre cele două necunoscute. Vom scrie deci expresia S astfel ca derivarea în raport cu a şi cu b să fie cât mai facilă.

Pentru aceasta, vom folosi formula

( ) bcacabcbacba 2222222 +++++=++ ,

precum şi faptul că o sumă poate fi distribuită, adică este valabilă formula:

( ) ∑∑∑∑====

+++=+++n

ii

n

ii

n

ii

n

iiii zyxzyx

1111.........

Astfel vom avea:

( ) ( )∑∑==

+−−++=−−=n

iiiiiii

n

iii abxbyyaxbxaybaxyS

1

2222

1

2 222

şi după distribuirea de care vorbeam mai sus:

10

Page 11: - Cursul al V-lea CURSUL AL V-LEA - umfcv.ro MG - Cursul V.pdf · Biostatistică - Cursul al V-lea . Figura 7 . Graficul de corelaţie între viteza de sedimentare a hematiilor la

Biostatistică - Cursul al V-lea

∑∑∑∑∑∑======

+−−++=n

ii

n

ii

n

iii

n

i

n

ii

n

ii abxbyyaxbxayS

1111

2

1

22

1

2 222

sau, după ce scoatem în faţa sumelor ceea ce nu depinde de i:

∑∑∑∑∑∑======

+−−++=n

ii

n

ii

n

iii

n

i

n

ii

n

ii xabybyxabxayS

1111

2

1

22

1

2 2221

Acum să nu uităm că ix şi iy sunt valorile măsurate ale celor doi parametri, care dau poziţiile punctelor de pe grafic, şi deci, fiind cunoscute, sumele din expresia lui S sunt cunoscute. De fapt, se obişnuieşte ca aceste sume să fie notate cu următoarele notaţii, mult folosite în analiza de regresie:

2

1

2x

n

ii Sx =∑

=

, 2

1

2y

n

ii Sy =∑

=

, xy

n

iii Syx =∑

=1, x

n

ii Sx =∑

=1, y

n

ii Sy =∑

=1

Aşadar, yxxyyx SSSSS ,,,, 22 sunt numere cunoscute în momentul calculului de care ne ocupăm ceea ce face ca expresia lui S să devină:

xyxyxy abSbSaSnbSaSS 2222222 +−−++=

Acum pentru a afla minimul lui S vom deriva odată în raport cu a şi vom egala cu 0 ceea ce am obţinut, apoi vom deriva în raport cu b şi vom egala cu 0 ceea ce am obţinut. Nu trebuie uitat că, la derivarea în raport cu a, vom considera că b este constantă şi invers. Vom obţine deci relaţiile:

xyxyxy abSbSaSnbSaSS 2222222 +−−++=

0222 2 =+−=∂∂

xxyx bSSaSaS

şi 0222 =+−=∂∂

xy aSSbnbS

,

care se vede că pot fi rescrise ca un sistem de două ecuaţii cu două necunoscute, în felul următor:

=−+=−+02220222 2

yx

xyxx

SbnaSSbSaS

,

sau, după trecerea termenilor care nu depind de necunoscutele a şi b în partea dreaptă şi împărţirea cu 2 a ambelor egalităţi, obţinem:

=+=+

yx

xyxx

SbnaSSbSaS 2

Acesta este, după cum se poate uşor observa, un sistem de două ecuaţii cu două necunoscute, chiar în forma cea mai simplă (sistem liniar).

Metoda expusă mai sus se numeşte Metoda Celor Mai Mici Pătrate (MCMMP), şi este mult folosită pentru simplitatea cu care ne pune la dispoziţie un rezultat util. Utilitatea acestei metode este mai clar pusă în evidenţă atunci când o folosim pentru evaluarea unui efect cuantificabil când cauzele care îl produc pot fi cuantificate suficient de bine. Un bun exemplu este aplicarea unui tratament cu un medicament în diferite doze, dacă efectul acestuia este suficient de obiectiv cuantificabil.

Alt exemplu de aplicare utilă a metodei celor mai mici pătrate este estimarea evoluţiei în timp a unor fenomene de intensitate cuantificabilă. De exemplu, atunci când am înregistrat numărul anual de cazuri de cancer de sân într-o arie geografică dată, şi ne punem problema dacă este îndreptăţită ipoteza unei tendinţe de creştere a incidenţei acestei maladii. În acest caz, dreapta de regresie este un estimator al vitezei de creştere a incidenţei şi se poate testa dacă există o creştere semnificativă, iar în caz afirmativ se poate estima cantitativ această tendinţă.

Regresii neliniare (facultativ)

Există cazuri când dependenţa între un efect şi o cauză, sau în general între doi parametri nu este liniară. De exemplu, efectul poate să sufere un fenomen de quasi saturaţie şi la un moment dat, deşi doza creşte semnificativ, efectul are o creştere aproape insesizabilă, sau invers, la creşteri limitate ale dozei, efectul tinde să crească foarte mult. În realitate se

11

Page 12: - Cursul al V-lea CURSUL AL V-LEA - umfcv.ro MG - Cursul V.pdf · Biostatistică - Cursul al V-lea . Figura 7 . Graficul de corelaţie între viteza de sedimentare a hematiilor la

Biostatistică - Cursul al V-lea pot întâlni extrem de multe astfel de situaţii. În aceste cazuri, se caută nu drepte de regresie ci alte curbe, după caz, logaritmice, exponenţiale, polinomiale, etc.

Cea mai simplă generalizare este cazul polinomului de gradul al doilea:

cbxaxy ++= 2 ,

caz în care, în mod evident trebuie găsiţi trei coeficienţi în loc de doi. Cantitatea de minimizat este

( )∑=

=−−−=n

iiii cbxaxyS

1

22 min .

În acest caz, cei trei coeficienţi sunt soluţiile unui sistem de trei ecuaţii cu trei necunoscute, obţinute din egalarea cu 0 a celor trei derivate parţiale ale lui S în raport cu a, b şi respectiv c:

0=∂∂

aS , 0=

∂∂

bS , 0=

∂∂

cS

Au fost folosite şi regresii cu polinoame de ordin mai mare, însă pentru a presupune că între doi parametri este o legătură foarte complexă trebuie puternice dovezi teoretice, care de obicei nu ne stau la dispoziţie.

Regresia liniară multiplă (facultativ)

Există situaţii în care este util să considerăm dependenţa unui parametru de două sau chiar mai mulţi parametri independenţi. Şi în acest caz, Metoda Celor Mai Mici Pătrate este de un preţios ajutor. În acest caz, se caută o dependenţă de forma:

mn XaXaXaY ++⋅+⋅= ..........2

21

1

unde Y este parametrul care depinde de ceilalţi, X1, X2,.............Xn sunt parametrii independenţi, iar m este numărul lor, uzual având valoarea 2 sau 3, mai rar ajungând la 6 sau 8, foarte rar mai mare.

În acest caz, se pune problema găsirii coeficienţilor a1, a2,......an, astfel ca diferenţele dintre valorile măsurate Y1,Y2,........Yn, să fie cât mai apropiate de valorile calculate cu expresia, m

inii XaXaXa ++⋅+⋅ ..........22

11 , unde

coeficienţii a1, a2,......an, îi considerăm necunoscute şi ne propunem să îi aflăm, iar indicele i ne indică măsurătoarea, adică:

La măsurătoarea 1 se obţin valorile mXXX 12

111 ,......., , iar pentru Y valoarea Y1

La măsurătoarea 2 se obţin valorile mXXX 222

12 ,......., , iar pentru Y valoarea Y2

......................................................................................

La măsurătoarea n se obţin valorile mnnn XXX ,......., 21

, iar pentru Y valoarea Yn

De exemplu, pentru dependenţa între un parametru dependent şi doi independenţi, cantitatea de minimizat este:

( )∑=

−−=n

iiii XaXayS

1

222

11

Chestiuni de examen 1. Coeficientul de corelaţie măsoară:

1. tăria împrăştierii datelor unei serii statistice 2. tăria corelaţiei între medie şi mediană 3. tăria corelaţiei între doi parametri exprimaţi numeric 4. tendinţa de creştere sau descreştere simultană sau inversă a doi parametri.

2. Coeficientul de corelaţie calculat pentru doi parametri măsuraţi la 429 de pacienţi este 0,829. Aceasta înseamnă că: 1. cei doi parametri nu sunt corelaţi 2. cei doi parametri sunt slab corelaţi 3. cei doi parametri sunt puternic corelaţi 4. sunt prea puţine cazuri şi nu avem încredere în valoarea coeficientului

12

Page 13: - Cursul al V-lea CURSUL AL V-LEA - umfcv.ro MG - Cursul V.pdf · Biostatistică - Cursul al V-lea . Figura 7 . Graficul de corelaţie între viteza de sedimentare a hematiilor la

Biostatistică - Cursul al V-lea 3. Coeficientul de corelaţie calculat pentru doi parametri măsuraţi la 429 de pacienţi este -0,925. Aceasta înseamnă că:

1. cei doi parametri nu sunt corelaţi 2. cei doi parametri sunt anticorelaţi 3. cei doi parametri sunt slab corelaţi 4. sunt prea puţine cazuri şi nu avem încredere în valoarea coeficientului

4.Graficul Scatter ne dă informaţii despre: 1. Corelaţia celor doi parametri de pe orizontală şi verticală 2. Omogenitatea eşantionului 3. Simetria distribuţiilor fiecăruia din cei doi parametri 4. Corelaţia fiecărui parametru cu vârsta pacienţilor

5.Coeficientul de corelaţie calculat pentru doi parametri măsuraţi la 12 de pacienţi este 0,889. Aceasta înseamnă că: 1. Cei doi parametri nu sunt corelaţi 2. Cei doi parametri sunt slab corelaţi 3. Cei doi parametri sunt corelaţi 4. Sunt prea puţine cazuri şi nu avem încredere în valoarea coeficientului

6.Coeficientul de corelaţie calculat pentru doi parametri măsuraţi la 12 de pacienţi este -0,889. Aceasta înseamnă că: 1. Cei doi parametri nu sunt corelaţi 2. Cei doi parametri sunt anticorelaţi 3. Cei doi parametri sunt corelaţi 4. Sunt prea puţine cazuri şi nu avem încredere în valoarea coeficientului

7. O dreaptă de regresie este o dreaptă care: A. Este situată cât mai aproape de punctele unui grafic Scatter B. Trece prin toate punctele unui grafic Scatter C. Aproximează un poligon al frecvenţelor D. Este paralela cu una din axele de coordonate

8. O dreaptă de regresie ne oferă: A. O relaţie aproximativă între valorile a doi parametri B. O relaţie exactă între valorile a doi parametri C. Traseul liniei frânte a poligonului frecvenţelor D. Posibilitatea aproximării valorilor unui parametru dacă ştim valorile celuilalt

9. O dreaptă de regresie se calculează: A. Folosind mediile de eşantionare B. Folosind mediile şi deviaţiile standard C. Folosind metoda celor mai mari pătrate D. Folosind metoda celor mai mici pătrate

10. În ecuaţia unei drepte de regresie, valorile care o determină sunt: A. Panta (slope) şi ordonata la origine (intercept) B. Media şi deviaţia standard C. Mediile de eşantionare D. Panta (slope)

13