Corrélation - Régression - Biostatistiques

Post on 14-Feb-2017

230 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

Transcript

Introduction Correlation Regression

Correlation - RegressionBiostatistiques

Erik A. Sauleau - Nicolas MEYER

———————Laboratoire de Biostatistique et Informatique Medicale

Fac. de Medecine de Strasbourg———————

23 Mars 2011

Introduction Correlation Regression

Plan

1 Introduction

2 Le coefficient de correlation

3 La regression lineaire simple

Introduction Correlation Regression

Plan

1 Introduction

2 Le coefficient de correlation

3 La regression lineaire simple

Introduction Correlation Regression

Definitions

Correlation

Liaison entre deux variables quantitatives X et Y

Unites quelconques

Meme role a X qu’a Y

”Correlation”→ correlation lineaire

Regression

Regression lineaire simple

Une droite explique une variable quantitative Y par une autrevariable quantitative X

Roles differents assignes a X et Y

Introduction Correlation Regression

Definitions

Correlation

Liaison entre deux variables quantitatives X et Y

Unites quelconques

Meme role a X qu’a Y

”Correlation”→ correlation lineaire

Regression

Regression lineaire simple

Une droite explique une variable quantitative Y par une autrevariable quantitative X

Roles differents assignes a X et Y

Introduction Correlation Regression

Representation des donnees : nuage de points

●●

●●

●●

● ●

●●

●●

X

Y

●●

●●●

X

Y

●●

● ●●

● ●● ●

●● ●●

● ●●

X

Y

●●

●●

●●

X

Y

Introduction Correlation Regression

Plan

1 Introduction

2 Le coefficient de correlationLa covarianceLe coefficient de correlation de PearsonLe test du coefficient de correlation

3 La regression lineaire simple

Introduction Correlation Regression

La covariance

Definition

Mesure de la variation simultanee de deux variables aleatoires

Soient X et Y deux variables aleatoires :

cov(X ,Y ) = E(XY )− E(X )E(Y )E(X ) et E(Y ) sont les esperances de X et YE(XY ) est l’esperance du produit de X et Y

On estime la covariance sur un n-echantillon par

cov(X ,Y ) =

∑n (xi − x )(yi − y)

nou

cov(X ,Y ) =

(1

n

∑n xiyi

)−(

1

n

∑n xi ·1

n

∑yi

)

Introduction Correlation Regression

La covariance

Definition

Mesure de la variation simultanee de deux variables aleatoires

Soient X et Y deux variables aleatoires :

cov(X ,Y ) = E(XY )− E(X )E(Y )E(X ) et E(Y ) sont les esperances de X et YE(XY ) est l’esperance du produit de X et Y

On estime la covariance sur un n-echantillon par

cov(X ,Y ) =

∑n (xi − x )(yi − y)

nou

cov(X ,Y ) =

(1

n

∑n xiyi

)−(

1

n

∑n xi ·1

n

∑yi

)

Introduction Correlation Regression

La covariance

Proprietes

L’unite de mesure de la covariance est le produit des unites deX et de Y

Si X et Y sont independantes, leur covariance est nulle etdonc E(X )E(Y ) = E(XY )

Une covariance negative signifie que les deux variablesaleatoires varient dans des sens opposes

Une covariance positive signifie que les deux variablesaleatoires varient dans le meme sens

Quelques autres proprietes

cov(X ,Y ) = cov(Y ,X )cov(X ,X ) = var(X )var(X + Y ) = var(X ) + var(Y ) + 2cov(X ,Y )

⇒ si X et Y sont independantes, var(X +Y ) = var(X ) + var(Y )

Introduction Correlation Regression

Le coefficient de correlation de Pearson

Definition

Covariance standardisee : ρ =cov(X ,Y )√

var(X )var(Y )

Estime dans un n-echantillon par

ρ =

∑n xiyi −∑n xi

∑n yin√√√√(∑n x 2

i −(∑n xi)

2

n

(∑n y2i −(∑n yi)

2

n

)

Introduction Correlation Regression

Le coefficient de correlation de Pearson

Definition

Covariance standardisee : ρ =cov(X ,Y )√

var(X )var(Y )

Estime dans un n-echantillon par

ρ =

∑n xiyi −∑n xi

∑n yin√√√√(∑n x 2

i −(∑n xi)

2

n

(∑n y2i −(∑n yi)

2

n

)

Introduction Correlation Regression

Le coefficient de correlation de Pearson

Proprietes

−1 6 ρ 6 1

Dependance entre X et Y ⇔ valeur de ρ (dans la population)

1 Si X et Y sont independantes, alors ρ = 02 Si ρ = 0 et si X et Y sont distribuees normalement, alors X

et Y sont independantes

ρ a le meme signe que la covariance

ρ est sans unite

Introduction Correlation Regression

Le test du coefficient de correlation

Construction du test

Test d’independance entre X et Y : ρ (echantillon) differe-t-ilstatistiquement de 0 ?

La realisation du test1 H0 : ρ = 0 et H1 : ρ 6= 0

2 Statistique : T =|ρ|√var(ρ)

ou var(ρ) =1− ρ2

n − 23 La statistique suit une loi de Student a n − 2 degres de

liberte : on compare T a tn−2,α

Pour n < 100, on peut utiliser une table du coefficient decorrelation (mais interet ?)

Introduction Correlation Regression

Le test du coefficient de correlation

Construction du test

Test d’independance entre X et Y : ρ (echantillon) differe-t-ilstatistiquement de 0 ?

La realisation du test1 H0 : ρ = 0 et H1 : ρ 6= 0

2 Statistique : T =|ρ|√var(ρ)

ou var(ρ) =1− ρ2

n − 23 La statistique suit une loi de Student a n − 2 degres de

liberte : on compare T a tn−2,α

Pour n < 100, on peut utiliser une table du coefficient decorrelation (mais interet ?)

Introduction Correlation Regression

Le test du coefficient de correlation

Conditions de validite du test

Propriete de ρ : si ρ = 0 et si X et Y sont distribueesnormalement, alors X et Y sont independantes

⇒ Distribution binormale de X et Y

Binormalite difficile a testerOn accepte : Y est normale et de variance constante pourchaque valeur de X (ou vice-versa)De plus le test est robusteSecurite des que n > 30

Introduction Correlation Regression

Plan

1 Introduction

2 Le coefficient de correlation

3 La regression lineaire simpleIntroductionLa construction de la droiteLe coefficient de determinationLes tests statistiquesLes conditions d’application

Introduction Correlation Regression

Introduction

Position du probleme

Correlation : liaison entre deux variables quantitatives X etY , sans role different entre X et Y

Le probleme peut etre : les valeurs prises par Ydependent-elles des valeurs prises par X ?

Y : Variable a expliquer (dependante)X : Variable explicative (independante)

L’esperance de Y varie-t-elle en fonction de X ?

La courbe qui decrit les variations de Y en fonction de X estla courbe de regression de Y sur X

Hypothese : cette courbe est une droite

Introduction Correlation Regression

La construction de la droite

Principe general

Y = α+ βX + ε

α : ordonnee a l’origineβ : penteε : erreur au modele

yi = α+ βxi + ei

Hypothese sur les ei : identiquement et independammentnormalement distribuees (iid)

Introduction Correlation Regression

La construction de la droite

L’estimation des parametres

Methode des moindres carres ordinaires

Minimiser les erreurs ⇒ minimiser la somme des erreurs aucarre

On cherche α et β qui minimisent E =∑n (yi − α− βxi)2

On cherche α et β tels que

∂E

∂β= 0

∂E

∂α= 0

On arrive aβ =

cov(X ,Y )

var(X )=

∑n xiyi −∑n xi

∑n yin∑n x 2

i −(∑n xi)

2

nα = y − βx

On peut ecrire yi − y = β(xi − x )

Introduction Correlation Regression

La construction de la droite

X

Y

●●

xi

yi

x

y

yi

Introduction Correlation Regression

Le coefficient de determination

Justification

En l’absence de lien entre Y et X , les valeurs de Y nechangent pas selon les valeurs de X

⇒ la droite de regression sera une horizontale avec Y enordonnee a l’origine

S’il y a un lien entre Y et X la droite de regression apporteune contribution dans l’explication de Y par X

S’il y a une relation lineaire parfaite entre Y et X la droite deregression explique parfaitement le lien

Le coefficient de determination R2 evalue l’apport de la droitede regression dans l’explication de Y par X

⇒ variabilite de Y expliquee par la droite par rapport a lavariabilite totale de Y

Introduction Correlation Regression

Le coefficient de determination

X

Y

●●

y

yi

xi

yi

Introduction Correlation Regression

Le coefficient de determination

X

Y

y

yi

Introduction Correlation Regression

Le coefficient de determination

X

Y

●●

yi

yi

Introduction Correlation Regression

Le coefficient de determination

Calcul

On ecrit yi − y = (yi − yi) + (yi − y)

(yi − y)2 =∑

(yi − yi)2 +

∑(yi − y)2

SCET = SCER + SCEE

Totale = Regression + Expliquee

R2 =SCEE

SCET

On demontre que R2 = ρ2

Introduction Correlation Regression

Les tests statistiques

Introduction

Deux questions1 Le lien entre Y et X est-il significatif ?⇒ tests sur β (et α)

2 La relation entre Y et X est-elle lineaire ?⇒ conditions d’application et hypothese de la regression lineaire

simple

Introduction Correlation Regression

Les tests statistiques

Construction du test

Y depend-il de X : la pente differe-t-elle statistiquement de0 ?

La realisation du test1 H0 : β = 0 et H1 : β 6= 0

2 Statistique : T = βσβ

ou σ2β

=

σ2Y

σ2X

− β2

n − 2est l’estimation de

l’ecart-type de l’estimation de la pente3 La statistique suit une loi de Student a n − 2 degres de

liberte : on compare T a tn−2,α

Introduction Correlation Regression

Les tests statistiques

Construction du test

Y depend-il de X : la pente differe-t-elle statistiquement de0 ?

La realisation du test1 H0 : β = 0 et H1 : β 6= 0

2 Statistique : T = βσβ

ou σ2β

=

σ2Y

σ2X

− β2

n − 2est l’estimation de

l’ecart-type de l’estimation de la pente3 La statistique suit une loi de Student a n − 2 degres de

liberte : on compare T a tn−2,α

Introduction Correlation Regression

Les conditions d’application

Deux questions

1 Le modele lineaire est-il adapte ?

⇒ comparer a d’autres modeles [hors du cadre de ce cours]

2 Les conditions d’utilisation de la regression lineaire simplesont-elles remplies ?

⇒ utiliser les residus

Normalite de la distribution des residus (tests ou inspectionvisuelle)Independance des residus (tests)Homoscedasticite des residus (test ou inspection visuelle) : ladistribution des residus ne depend pas des valeurs predites

Introduction Correlation Regression

Les conditions d’application

● ●

● ●

● ●

−4

−2

02

4

Homoscédasticité

y

Rés

idus

sta

ndar

disé

s

●●

● ●

● ●

● ●

−4

−2

02

4

Hétéroscédasticité

y

Introduction Correlation Regression

Les conditions d’application

Deux implications du modele

La relation entre correlation et regression

ρ = βσXσY

ρ = β si σX = σY

La valeur du test du coefficient de correlation a 0 est la memeque celle du test de la pente a 0

Les predictions avec une droite

Calculer Y connaissant X : Ynew = α+ βXnew + εnew

Ynew = α+ βXnew

On peut calculer un intervalle de confiance autour de Ynew

La prediction en dehors des plages d’observation requiertd’autres techniques

Introduction Correlation Regression

Les conditions d’application

Deux implications du modele

La relation entre correlation et regression

ρ = βσXσY

ρ = β si σX = σY

La valeur du test du coefficient de correlation a 0 est la memeque celle du test de la pente a 0

Les predictions avec une droite

Calculer Y connaissant X : Ynew = α+ βXnew + εnew

Ynew = α+ βXnew

On peut calculer un intervalle de confiance autour de Ynew

La prediction en dehors des plages d’observation requiertd’autres techniques

top related