Régression linéaire (STT-2400) Section 8 Valeurs aberrantes et influentes Version: 28 décembre 2007.

Régression linéaire (STT-2400)

Section 8

Valeurs aberrantes et

influentes

Version: 28 décembre 2007

STT-2400; Régression linéaire2

Introduction

Pour certaines observations, il arrive que les valeurs de la variable réponse et/ou des préviseurs semblent se comporter différemment de la majorité des observations.

En régression linéaire simple, ceci peut être apprécié visuellement: un graphique de la variable réponse versus le préviseur peut révéler que la majorité des points semble se répartir autour d’une droite, mais quelques observations peuvent s’en éloigner passablement.

Des observations qui ne suivent pas le même modèle (linéaire) que la majorité des données sont appelées des valeurs aberrantes (de régression).


Introduction (suite)

Les valeurs aberrantes peuvent survenir pour diverses raisons, dont la plus évidente est lors d’erreurs de mesure, erreurs de transcription des données, etc.

Cependant, les valeurs aberrantes ne sont pas forcément erronées. Parfois, elles sont des valeurs qui révèlent un phénomène particulier qui peut être différent du modèle suivi par la majorité des observations.

La formulation d’un modèle vise à expliquer aussi bien que possible un phénomène général; il peut avoir ses propres limites et les valeurs aberrantes peuvent suggérer des pistes pour des modèles plus élaborés.


Classification des valeurs aberrantes

Dans un contexte de régression, les valeurs aberrantes peuvent survenir de diverses manières:– Valeurs aberrantes dans la variable réponse mais pas

dans les préviseurs (valeurs aberrantes dans la direction des Y);

– Valeurs aberrantes dans les préviseurs mais pas dans la variable réponse (valeurs aberrantes dans la direction des X; points de leviers);

– Valeurs aberrantes à la fois dans la direction des X et des Y (bon ou mauvais points de leviers).


Points de levier et valeurs aberrantes de régression

Un point de levier est un type de valeur aberrante. Cependant, les points de levier ne sont pas

forcément des valeurs aberrantes de régression. Lorsque les points de levier suivent la tendance

linéaire générale de la majorité des observations, on parle de bons points de levier.

Il est souvent crucial de distinguer les bons points de levier des mauvais.


Un simple test pour des valeurs aberrantes dans la direction des Y

Le modèle de la moyenne translatée peut être facilement mis en œuvre avec SAS afin de tester si une observation donnée est aberrante (en Y).

Dans ce modèle, si on soupçonne que l’observation i est aberrante (en Y), on présume que:

On désire tester l’hypothèse

.,

,,

ij

ijXYE

j

jj βx

βxx '

'

.0:0 H


Mise en œuvre du test

Afin de mettre en œuvre le test, soupçonnant que l’observation i est aberrante, on procède comme suit:– On définit une variable indicatrice de l’observation i, en

introduisant une variable U:

– La variable U est donc 0 partout sauf pour l’observation i.– On régresse Y sur les préviseurs et la variable U.– L’estimateur du coefficient correspondant à U est l’estimateur

de dans le modèle.– On regarde la statistique-t associée à la variable U.

ij

ijU j ,1

,0

.,

,,

ij

ijXYE

j

jj βx

βxx '

'


Résidus standardisés

On rappelle que les résidus sont tels que:

Les résidus standardisés ont moyenne zéro et de même variance valant un:

.ˆvar

,ˆ

,ˆˆ

2 HIe

0e

βXye

i

i

ii

E

ii

ii

h

er

1ˆ

ˆ


Calcul du test

Il peut être montré que la statistique de test est:

Cette valeur est appelée un résidu studentizé et est fournie par SAS sous la colonne RStudent lorsque l’option INFLUENCE est utilisée.

De plus, la distribution est:

21

2

iii rpn

pnrt

2~ pni tt


Ajustement du niveau

Si une observation particulière est soupçonnée être aberrantes, alors on peut faire le test de manière usuelle et utiliser la valeur-p fournie par SAS.

Cependant, une pratique courante consiste à examiner toutes les statistiques | ti | et déclarer la plus grande comme une valeur aberrante. Cependant, ceci revient à effectuer n tests. Si on effectue n tests de niveau , alors le niveau global du test est bien supérieur à .

Considérons n = 65, et soit un test Ti dont la région de rejet est: de telle sorte que . 0.2iT 05.00.2Pr iT


Ajustement du niveau (suite)

Alors si les n tests sont indépendants:

L’inégalité de Bonferroni dit que pour n tests de niveau , la probabilité de faussement considérer au moins une observation comme aberrante n’est pas plus grande que n.

En pratique pour obtenir la valeur-p il suffit de multiplier la valeur-p fournit par SAS par n.

964.005.01

0.2Pr1

0.2,,0.2,0.2Pr1

0.2maxPr10.2maxPr

65

1

21

n

n

ii

T

TTT

TT


Influence des observations

Une analyse de l’influence des observations est basée sur l’idée de comparer l’ajustement avec et sans des observations pouvant être qualifiées de douteuses.

Ainsi, on peut retirer la première observation, effectuer l’analyse, et comparer avec l’analyse reposant sur l’ensemble des données.

On procède ainsi pour chacune des observations du jeu de données.


Calcul des estimateurs sans l’observation i

Introduisons la notation « (i) » qui veut dire: « sans l’observation i ». Ainsi, calculer l’estimateur des moindres carrés sans l’observation i donne:

On note que:

iiiii yXXXβ '' 1ˆ

11:

11:

n

pn

i

i

y

X


Distance de Cook

On dispose de:

L’idée de Cook (Technometrics, 1977) est de comparer ces deux quantités. Cook a définit la mesure suivante:

iiiii yXXXβ

yXXXβ'' 1

1

ˆ

''ˆ

2ˆ1

ˆˆ'ˆˆ

p

D iii

ββXX'ββ


Interprétation des distances de Cook

La distance de Cook est essentiellement une mesure de distance standardisée qui permet de décrire le changement dans l’estimateur de lorsque l’on retire l’observation i.

Une grande valeur de la distance de Cook suggère que l’observation i possède une grande influence.

On note la ressemblance avec l’ellipsoïde de confiance:

1,1;

ˆ1

ˆ*'ˆ**

2pnpF

p

ββXX'ββ

β


Utilisation des distances de Cook

En pratique, les distances de Cook sont souvent comparées avec un. Une valeur grandement inférieure à un suggère que l’impact de l’observation i ne semble pas très important.

En revanche, une distance de Cook plus grande que un suggère que l’observation i possède un grand impact.


Distance de Cook et une identité remarquable

Des arguments algébriques permettent de montrer la relation suivante:

On constate que la distance de Cook, pour p fixé, peut être grande si les résidus standardisés sont grands ou si les leviers sont grands (ou si les deux sont grands).

ii

iii

iii

h

hr

p

pD

11

1

ˆ1

ˆˆ'ˆˆ

2

2ββXX'ββ


D’autres mesures populaires: DFBETAS et DFFITS

SAS inclut d’autres mesures dans le même esprit que la distance de Cook.

Les mesures DFBETAS et DFFITS (noter le S supplémentaire) sont des mesures proprement standardisées (et indépendantes des systèmes d’unités).

iii

iiii

ijjij

yy

βxβx ˆˆ

ˆˆDFFIT

ˆˆDFBETA

''


Quelques mots sur l’hypothèse de normalité

De manière générale, il est souvent reconnu que l’hypothèse de normalité joue un rôle mineur en analyse de régression.

De manière générale, l’hypothèse de normalité est utile à des fins d’inférence, surtout pour les petits échantillons.

Cependant, il est à noter qu’en présence de petits échantillons, la non-normalité peut être particulièrement difficile à diagnostiquer par un examen des résidus.


Hypothèse de normalité (suite)

On rappelle les relations:

Pour des échantillons petits à modérés, le second terme peut dominer le premier.

En invoquant le théorème central limite, il peut être montré que la somme sera approximativement normale même si les erreurs originales ne sont pas normales.

Cependant, si n est assez grand, le second terme a une plus petite variance par rapport au premier terme et par conséquent est moins important.

Ainsi, pour n grand, les résidus peuvent être utilisés afin de cerner la normalité des erreurs (sauf que l’hypothèse de normalité n’est plus aussi importante!).

n

jjijii ehee

1

ˆ;ˆ eHIe


« Normal Probability Plot »

Afin de vérifier l’hypothèse de normalité, on peut procéder comme suit. Soit:

On désire vérifier si les zi proviennent d’une loi normale

1. On commence par ordonner les zi:

2. Soit

nzz ,,1

2,N

nzzz 21

nuuu 21


« Normal Probability Plot » (suite)

Les ui sont les valeurs moyennes des statistiques d’ordre qui seraient obtenues si les observations étaient vraiment normales N(0,1).

Il peut être montré que la ième statistique d’ordre espérée d’une N(0,1) est approximativement:

Si les zi étaient de loi normale:

3. La régression des z(i) sur les u(i) devrait être une ligne droite sous l’hypothèse de normalité. Si ce n’est pas une ligne droite, on peut questionner l’hypothèse de normalité.

41

831

n

i

ii uzE

Régression linéaire (STT-2400) Section 8 Valeurs aberrantes et influentes Version: 28 décembre 2007.

Documents