Top Banner
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli [email protected] Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Metodi diagnostici
14

LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli [email protected] Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

May 02, 2015

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

LABORATORIO DI ANALISI AVANZATA DEI DATI

Andrea [email protected]

Sito web del corso

ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE

MULTIPLAMetodi diagnostici

Page 2: LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

Limiti del modello lineare tipo

1. Osservazioni influenti/anomale: distorsione nelle stime

2. Errori correlati o eteroschedastici3. Distribuzione non normale degli errori:

la distribuzione t di Student NON è più valida in piccoli campioni

Metodi diagnostici: Utilizzano i residuiSi focalizzano sul problema 1, anche se possono dare utili informazioni su 2 e 3 (v. slides)Sono un output standard del software (ad es. SPSS e Excel)

Page 3: LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

Analisi dei residui

Inconveniente: i residui «standardizzati» in realtà non lo sono: non hanno varianza costante var = 1 – hii

Un residuo (standardizzato) elevato può essere dovuto a un’anomalia nei dati ma anche a una varianza più grande degli altri (maggiore variabilità campionaria)

I residui sono il punto di partenza per identificare le unità con adattamento scadente o problemi nei dati.

Però i residui variano su una scala che dipende da Y

Page 4: LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

Il residuo studentizzato di cancellazione è ottenuto eliminando l’unità i dal modello mostra l’effetto di tale unità sulla previsione (l’unità i non contribuisce alla stima dei parametri)

Inconveniente: la stima s al denominatore è calcolata usando anche il residuo ei se ei è (molto) grande, ad es. perché yi è anomalo, anche s tenderà a essere grande (e quindi ri piccolo)

Page 5: LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

Esempio dati trade: log(Y) – log(X)

Per esercizio: v. output e commento risultati

Page 6: LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

Esempio dati trade: log(Y) – log(X)

Sembrerebbe tutto okQual è il grado di affidabilità di queste diagnostiche per l’individuazione di osservazioni anomale?

Page 7: LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

Esempio dati con outliers (v. sito del corso)

y = 0.5 + 4x + erroreN(0, 16)

y = 4.0322x - 0.3749

R2 = 0.9194

0.0

20.0

40.0

60.0

80.0

100.0

120.0

12 14 16 18 20 22 24 26 28

x

y

Ci aspettiamo che tutte le diagnostiche non segnalino particolari problemi

Page 8: LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

Modello y = 0.5 + 4x + erroreN(0, 16)

Tutti i residui (standard./stud.) sono compresi tra -3 e + 3

Page 9: LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

Modello y = 0.5 + 4x + erroreN(0, 16)1 valore y contaminato

Ci aspettiamo che tutte le diagnostiche mostrino l’anomalia del dato contaminato

y = 3.7161x + 7.0195

R2 = 0.6047

0.0

20.0

40.0

60.0

80.0

100.0

120.0

140.0

12 14 16 18 20 22 24 26 28

x

y

Page 10: LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

Modello y = 0.5 + 4x + erroreN(0, 16) 1 valore y contaminato

L’anomalia dell’unità contaminata è evidente

L’effetto sul residuo di cancellazione è maggiore (più che doppio)

Page 11: LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

Modello y = 0.5 + 4x + erroreN(0, 16)10 valori y contaminati

R2 comparabile a quello con 1 outlier

Cosa succede ai residui?

y = 22.532x - 321.11

R2 = 0.6168

-50.0

0.0

50.0

100.0

150.0

200.0

250.0

300.0

350.0

12 14 16 18 20 22 24 26 28

x

y

Page 12: LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

L’analisi dei residui non segnala valori anomali (cfr. dati non contaminati): mascheramentoConclusione: l’analisi dei residui non è affidabile (nonostante sia un output standard del software)Soluzione: regressione robusta

Modello y = 0.5 + 4x + erroreN(0, 16)10 valori y contaminati

Page 13: LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

Statistica robusta

• Obiettivo: trovare una funzione che descriva la maggior parte delle osservazioni e non sia influenzata dalla presenza di valori atipici:– Min. somma dei valori assoluti dei residui

(MAD)– Min. mediana dei quadrati dei residui (LMS)– Min. la somma del 50% dei residui al

quadrato più piccoli (LTS)

Page 14: LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

Stimatori robusti

x1 2 3 4 5 6 7

12

34

56

Stimatore Minimi Quadrati (OLS)

Stimatore LMS

Stimatore LTS