This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
E(εi ) = 0 e Var(εi ) = σ2, i = 1, . . . , n (n rappresenta ladimensione delo campione).
Corr(εi , εj) = 0 ∀i 6= j
xi ,j , i = 1, . . . , n e j = 1, . . . , k rappresenta la determinazionedella variabile Xj sull’unita statistica i-esima. Quantitadeterministica e nota senza errori di misurazione.
β0 rappresenta il valore atteso di Y quandoX1 = X2 = · · · = Xk = 0
βj , j = 1, . . . , k rappresenta la variazione della media di Ydovuta ad un incremento unitario di Xj a parita di ogni altracondizione, cioe quando il valore delle altre variabili restaimmutato
n ≥ k + 1: il numero di osservazioni campionarie deve esserenon inferiore al numero dei coefficienti che vogliamo stimare.
Le colonne di X devono essere linearmente indipendenti.Questo significa che nessuna variabile Xj , j = 1, . . . , k, possaessere linearmente dipendente dalle altre k − 1 variabiliesplicative e che nessun regressore possa assumere lo stessovalore su tutte le unita statistiche osservate.
Abbiamo definito delle regole generali che ci permettono dicalcolare le stime b e s2 su qualsiasi campione osservato, sottocondizioni non particolarmente restrittive. Ma allora,
b e la determinazione campionaria di una particolare variabilecasuale k + 1-variata:
B = (X′X)−1X′Y = [B0,B1, . . . ,Bk ]′
s2 e la determinazione campionaria di una particolare variabilecasuale:
S2 =1
n − k − 1E′E
Anche i residui sono determinazioni di n variabili casuali:
Gli stimatori dei parametri ignoti sono corretti: se potessimoripetere il campionamento all’infinito e a parita delle condizioni, lemedie delle stima ottenute coinciderebbero con i veri valori di βj eσ2
Se R2 = 1, allora yi = yi , i = 1, . . . , n: le osservazioni su Y esu X giacciono su una retta
Se R2 = 0, allora yi = y , i = 1, . . . , n: la retta (funzione diX ) che meglio approssima le osservazioni su Y e costante(indipendente da X ) con ordinata uguale a y
Si puo dimostrare che R2 tende a crescere quando aumenta ilnumero di variabili esplicative incluse nel modello, anche qualoraqueste non esercitassero effettivamente alcuna influenza su Y .Se k = n − 1, allora certamente R2 = 1, per un semplice artificiomatematico!Conviene utilizzare il coefficiente di determinazione lineare multiplacorretto, R2
a :
R2a = 1− n − 1
n − k − 1(1− R2)
che da informazioni simili a quelle fornite da R2 ma nonnecessariamente cresce al crescere di k.
β∗j e un valore noto che fissiamo noi, sulla base delle nostreesigenze.
Fissiamo un valore α, 0 < α < 1, che chiameremo livello disignificativita del test, e vogliamo che la probabilita di ritenerefalsa H0 quando in realta H0 e vera sia proprio pari ad α
Intervallo di previsione per Y in corrispondenza di X, = x0,j
Vogliamo prevedere il valore assunto da Y in corrispondenzadi k fissati valori di Xj = x0,j , j = 1, . . . , k, misurati su unaunita statistica non inclusa nel campione e sulla quale Y none stato rilevato.Vogliamo costruire un intervallo di previsione, di livello 1− αper
Y0 = β0 +k∑
j=1
βjx0,j + ε0 = x′0β + ε0
con x′0 = [1, x0,1, ,x0,k ]Se il modello e gaussiano, allora
Y0|x0,1, . . . , x0,k ∼ N(x′0β, σ2)
Se prevediamo Y0 con Y0 = x′0B, l’errore di previsione sara
Il file spedizioni.txt contiene i dati rilevati dalla contabilita diun’azienda di spedizioni nell’arco di 20 settimane. Le variabilirilevate sono:
Y : ore lavoro impiegate nella settimanaX1: peso totale (in migliaia di libbre) del materiale speditonella settimanaX2: percentuale del peso totale spedita con camionX3: peso medio delle spedizioni nell’arco della settimanaX4: numero della settimana di rilevazione (tempo)
Cerchiamo di capire quali siano, tra i potenziali regressori(X1, X2, X3 e X4), le variabili che possano incidere sullaquantita di lavoro impiegata nell’arco della settimana (Y )
Avviamo una sessione di R, cancelliamo tutto cio che c’e inmemoria, chiudiamo le finestre grafiche eventualmente apertee carichiamo i dati con i seguenti comandi:
Ogni riga ed ogni colonna sono intestate ad una variabile, ilcui nome e leggibile sulla diagonale della matrice.
I grafici che si trovano su una determinata riga sono idiagrammi di dispersione della variabile a cui quella riga eintestata, contro ciascuna delle variabili a cui sono intestate lecolonne
Sul primo grafico della seconda riga e rappresentato ildiagramma di dispersione di X1 contro Y ; sul secondo graficodella seconda riga e rappresentato il diagramma di dispersionedi X1 contro X2 e cosı via.
Dalla Figura 23 si possono trarre alcune informazioni:
appare evidente una relazione lineare crescente tra il numerodi ore lavoro impiegate nell’arco della settimana (variabilerisposta) e il peso totale del materiale spedito nel medesimoperiodo (X1);
appare altrettanto evidente una relazione lineare decrescentetra variabile risposta e peso medio delle spedizioni nell’arcodella settimana (X3);
non si possono desumere relazioni altrettanto evidenti tra lavariabile risposta e gli altri potenziali regressori. Cio nonsignifica di per se che questi non influiscano sulcomportamento della quantita di lavoro impiegata: il loroeffetto potrebbe essere mascherato dall’influenza esercitatasimultaneamente da piu variabili sulla variabile risposta.
Il coefficiente di determinazione lineare multipla e pari a0.8196
il coefficiente di determinazione lineare multipla corretto(Adjusted R-suared) e pari a 0.7715, quindi il modello sembraspiegare abbastanza bene il comportamento della variabilerisposta.
esaminiamo ora i residui
Disegnamo il grafico dei residui (Figura 24):
> plot(resid(spedizioni.lm))
e il grafico quantile quantile dei medesimi, per farci qualcheidea circa la gaussianita del modello (Figura 25):
In base all’analisi dei residui possiamo ritenere che il modellorispetti le assunzioni di fondo e che i residui sianodeterminazioni di variabili casuali normali (quindi che ilmodello sia gaussiano).
Supponiamo che l’ipotesi nulla sia vera. Allora, se il modello egaussiano, oppure se n e elevato e valgono le assunzioni di fondodel modello di regressione lineare multipla, la seguente quantita
f =(DEVTOT − DEVRES)/k
DEVRES/(n − k)=
R2/k
(1− R2)/(n − k − 1)
sara la determinazione di una particolare variabile casuale cheassume solo valori positivi: una F di Snedecor con k gradi di libertaal numeratore e n − k gradi di liberta al denominatore, Fk,n−k .
Per questo sistema di ipotesi, l’ultima riga dell’output del comando
> summary(spedizioni.lm)
fornisce un valore αoss = 1.889 · 10−5, quindi nella nostraapplicazione rifiutiamo H0, cioe riteniamo che almeno uno deiregressori considerati sia influente sulla media della variabilerisposta.
Per j = 0, dots, k e per un fissato livello di significativita α,impostiamo i seguenti sistemi di ipotesi:
H0 : βj = 0
H1 : βj 6= 0
Per ogni sistema di ipotesi calcoliamo il valore osservato della
corrispondente statistica test: tj =bj
sBj
Tra tutti i valori tj che inducono ad accettare l’ipotesi nullaindividuiamo i piu piccolo in valore assoluto (ovvero quello cheda luogo al piu alto livello di significativita osservato).Supponiamo che cio avvenga per j = j∗
se j∗ = 0 porremo β0 = 0 e ristimeremo il modello senzaintercettase 1 ≤ j∗ ≤ k porremo βj∗ = 0 e ristimeremo il modelloescludendo la j∗-esima varabile esplicativa (i regressori sarannoora k − 1)
Ripetiamo la procedura fino a quando tutti i valori tjindurranno ad accettare il corrispondente sistema di ipotesi.
Intervallo di confidenza per la funzione di regressione
Supponiamo di voler costruire, al livello 1− α = 0.99, un intervallodi confidenza per la funzione di regressione in corrispondenza diX1 = 8 e X3 = 20> nuovidati = data.frame(x1 = 8, x3 = 20)
Supponiamo di voler costruire, al livello 1− α = 0.99, un intervallodi previsione per Y in corrispondenza di X1 = 8 e X3 = 20> nuovidati = data.frame(x1 = 8, x3 = 20)
Nel modello di regressione, spesso, puo essere opportunoconsiderare delle trasformazioni delle variabili in gioco.Supponiamo, ad esempio, di considerare due sole variabili, Y e X edi definire un modello del tipo
Yi = β0 + β1xi + εi
Una semplice relazione lineare potrebbe non essere sufficiente aspiegare il comportamento di Y e si potrebbe ricorrere ad unmodello polinomiale:
Riconsideriamo il modello finale a cui siamo giunti nelproblema della azienda di spedizioni.
Disegnamo i diagrammi di dispersione dei residui rispetto aciascuna delle variabili esplicative con i comandi
> plot(x1, resid(spedizioni2.lm))
> plot(x2, resid(spedizioni2.lm))
i grafici nelle Figure 26 e 27 mostrano una debole dipendenzalineare tra i residui e ciascuna delle variabili esplicative.Questo ci induce a ritenere che il modello adattato non sfruttitutta l’informazione contenuta nei regressori
Poiche i grafici non evidenziano particolari relazioni nonlineari, cerchiamo di capire se esistano delle forme diinterazione tra le due variabili.
Ci poniamo ora il problema di rappresentare graficamentel’andamento della funzione di regressione stimata, intesa comefunzione del pesmo medio settimanale delle spedizioni, incorrispondenza di alcuni fissati valori del peso totale dellespedizioni settimanali, diciamo X1 = 4, X1 = 4.95 e X1 = 6.2.
Per ognuno dei fissati livelli di X1 stimiamo la funzione diregressione in corrispondenza dei valori del peso medio dellespedizioni settimanali osservati sul campione utilizzando iseguenti comandi: