Statistica multivariata Statistica multivariata Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa gestirle tutte e capirne le relazioni. Analisi multivariata Analisi multivariata Introdurre tante variabili in un’analisi non ha molto senso, né al livello biologico, né al livello statistico. ! Il modello diventa troppo complesso. ! Diventa difficile interpretare i risultati. ! Le stime dei parametri diventano molto instabili. ! Più parametri inseriamo, più osservazioni ci vogliono per stimarli. Cercare di capire le relazioni che intercorrono tra le variabili Cercare di capire le relazioni che intercorrono tra le variabili Eliminiamo le variabili che sono molto correlate tra di loro. Eliminiamo le variabili che sono molto correlate tra di loro. Se due variabili sono molto correlate, allora l’informazione di una è contenuta quasi completamente nell’altra. Statistica multivariata Statistica multivariata ! Analisi fattoriale analisi (prevalentemente) simmetrica rappresentare un numero elevato di variabili per mezzo di un numero inferiore di variabili ipotetiche (o latenti), i cosiddetti fattori ! Regressione multipla analisi asimmetrica formulare opportuni modelli descrittivi/interpretativi x nm … x n2 x n1 n … … … … … x 2m … x 22 x 21 2 x 1m … x 12 x 11 1 Var. m … Var. 2 Var. 1 Dati multivariati Dati multivariati Unità statistiche Variabili statistiche osservazioni, rilevazioni, … Matrice dei dati Matrice dei dati (n!m) : n righe, m colonne con n!m valori
9
Embed
Statistica multivariata Cercare di capire le relazioni che ...
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Statistica multivariataStatistica multivariata
Quando il numero delle variabili rilevate sullo stesso soggetto aumentano, il problema diventa
gestirle tutte e capirne le relazioni.
Analisi multivariataAnalisi multivariata
Introdurre tante variabili in un’analisi non ha molto senso, né al livello biologico, né al livello statistico.
! Il modello diventa troppo complesso.
! Diventa difficile interpretare i risultati.
! Le stime dei parametri diventano molto instabili.
! Più parametri inseriamo, più osservazioni ci vogliono per stimarli.
Cercare di capire le relazioni che intercorrono tra le variabiliCercare di capire le relazioni che intercorrono tra le variabili
Eliminiamo le variabili che sono molto correlate tra di loro.Eliminiamo le variabili che sono molto correlate tra di loro.
Se due variabili sono molto correlate, allora l’informazione di una è contenuta quasi completamente nell’altra.
Statistica multivariataStatistica multivariata
! Analisi fattoriale
analisi (prevalentemente) simmetrica
rappresentare un numero elevato di variabili per mezzo di un numero inferiore di variabili ipotetiche (o latenti), i cosiddetti fattori
Quando ho una variabile risposta Y e tante variabili esplicative Xi , si può ipotizzare di “spiegare” la relazione tra Y e le Xi attraverso un modello lineare (nei parametri).
Y = %0 + %1 X1 + %2 X2 + " + %k Xk + &
Qui & è la componente casuale che si suppone abbia media nulla e varianza costante pari a $
2.
Caso univariato semplice
Y = %0 + %1 X1 + &
Caso multivariato
Minimi quadratiMinimi quadrati
Come stimare i parametri ?
Metodo dei minimi quadrati (MMQ)
Logica – Rendiamo minima la differenza tra i valori osservati (blu) e quelli predetti dal modello (rossi):
min 'i [ yi – (%0 + %1 X1i + %2 X2i + " + %k Xki )]2
Nel caso univariato semplice lavoriamo in un piano; man mano che aumentano le Xi aumentano le
dimensioni dello spazio.
Esempio: y = %0 + %1 x1 + %2 x2 + & Lavoriamo in 3 dimensioni.
Minimi quadratiMinimi quadrati
Come stimare i parametri ?
Metodo dei minimi quadrati (MMQ)
Minimi quadratiMinimi quadrati
Caso monovariato (una sola variabile esplicativa):
Y = %0 + %1 X1 + &
Allora, in base al MMQ:
b0 = y – b1 X1
b1 =Cov(X,Y)
Var(X)
Caso multivariato:b = (X!X)-1
X!y
dove X è la matrice dei dati.
xnm…xn2xn1n
………… …
x2m…x22x212
x1m…x12 x111
Var. m…Var. 2Var. 1
Analisi di regressione Analisi di regressione Il mio modello è un buon modello ?
R2
È la percentuale della variabilità spiegata dal modello rispetto alla variabilità totale. Più tende a 1 più il modello è buono.
Test sui parametri
Può essere utile fare delle verifiche di ipotesi sul valore dei singoli parametri. Se
H0 : %i = 0
non è rifiutata allora la variabile può essere eliminata senza perdita di informazione.
Analisi grafica dei residui
I residui ottenuti dal modello, in base al modello che abbiamo utilizzato, dovrebbero essere quantità con media nulla e varianza costante. Quindi, ci aspettiamo che siano omogeneamente distribuiti intorno allo zero.
Analisi dei residui Analisi dei residui
Residui vs. xi
Residui vs. valori predetti
Deviazioni dalla casualità indicano una specificazione errata
del modello.
Analisi dei residui Analisi dei residui
Q-Q plot
Una terza condizione necessaria per poter fare inferenza sul modello (parametri e R2) è la NORMALITÀ del termine d'errore.