L’ANALISI DISCRIMINANTE Corso di Laurea Magistrale in Scienze Statistiche Esame di Statistica multivariata A.A. 2009/2010
L’ANALISI DISCRIMINANTEL’ANALISI DISCRIMINANTE
Corso di Laurea Magistrale in Scienze Statistiche
Esame di Statistica multivariata
A.A. 2009/2010
L’analisi discriminante
ANALISI DISCRIMINANTE BAYESIANA (1/2)ANALISI DISCRIMINANTE BAYESIANA (1/2)
In base a conoscenze preesistenti vengono assegnate le probabilità a priori alle sottopopolazioni, tali che:
Se si conoscono le distribuzioni, completamente specificate, del carattere X nelle p sottopopolazioni, è possibile utilizzare il teorema di Bayes per calcolare le probabilità a posteriori di ciascuna sotto-popolazione, “aggiornando” l’informazione a priori mediante la verosimiglianza campionaria.
L’analisi discriminante
ANALISI DISCRIMINANTE BAYESIANA (2/2)ANALISI DISCRIMINANTE BAYESIANA (2/2)
REGOLA DI CLASSIFICAZIONE: ATTRIBUIRE IL VETTORE OSSERVATO x ALLA SOTTOPOPOLAZIONE CHE HA LA MAGGIORE PROBABILITÀ DI AVERLO GENERATO, OVVERO NEL DETERMINARE IL GRUPPO j* A CUI È ASSOCIATA LA MASSIMA PROBABILITÀ A POSTERIORI:
La probabilità che, condizionatamente al valore delle k variabili rilevato, l’osservazione x sia generata dalla j-esima popolazione, è data da:
L’analisi discriminante
REGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRIBUZIONI DELLE SOTTOPOPOLAZIONI COMPLETAMENTE SPECIFICATEREGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRIBUZIONI DELLE SOTTOPOPOLAZIONI COMPLETAMENTE SPECIFICATE
Si assume che la j-esima sottopopolazione k-dimensionale abbia una certa distribuzione pj(x), j=1…p, completamente specificata nella forma e nei parametri
Obiettivo: classificare l’osservazione x nel gruppo per il quale la verosimiglianza è massima: x verrà assegnata alla j-esima sottopopolazione se
L’analisi discriminante
REGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRI-BUZIONI DELLE SOTTOPOPOLAZIONI MULTINORMALI OMOSCHEDASTICHEREGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRI-BUZIONI DELLE SOTTOPOPOLAZIONI MULTINORMALI OMOSCHEDASTICHE
Ipotizzando che le sottopopolazioni assumano distribuzioni multinormali omoschedastiche, la log-verosimiglianza relativa al j-esimo gruppo assume la forma:
Essa raggiunge il suo massimo in corrispondenza del gruppo a cui è associato il minimo della distanza di MahalaNobis al quadrato:
REGOLA DI CLASSIFICAZIONE: ASSEGNARE L’OSSERVAZIONE x AL GRUPPO IN CORRISPONDENZA DEL QUALE LA DISTANZA D2 E’ MINIMA
MN
L’analisi discriminante
Di conseguenza, la formula di Bayes assume la forma:
k
ii
j
k
ii
j
k
ii
jj
xH
xH
xD
xD
xD
xDxX
1
221
i
221
1i
221
i
j2
21
1
221
i
221
j
))((exp(-*
))((exp(-
)]ln2)((exp[-*
)ln2)((-exp
))(exp(-**cost
))(exp(-*cost*)(
COMBINANDO LA REGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRIBUZIONI DELLE SOTTOPOPOLAZIONI MULTINORMALI OMOSCHEDASTICHE E L’ANALISI DISCRIMINANTE BAYESIANA…(1/2)
COMBINANDO LA REGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRIBUZIONI DELLE SOTTOPOPOLAZIONI MULTINORMALI OMOSCHEDASTICHE E L’ANALISI DISCRIMINANTE BAYESIANA…(1/2)
MN
L’analisi discriminante
COMBINANDO LA REGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRIBUZIONI DELLE SOTTOPOPOLAZIONI MULTINORMALI OMOSCHEDASTICHE E L’ANALISI DISCRIMINANTE BAYESIANA…(2/2)
COMBINANDO LA REGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRIBUZIONI DELLE SOTTOPOPOLAZIONI MULTINORMALI OMOSCHEDASTICHE E L’ANALISI DISCRIMINANTE BAYESIANA…(2/2)
jjj xDxH ln2)()( 22 La quantità H2
j(x) è detta distanza al quadrato generalizzata di x dal gruppo j:
k
ii
jj
xH
xHxX
1
221
i
221
))((exp(-*
))((exp(-)(
In definitiva, la probabilità a posteriori che l’unità a cui è associato il vettore osservato x appartenga al j-esimo gruppo è data da:
REGOLA DI CLASSIFICAZIONE: ASSEGNARE L’OSSERVAZIONE x AL GRUPPO j IN CORRISPONDENZA DEL QUALE LA PROBABILITA’ A POSTERIORI E’ MASSIMA, DOVE CIOE’ LA DISTANZA QUADRATA GENERALIZZATA E’ MINIMA
L’analisi discriminante
CALCOLO DEGLI ERRORI: IL METODO DELLA CROSS-VALIDATIONCALCOLO DEGLI ERRORI: IL METODO DELLA CROSS-VALIDATION
Si prendono in considerazione nj-1 osservazioni del primo campione e tutte le n- nj+1 osservazioni restanti e si applica il procedimento descritto
per individuare la regola discriminante. In base ad essa si classifica l'osservazione esclusa dal primo campione.
Il procedimento viene ripetuto n volte, escludendo volta per volta ciascuna osservazione di ciascun gruppo.
La stima della probabilità di classificazione errata per gruppo viene individuata dividendo il numero di osservazioni riclassificate con la cross-validation diversamente dal gruppo di provenienza per il numero di osservazioni del gruppo di provenienza.
La stima della probabilità di classificazione errata generale è costituita da una media ponderata delle probabilità di classificazione errata per gruppo, con pesi dati dalle probabilità a priori associate a ciascun gruppo.
L’analisi discriminante: un esempio
LE VARIABILI (1/2)LE VARIABILI (1/2)
Nome giocatrice
Variabili di battuta: bXset = totale battute effettuate; bACEXset = numero di ace, cioè di battute che comportano
direttamente punto alla squadra; bERRXset = numero di battute errate;
Variabili di ricezione: rTOTXset = totale delle ricezioni effettuate; rERRXset = numero di ricezioni sbagliate; rNEGXset = numero di ricezioni che hanno influito
negativamente sulla continuazione del gioco; rPERFXset = numero di ricezioni eseguite perfettamente;
Esempio: l’analisi discriminante
LE VARIABILI (2/2)LE VARIABILI (2/2)
Variabili di attacco: ATOTXset = totale degli attacchi effettuati; aMURXset = numero di attacchi che sono stati murati
dalla squadra avversaria; aPERFXset = numero di attacchi che hanno comportato
direttamente punto per la squadra;
Variabili di muro: mINVXset = numero di invasioni a muro; mPERFXset = numero di muri perfettamente eseguiti
che comportano punto diretto alla squadra che mura;
Stat
Corr
Esempio: l’analisi discriminante
I GRUPPII GRUPPI
I gruppi corrispondono al RUOLO in cui l’atleta ha giocato prevalentemente nel corso dell’ultimo campionato:
• S = schiacciatore• C = centrale• L = libero• P = palleggiatore
Esempio: l’analisi discriminante
LA PROCEDURA
/* Analisi discriminante */
proc discrim data=Vstand out=discrim outstat=discrim2 method=normal pool=yes list crossvalidate;
class ruolo;
priors prop;
var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset aPERFXset mPERFXset mINVXset;
proc print data=discrim;
proc print data=discrim2;
data discrim3; set discrim (keep=nome ruolo C L P S _INTO_);
proc print data=discrim3;
run;
LA PROCEDURA
/* Analisi discriminante */
proc discrim data=Vstand out=discrim outstat=discrim2 method=normal pool=yes list crossvalidate;
class ruolo;
priors prop;
var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset aPERFXset mPERFXset mINVXset;
proc print data=discrim;
proc print data=discrim2;
data discrim3; set discrim (keep=nome ruolo C L P S _INTO_);
proc print data=discrim3;
run;
Esempio: l’analisi discriminante
La procedura DISCRIM Osservazioni 145 Totale DF 144 Variabili 10 DF entro classe 141 Classi 4 DF tra classi 3 Informazioni sul livello di classificazione Nome Probabilità ruolo variabile Frequenza Peso Proporzione a priori C C 39 39.0000 0.268966 0.268966 L L 18 18.0000 0.124138 0.124138 P P 25 25.0000 0.172414 0.172414 S S 63 63.0000 0.434483 0.434483 Informazioni matrice di covarianza 'pooled' Log naturale della Covariance determinante della Matrix Rank matrice di covarianza 10 -37.72720
Esempio: l’analisi discriminante
Funzione discriminante lineare _ -1 _ -1 _ Costante = -.5 X' COV X + ln PRIOR Coefficiente = COV X j j j Vettore j
. Funzione discriminante lineare per ruolo Variabile C L P S Costante -7.70970 -5.96995 -4.26840 -5.37034 bACEXset -6.69731 -2.17319 8.99494 1.03100 bERRXset 12.18781 -0.90295 8.18720 3.45569 rERRXset 5.10592 7.41233 -0.60761 13.23917 rNEGXset -2.75047 -1.52309 -0.37207 1.64138 rPERFXset 0.58283 2.85690 0.08820 -0.64351 aERRXset -12.84890 3.57172 -4.73795 3.37553 aMURXset 3.08011 -2.04025 1.75106 2.17704 aPERFXset 0.54434 -0.24761 -0.98467 1.01794 mPERFXset 21.17576 -1.34662 3.23946 1.12768 mINVXset 7.91893 2.57431 39.68746 -3.49818
H2(x)
Esempio: l’analisi discriminante
D (X) = (X-X )' COV (X-X ) - 2 ln PRIOR j j j j Probabilità a posteriori di appartenenza in ogni ruolo 2 2 Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X)) j k k
H2(x)
Esempio: l’analisi discriminante
Oss nome ruolo C L P S _INTO_ 1 Turlea S 0.00010 0.00001 0.00000 0.99989 S 2 Francia S 0.00001 0.00000 0.00000 0.99999 S 3 Togut S 0.01400 0.00000 0.00023 0.98577 S 4 Aguero S 0.00223 0.00001 0.00087 0.99689 S 5 Godina S 0.00286 0.00000 0.01327 0.98386 S 6 Centoni S 0.00236 0.00000 0.00002 0.99762 S 7 Kilic S 0.00018 0.00001 0.00002 0.99980 S 8 Moreno S 0.00001 0.00000 0.00004 0.99995 S 9 Tavares S 0.00028 0.00002 0.00085 0.99884 S 10 Piccinin S 0.00445 0.00085 0.00014 0.99457 S 11 Pachale S 0.00003 0.02197 0.00001 0.97799 S 12 Osmokrov S 0.46162 0.01223 0.00106 0.52509 S 13 Rinieri S 0.00027 0.00266 0.00002 0.99706 S 14 Gruen S 0.00473 0.03433 0.00113 0.95981 S 15 Cella S 0.00000 0.01111 0.00001 0.98888 S 16 Corjeuta S 0.02780 0.00007 0.00035 0.97178 S 17 Borrelli S 0.00109 0.04952 0.00010 0.94929 S 18 Fiorin S 0.00001 0.00160 0.00000 0.99838 S 19 Zetova S 0.79235 0.00006 0.01333 0.19426 C 20 Quaranta S 0.00039 0.00067 0.00038 0.99856 S 21 Fratczak S 0.00000 0.00001 0.00000 0.99999 S 22 Jerkov S 0.00008 0.00231 0.00808 0.98953 S 23 Djerisil S 0.00018 0.00029 0.00239 0.99714 S
Esempio: l’analisi discriminante
).
Numero di osservazioni e percentuale classificata in ruolo Da ruolo C L P S Totale C 35 1 3 0 39 89.74 2.56 7.69 0.00 100.00 L 0 15 3 0 18 0.00 83.33 16.67 0.00 100.00 P 2 0 23 0 25 8.00 0.00 92.00 0.00 100.00 S 2 1 4 56 63 3.17 1.59 6.35 88.89 100.00 Totale 39 17 33 56 145 26.90 11.72 22.76 38.62 100.00 A priori 0.26897 0.12414 0.17241 0.43448
Esempio: l’analisi discriminante
Stime conteggio errori per ruolo C L P S Totale Tasso 0.1026 0.1667 0.0800 0.1111 0.1103 A priori 0.2690 0.1241 0.1724 0.4345
Cross-val