Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

L’ANALISI DISCRIMINANTEL’ANALISI DISCRIMINANTE

Corso di Laurea Magistrale in Scienze Statistiche

Esame di Statistica multivariata

A.A. 2009/2010

L’analisi discriminante

ANALISI DISCRIMINANTE BAYESIANA (1/2)ANALISI DISCRIMINANTE BAYESIANA (1/2)

In base a conoscenze preesistenti vengono assegnate le probabilità a priori alle sottopopolazioni, tali che:

Se si conoscono le distribuzioni, completamente specificate, del carattere X nelle p sottopopolazioni, è possibile utilizzare il teorema di Bayes per calcolare le probabilità a posteriori di ciascuna sotto-popolazione, “aggiornando” l’informazione a priori mediante la verosimiglianza campionaria.


ANALISI DISCRIMINANTE BAYESIANA (2/2)ANALISI DISCRIMINANTE BAYESIANA (2/2)

REGOLA DI CLASSIFICAZIONE: ATTRIBUIRE IL VETTORE OSSERVATO x ALLA SOTTOPOPOLAZIONE CHE HA LA MAGGIORE PROBABILITÀ DI AVERLO GENERATO, OVVERO NEL DETERMINARE IL GRUPPO j* A CUI È ASSOCIATA LA MASSIMA PROBABILITÀ A POSTERIORI:

La probabilità che, condizionatamente al valore delle k variabili rilevato, l’osservazione x sia generata dalla j-esima popolazione, è data da:


REGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRIBUZIONI DELLE SOTTOPOPOLAZIONI COMPLETAMENTE SPECIFICATEREGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRIBUZIONI DELLE SOTTOPOPOLAZIONI COMPLETAMENTE SPECIFICATE

Si assume che la j-esima sottopopolazione k-dimensionale abbia una certa distribuzione pj(x), j=1…p, completamente specificata nella forma e nei parametri

Obiettivo: classificare l’osservazione x nel gruppo per il quale la verosimiglianza è massima: x verrà assegnata alla j-esima sottopopolazione se


REGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRI-BUZIONI DELLE SOTTOPOPOLAZIONI MULTINORMALI OMOSCHEDASTICHEREGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRI-BUZIONI DELLE SOTTOPOPOLAZIONI MULTINORMALI OMOSCHEDASTICHE

Ipotizzando che le sottopopolazioni assumano distribuzioni multinormali omoschedastiche, la log-verosimiglianza relativa al j-esimo gruppo assume la forma:

Essa raggiunge il suo massimo in corrispondenza del gruppo a cui è associato il minimo della distanza di MahalaNobis al quadrato:

REGOLA DI CLASSIFICAZIONE: ASSEGNARE L’OSSERVAZIONE x AL GRUPPO IN CORRISPONDENZA DEL QUALE LA DISTANZA D2 E’ MINIMA

MN


Di conseguenza, la formula di Bayes assume la forma:

k

ii

j

k

ii

j

k

ii

jj

xH

xH

xD

xD

xD

xDxX

1

221

i

221

1i

221

i

j2

21

1

221

i

221

j

))((exp(-*

))((exp(-

)]ln2)((exp[-*

)ln2)((-exp

))(exp(-**cost

))(exp(-*cost*)(

COMBINANDO LA REGOLA DI ALLOCAZIONE DELLA MASSIMA VEROSIMIGLIANZA CON DISTRIBUZIONI DELLE SOTTOPOPOLAZIONI MULTINORMALI OMOSCHEDASTICHE E L’ANALISI DISCRIMINANTE BAYESIANA…(1/2)


MN




jjj xDxH ln2)()( 22 La quantità H2

j(x) è detta distanza al quadrato generalizzata di x dal gruppo j:

k

ii

jj

xH

xHxX

1

221

i

221

))((exp(-*

))((exp(-)(

In definitiva, la probabilità a posteriori che l’unità a cui è associato il vettore osservato x appartenga al j-esimo gruppo è data da:

REGOLA DI CLASSIFICAZIONE: ASSEGNARE L’OSSERVAZIONE x AL GRUPPO j IN CORRISPONDENZA DEL QUALE LA PROBABILITA’ A POSTERIORI E’ MASSIMA, DOVE CIOE’ LA DISTANZA QUADRATA GENERALIZZATA E’ MINIMA


CALCOLO DEGLI ERRORI: IL METODO DELLA CROSS-VALIDATIONCALCOLO DEGLI ERRORI: IL METODO DELLA CROSS-VALIDATION

Si prendono in considerazione nj-1 osservazioni del primo campione e tutte le n- nj+1 osservazioni restanti e si applica il procedimento descritto

per individuare la regola discriminante. In base ad essa si classifica l'osservazione esclusa dal primo campione.

Il procedimento viene ripetuto n volte, escludendo volta per volta ciascuna osservazione di ciascun gruppo.

La stima della probabilità di classificazione errata per gruppo viene individuata dividendo il numero di osservazioni riclassificate con la cross-validation diversamente dal gruppo di provenienza per il numero di osservazioni del gruppo di provenienza.

La stima della probabilità di classificazione errata generale è costituita da una media ponderata delle probabilità di classificazione errata per gruppo, con pesi dati dalle probabilità a priori associate a ciascun gruppo.

L’analisi discriminante: un esempio

LE VARIABILI (1/2)LE VARIABILI (1/2)

Nome giocatrice

Variabili di battuta: bXset = totale battute effettuate; bACEXset = numero di ace, cioè di battute che comportano

direttamente punto alla squadra; bERRXset = numero di battute errate;

Variabili di ricezione: rTOTXset = totale delle ricezioni effettuate; rERRXset = numero di ricezioni sbagliate; rNEGXset = numero di ricezioni che hanno influito

negativamente sulla continuazione del gioco; rPERFXset = numero di ricezioni eseguite perfettamente;

Esempio: l’analisi discriminante

LE VARIABILI (2/2)LE VARIABILI (2/2)

Variabili di attacco: ATOTXset = totale degli attacchi effettuati; aMURXset = numero di attacchi che sono stati murati

dalla squadra avversaria; aPERFXset = numero di attacchi che hanno comportato

direttamente punto per la squadra;

Variabili di muro: mINVXset = numero di invasioni a muro; mPERFXset = numero di muri perfettamente eseguiti

che comportano punto diretto alla squadra che mura;

Stat

Corr


I GRUPPII GRUPPI

I gruppi corrispondono al RUOLO in cui l’atleta ha giocato prevalentemente nel corso dell’ultimo campionato:

• S = schiacciatore• C = centrale• L = libero• P = palleggiatore


LA PROCEDURA

/* Analisi discriminante */

proc discrim data=Vstand out=discrim outstat=discrim2 method=normal pool=yes list crossvalidate;

class ruolo;

priors prop;

var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset aPERFXset mPERFXset mINVXset;

proc print data=discrim;

proc print data=discrim2;

data discrim3; set discrim (keep=nome ruolo C L P S _INTO_);


run;

LA PROCEDURA

/* Analisi discriminante */

proc discrim data=Vstand out=discrim outstat=discrim2 method=normal pool=yes list crossvalidate;

class ruolo;

priors prop;

var bACEXset bERRXset rERRXset rNEGXset rPERFXset aERRXset aMURXset aPERFXset mPERFXset mINVXset;

proc print data=discrim;


data discrim3; set discrim (keep=nome ruolo C L P S _INTO_);


run;


La procedura DISCRIM Osservazioni 145 Totale DF 144 Variabili 10 DF entro classe 141 Classi 4 DF tra classi 3 Informazioni sul livello di classificazione Nome Probabilità ruolo variabile Frequenza Peso Proporzione a priori C C 39 39.0000 0.268966 0.268966 L L 18 18.0000 0.124138 0.124138 P P 25 25.0000 0.172414 0.172414 S S 63 63.0000 0.434483 0.434483 Informazioni matrice di covarianza 'pooled' Log naturale della Covariance determinante della Matrix Rank matrice di covarianza 10 -37.72720


Funzione discriminante lineare _ -1 _ -1 _ Costante = -.5 X' COV X + ln PRIOR Coefficiente = COV X j j j Vettore j

. Funzione discriminante lineare per ruolo Variabile C L P S Costante -7.70970 -5.96995 -4.26840 -5.37034 bACEXset -6.69731 -2.17319 8.99494 1.03100 bERRXset 12.18781 -0.90295 8.18720 3.45569 rERRXset 5.10592 7.41233 -0.60761 13.23917 rNEGXset -2.75047 -1.52309 -0.37207 1.64138 rPERFXset 0.58283 2.85690 0.08820 -0.64351 aERRXset -12.84890 3.57172 -4.73795 3.37553 aMURXset 3.08011 -2.04025 1.75106 2.17704 aPERFXset 0.54434 -0.24761 -0.98467 1.01794 mPERFXset 21.17576 -1.34662 3.23946 1.12768 mINVXset 7.91893 2.57431 39.68746 -3.49818

H2(x)


D (X) = (X-X )' COV (X-X ) - 2 ln PRIOR j j j j Probabilità a posteriori di appartenenza in ogni ruolo 2 2 Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X)) j k k

H2(x)


Oss nome ruolo C L P S _INTO_ 1 Turlea S 0.00010 0.00001 0.00000 0.99989 S 2 Francia S 0.00001 0.00000 0.00000 0.99999 S 3 Togut S 0.01400 0.00000 0.00023 0.98577 S 4 Aguero S 0.00223 0.00001 0.00087 0.99689 S 5 Godina S 0.00286 0.00000 0.01327 0.98386 S 6 Centoni S 0.00236 0.00000 0.00002 0.99762 S 7 Kilic S 0.00018 0.00001 0.00002 0.99980 S 8 Moreno S 0.00001 0.00000 0.00004 0.99995 S 9 Tavares S 0.00028 0.00002 0.00085 0.99884 S 10 Piccinin S 0.00445 0.00085 0.00014 0.99457 S 11 Pachale S 0.00003 0.02197 0.00001 0.97799 S 12 Osmokrov S 0.46162 0.01223 0.00106 0.52509 S 13 Rinieri S 0.00027 0.00266 0.00002 0.99706 S 14 Gruen S 0.00473 0.03433 0.00113 0.95981 S 15 Cella S 0.00000 0.01111 0.00001 0.98888 S 16 Corjeuta S 0.02780 0.00007 0.00035 0.97178 S 17 Borrelli S 0.00109 0.04952 0.00010 0.94929 S 18 Fiorin S 0.00001 0.00160 0.00000 0.99838 S 19 Zetova S 0.79235 0.00006 0.01333 0.19426 C 20 Quaranta S 0.00039 0.00067 0.00038 0.99856 S 21 Fratczak S 0.00000 0.00001 0.00000 0.99999 S 22 Jerkov S 0.00008 0.00231 0.00808 0.98953 S 23 Djerisil S 0.00018 0.00029 0.00239 0.99714 S


).

Numero di osservazioni e percentuale classificata in ruolo Da ruolo C L P S Totale C 35 1 3 0 39 89.74 2.56 7.69 0.00 100.00 L 0 15 3 0 18 0.00 83.33 16.67 0.00 100.00 P 2 0 23 0 25 8.00 0.00 92.00 0.00 100.00 S 2 1 4 56 63 3.17 1.59 6.35 88.89 100.00 Totale 39 17 33 56 145 26.90 11.72 22.76 38.62 100.00 A priori 0.26897 0.12414 0.17241 0.43448


Stime conteggio errori per ruolo C L P S Totale Tasso 0.1026 0.1667 0.0800 0.1111 0.1103 A priori 0.2690 0.1241 0.1724 0.4345

Cross-val

Analisi discriminante - applicazione su dati campionato di pallavolo femminile italiano

Education