1 Analisi dei dati per la comunicazione Introduzione all’analisi bivariata: il caso di caratteri qualitativi Prof.ssa Isabella Mingo A.A. 2017-2018 Relazioni Statistiche • Analisi dell’associazione Indipendenza Interdipendenza Dipendenza L’analisi congiunta di due o più caratteri è utile per studiare le relazioni tra di essi. ADC-FSSC
19
Embed
Relazioni Statistiche · 2017-12-01 · 1 Analisi dei dati per la comunicazione Introduzione all’analisi bivariata: il caso di caratteri qualitativi Prof.ssa Isabella Mingo A.A.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
1
Analisi dei dati per la comunicazione
Introduzione all’analisi bivariata: il caso di caratteri qualitativi
L’analisi congiunta di due o più caratteri è utile per studiare le relazioni tra di essi.
ADC-FSSC
2
Tipi di relazioni tra caratteri
• Indipendenza statistica (relazione simmetrica ):– Due caratteri sono statisticamente indipendenti quando
la conoscenza delle modalità di uno non consente diprevedere le modalità dell’altro
• Dipendenza (relazione asimmetrica):– Due caratteri sono dipendenti quando si può stabilire un
legame unidirezionale tra le modalità di un carattere equelle di un altro
• Interdipendenza (relazione simmetrica) :– Due caratteri sono interdipendenti quando si può stabilire
un legame bidirezionale tra le modalità di un carattere equelle di un altro.
ADC-FSSC
Indipendenza Statistica• Due caratteri sono statisticamente indipendenti
quando la conoscenza di uno dei due caratterinon migliora la “previsione” della modalitàdell’altro
• Assenza di qualsiasi legame tra i due caratteri• Relazione simmetrica: se X è indipendente da Y
allora Y è indipendente da X
ADC-FSSC
3
Indipendenza Statistica in una tabella doppia
In una tabella a doppia entrata si ha indipendenzatra i due caratteri X e Y se le distribuzioni relativecondizionate di X rispetto alle modalità di Y sonotra loro uguali e uguali alla distribuzione relativamarginale
Matrice profili riga ha tutte le righe uguali Matrice profili colonna ha tutte le colonne uguali
• La differenza fra i valori corrispondenti nij e n*ij (valoriosservati e valori attesi nell’ipotesi di indipendenza fra levariabili studiate) indica quanto la situazione osservatasi discosta da quella di indipendenza:– se la differenza è nulla, o è piccola, non c’è relazione tra i
caratteri– se i valori sono grandi allora si può ipotizzare che c’è una
relazione .• Ma quando questa differenza può essere considerata
piccola o grande?• Per rispondere a questo quesito bisogna conoscere la
distribuzione del test statistico del Chi Quadrato, di cui sioccupa la statistica inferenziale.
2
Caratteristiche del Chi quadrato• Nel calcolo del Chi quadrato il ruolo delle variabili è
simmetrico.• Il Chi quadrato non cambia se le modalità sono ordinate in
modo diverso: è un test in cui le variabili sono sempretrattate come qualitative non ordinabili .
• Il Chi quadrato non fornisce una misura dell’associazionefra variabili qualora queste fossero dipendenti, ci dicequanta evidenza c’è a favore della dipendenza, ma nonmisura la forza di questa dipendenza.
• Il valore del Chi quadrato dipende dal numero di unitàstatistiche, tende a crescere all’aumentare del numerodelle righe e delle colonne della tabella di contingenza.
9
Indici di associazione:Indice di contingenza quadratica media
(phi quadro)
L’influenza del numero di unità n è eliminata Assume valore 0 se X e Y sono perfettamente
indipendenti Se H=K=2 allora sicuramente il valore
massimo = 1
nχΦ
22
Proprietà
ADC-FSSC
Indice di associazione: Indice di Cramer
Assume valori compresi tra 0 e 1 Assume valore 0 se X e Y sono perfettamente
indipendenti Assume valore 1 quando i due caratteri sono perfettamente associati e H=K Y dipende perfettamente da X e H<K X dipende perfettamente da Y e H>K
Sapendo che su una tabella di contingenza in cui si riporta la distribuzione doppia di 1000 intervistati, incrociando in riga il quotidiano letto (modalità: Gazzetta dello Sport, Repubblica, Corriere della Sera, Stampa) e la loro condizione professionale dei clienti (modalità: Imprenditore, Artigiano, Lavoratore dipendente, Libero Professionista) si è ottenuto :2 = 988,07
Calcolare : PHI e V di Cramer
Come si interpretano i risultati ottenuti?
calcoli
Analisi bivariata tra caratteri quantitativi
FSSC 2017-2018
12
La relazione tra due variabili quantitative
01/12/2017a.a 2010-2011FSSC Pagina 194
Scatter-Plot o Grafico di Dispersione
Rappresenta la distribuzione unitaria doppia di 2 caratteriquantitativi
Sull’asse delle ascisse (X) e su quello delle ordinate (Y)sono riportati rispettivamente i valori numerici dellemodalità assunti dalle due variabili rilevate su ogni u.s.
L’insieme di punti così ottenuto si chiama nuvola di puntie consente di studiare la dispersione delle u.s. e la lorosomiglianza
La forma della nuvola può suggerire l’esistenza e la formadella relazione tra i due caratteri
FFSC a.a 2017-2018
13
Rappresentare la relazione tra due variabili quantitative : esercizio
• Si considera la distribuzione unitaria di 2 caratteri quantitativi X e Y
• Si analizza l’associazione dei due caratteri attraverso l’analisi dello scatter plot o mediante indici simmetrici che valutano la presenza di Concordanza: u.s. con valori piccoli (grandi) di un
carattere presentano più frequentemente valori piccoli (grandi) dell’altro carattere
Discordanza: u.s. con valori piccoli (grandi) di un carattere possiedono più frequentemente valori grandi (piccoli) dell’altro carattere
ADC-FSSC a.a 2017-2018
14
Pagina 198
.. .si puo analizzare l’interdipendenza graficamente
Per rilevare interdipendenza tra X e Y si può usare lo scatter-plotSecondo la forma della nuvola dei punti si ha Concordanza: nuvola
allungata verso alto a destra Discordanza: nuvola
allungata verso alto a sinistra Assenza di interdipendenza
lineare: nuvola pressochécircolare
Relazione diretta (concordanza)
05
10152025303540
0 2 4 6 8 10 12 14
Variabile X
Var
iabi
le Y
Relazione inversa (discordanza)
-20
-15
-10
-5
0
5
10
0 2 4 6 8 10 12 14
Variabile XVa
riabi
le Y
FSSC - Bocci a.a 2010-2011
Assenza di interdipendenza lineare: nuvola pressoché circolare
…continua
FSSC Mingo
15
Assenza di interdipendenza lineare: relazioni quadratiche
…continua
FSFSC -
Interdipendenza tra due caratteri quantitativi
• Per misurare il legame che esiste tra due caratteri quantitativi si utilizza la covarianza, definita come la media dei prodotti degli scostamenti delle variabili X e Y dalle rispettive medie:
N
MyMxYXCov
N
iyixi
xy
1
)()(),(
Questo valore sarà :•Nullo nel caso di indipendenza statistica•Positivo in caso di concordanza perché al crescere della X anche la Y crescerà di conseguenza le differenze avranno lo stesso segno.•Negativo in caso di discordanza, perché all’aumentare della X corrisponderà una diminuzione della Y e viceversa.•se dividiamo la covarianza per il prodotto delle deviazioni standard delle 2 variabili , otteniamo un valore standardizzato, che oscilla fra –1 e +1: il coefficiente di correlazione r di Pearson
16
Coefficiente di correlazione lineare r di Bravais-Pearson
YX
XYYVarXVar
YXCovr
)()(),(
nulla) a(covarianz 0 0
misura) di unità ha(non puro numeroun È
11
XYr
r
Assume valori tra –1 e +1Se i due caratteri sono statisticamente indipendenti allora sXY =0 e r=0Se r=0 non è detto che X e Ysiano statisticamente indipendentir>0 sXY >0 X e Y sono correlati positivamente (concordi)r<0 sXY <0 X e Y sono correlati negativamente (discordi)
FSSC- a.a 2017-2018
IL Coefficiente di correlazione lineare di Bravais e Pearson
• è una misura della relazione lineare esistente tra due variabili ovvero una misura della l’interdipendenza che esiste tra le due distribuzioni.
r misura una relazione simmetrica di tipo lineare cha varia tra -1 e +1 . Convenzionalmente:
Regione X YPIE 24,78 7,0LOM 27,06 4,1EMR 25,58 5,0LAZ 23,11 11,4CAM 14,22 21,5PUG 15,17 16,1Somma 129,92 65,1
21,65 10,85
(x j-MX )(y j -MY)-12,051-36,518-22,991
0,803-79,130-34,020
-183,905
Step per calcolare il coefficiente di correlazione
ADC-FSSC
1. Calcolare la media aritmetica di ciascun carattere2. Calcolare per ciascuna modalità di ciascun carattere gli
scarti dalla rispettiva media3. Ottenere la covarianza
• Moltiplicare per ciascuna modalità gli scarti dei due caratteri ottenuti al punto 2.
• Sommare i prodotti così ottenuti.• Dividere questa somma dei prodotti per il numero di unità
statistiche.4. Ottenere gli scarti quadratici medi
• Elevare al quadrato gli scarti dalla media di ciascuna modalità• Sommare per ogni carattere i quadrati così ottenuti• Dividere ciascuna di queste somme per il numero di unità
statistiche per ottenere le varianze.• Estrarre le radici quadrate per ottenere gli scarti quadratici
medi-
5. Ottenere r1. Dividere la covarianza (ottenuta al punto 3) per il prodotto degli
scarti quadratici medi dei due caratteri (ottenuti al punto 4).