Tecniche statistiche di analisi del cambiamento 01-Ripasso statistica descrittiva (v. 1.5a, 12 dicembre 2018) Germano Rossi 1 [email protected]1 Dipartimento di Psicologia, Università di Milano-Bicocca 2018-19 G. Rossi (Dip. Psicologia) Tsac 2018-19 1 / 48
48
Embed
Tecniche statistiche di analisi del cambiamento · poi della verifica di ... Id Genere corporatura confezioni in offerta spesa a F ... È un’indicazione generica di come sta andando
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Tecniche statistiche di analisi del cambiamento01-Ripasso statistica descrittiva
In questo corso, basandomi sugli anni precedenti, ho notato cheuna parte degli studenti non ha fatto statistica alla triennaleuna parte degli studenti ha fatto statistica alla triennale, ma non laricordauna parte degli studenti non ha idea di cosa sia SPSS o altrosoftware per l’analisi dei dati
Per questo motivo iniziamo con un ripasso della statistica descrittiva,poi della verifica di ipotesi e delle principali tecniche di analisi dei datiche vengo affrontate normalmente nella triennale di questo Ateneo esuccessivamente, più in dettaglio, tecniche già fatte alla triennale, maampliate:
t-testchi-quadro
correlazioneregressione
analisi dellavarianza
G. Rossi (Dip. Psicologia) Tsac 2018-19 3 / 48
Livelli di misura
Riassumiamo in una tabella alcune informazioni: le colonne contengono“variabili”; le righe, “casi statistici”; le celle contengono “valori”
Id Genere corporatura confezioni in offerta spesa
a F grassa 12 180b M media 2 50c F mingherlina 4 40
Il genere si limita a distinguere categorie fra loro diverse
La corporatura oltre a distinguere le categorie, permette anche dimetterle in ordine (da magro a grasso), ma non è possibile quantificarela differenza fra “mingherlina” e “normale” o fra “media” e “grassa”
Le variabili confezioni e spesa usano anche un’unità di misura epermettono di quantificare le differenze fra i diversi valori (fra 2 e 4confezioni c’è una differenza di 2)
G. Rossi (Dip. Psicologia) Tsac 2018-19 4 / 48
Livelli di misura: tipologie
I diversi modi di misurare si chiamano livelli di misura o scale dimisuraI livelli di misura possono essere classificati con diverse modalità
categorie: tutte le forme dimisurazione che possono nonessere indicate con dei numeri(ad es. colore capelli, titolo distudio...punteggi: tutte le misurazioniche sono necessariamenteindicate con numeri (ad es.età, anni di studio...)
qualitative: tutte le forme dimisurazione che esprimono laqualità di ciò che vienemisurato (titolo di studio)
quantitative: tutte le forme dimisurazione che esprimono laquantità di ciò che vienemisurato tramite un valorenumerico (anno di nascita)
G. Rossi (Dip. Psicologia) Tsac 2018-19 5 / 48
Livelli di misura: tipologie
I livelli di misura possono essere classificati con diverse modalità
quantitative discrete:tutte le forme dimisurazione cheprocedono a salti (ades. numero di errori,numero di persone inuna stanza...)quantitative continue:tutte le misurazioni chesono espresse comeapprossimazione (ades. peso, altezza...)
nominali: misurazioni che possonoutilizzare solo etichette (capelli rossi)ordinali: misurazioni che permettonodi ordinare in qualche modo i valori(titolo di studio)intervallo: misurazioni che utilizzanoun’unità di misura senza un’originefissa (anno di nascita)a rapporto: misurazioni cheutilizzano un’unità di misura conorigine fissa (età, peso)
G. Rossi (Dip. Psicologia) Tsac 2018-19 6 / 48
Riconoscere i livelli di misura
Fra i livelli di misura, la tipologia più utilizzata è l’ultima.Come possiamo riconoscere a quale livello stiamo misurando?
1 I valori di ciò che stiamo misurando permettono valori diversi?No, allora è una costante. Non è una variabile!
2 Prendiamo due qualunque valori possibili di quella variabile3 Possiamo dire che sono uguali o sono diversi?
Sì, allora siamo almeno a livello nominale4 Possiamo in qualche modo ordinare questi valori?
Sì, allora siamo almeno a livello ordinale5 Possiamo identificare un’unità di misura specifica?
Sì, allora siamo almeno a livello intervallo6 L’unità di misura ha un punto d’origine assoluto?
No, allora siamo a livello intervalloSì, allora siamo a livello a rapporto
G. Rossi (Dip. Psicologia) Tsac 2018-19 7 / 48
Livelli di misura: applicazione 1
Usando le variabili della slide 4:Genere: selezionando 2 qualunque individui posso dire se sonoentrambi dello stesso sesso o no, non posso metterli in ordine ⇒Nominale, Categoriale, QualitativaCorporatura: selezionando 2 qualunque individui diversi, possometterli in ordine (dal mingherlino a grasso), ma non ho un’unità dimisura ⇒ Ordinale, Categoriale, QualitativaConfezioni: selezionando 2 qualunque individui diversi, possometterli in ordine (di confezioni) e posso usare un’unità di misuracon il punto origine assoluto, posso metterli in ordine (damingherlino a grasso), ma non ho un’unità di misura ⇒ Rapporto,Punteggio, Quantitativa, DiscretaSpesa: idem come sopra ⇒ Rapporto, Punteggio, Quantitativa,Continua
G. Rossi (Dip. Psicologia) Tsac 2018-19 8 / 48
Livelli di misura: applicazione 2
Usando le variabili della slide 5:Colore capelli: i colori sono delle semplici etichette, per cui ⇒Nominale, Categoriale, QualitativaTitolo di studio: sono delle etichette ma vanno acquisiti in ordineben preciso, non c’è un’unità di misura ⇒ Ordinale, Categoriale,QualitativaEtà: in qualunque modo sia misurata (anni, mesi...) ⇒ Rapporto,Punteggio, Quantitativa, ContinuaAnni di studio: è simile al Titolo di studio, ma qui si consideranogli anni di studio ⇒ Rapporto, Punteggio, Quantitativa, DiscretaAnno di nascita: l’anno di nascita non ha un’origine assoluta(l’anno 0 è arbitrariamente fissato) ⇒ Intervallo, Punteggio,Quantitativa, Continua
G. Rossi (Dip. Psicologia) Tsac 2018-19 9 / 48
Livelli di misura: applicazione 3
Usando le variabili della slide 6:Numero di errori: l’errore è l’unità di misura; l’origine è assoluta⇒ Rapporto, Punteggio, Quantitativa, DiscretaNumero di persone in una stanza: la persona è l’unità di misura⇒ Rapporto, Punteggio, Quantitativa, DiscretaPeso: misurato in chili o in grammi c’è comunque un’unità dimisura, con origine assoluta ⇒ Rapporto, Punteggio,Quantitativa, ContinuaAltezza: l’unità di misura può variare (metri o centimetri) ma tuttevengono espresse con la stessa unità ⇒ Rapporto, Punteggio,Quantitativa, Continua
G. Rossi (Dip. Psicologia) Tsac 2018-19 10 / 48
Statistica descrittiva
Avendo un insieme di dati, possiamo fare delle analisi che hanno loscopo di dare delle informazioni sintetiche su alcuni aspetti dei datistessi.I tipi di statistiche descrittive possibili sono:
Rappresentazioni riassuntive (sia grafiche sia testuali)Statistiche della tendenza centrale: danno indicazioni sullaprevalenza dei datiStatistiche di posizione: associano certi valori con la posizioneche occupano nella distribuzione e viceversaStatistiche di variabilità: come i dati sono dispersi
G. Rossi (Dip. Psicologia) Tsac 2018-19 11 / 48
Rappresentazioni riassuntive
Nate per esprimere a colpo d’occhio l’insieme dei datiTabelle di frequenza: riportano i valori della variabile misurata conle relative frequenze e percentualiGrafici a barre: rappresentano graficamente la tabella difrequenza con variabili nominali/ordinaliIstogrammi: rappresentano graficamente la tabella di frequenzacon variabili intervallo/rapporto
f %F 13 43,3M 17 56,7
Tot 30
Istogramma
Reddito
Fre
quen
ze
0 5000 10000 15000 20000 25000 30000
010
2030
4050
G. Rossi (Dip. Psicologia) Tsac 2018-19 12 / 48
Statistiche di posizione
Pensate per variabili almeno a livello ordinalei valori vengono ordinati dal più piccolo al più grandeSi suddivide l’intera distribuzione in n parti ugualisi usa la posizione centrale o delle due metà per avere informazionisui dati
la formula generica per trovare laposizione dove cade l’n-tile è:
Nparti
G. Rossi (Dip. Psicologia) Tsac 2018-19 13 / 48
Statistiche della tendenza centrale
È un’indicazione generica di come sta andando la distribuizione dellavariabile
Nominale: Moda (Mo) cioè il valore più frequenteOrdinale: Mediana (Mdn) è il valore in posizione centrale delladistribuzione (pressapoco N/2)Intervallo/Rapporto: Media aritmetica, (X̄ , Md, M) è la somma(∑︁
) di tutti i valori di una distribuzione, divisa per la numerosità(N o N-1)
X =
∑︀Ni=1 Xi
N=
∑︀X
Noppure
∑︀X
N − 1
G. Rossi (Dip. Psicologia) Tsac 2018-19 14 / 48
Statistiche di variabilità
Danno indicazioni su quanto sono dispersi i dati attorno alla tendenzacentrale
Nominale: Numero delle classi di equivalenza (non usata)Ordinale: Primo e terzo quartile (Q1 e Q3)Intervallo/Rapporto: Campo di variazione o gamma (dioscillazione) o range o intervallo (Max - Min)Intervallo/Rapporto: Differenza interquartilica (DI o IQR), Q3-Q1Intervallo/Rapporto: Varianza (s2 e deviazione standard (s)
s2 =
∑︀(Xi − X )2
N − 1s =
√︀s2
G. Rossi (Dip. Psicologia) Tsac 2018-19 15 / 48
Punteggi standardizzati
I punteggi grezzi (quindi a livello I/R) possono essere espressi inpunteggi standardizzatiI punteggi standardizzati (o punti z) sono espressi usando ladeviazione standard come unità di misura
z =X − X
s
Il punto z risponde alla domanda “Il punteggio X a quantedeviazioni standard dista dalla media?”Per cui i punti z hanno media 0 e deviazione standard 1Valori negativi indicano punteggi inferiori alla mediaValori positivi, punteggi sopra la media
G. Rossi (Dip. Psicologia) Tsac 2018-19 16 / 48
Punteggi standardizzati
Dal momento che qualunque valore di qualunque variabile I/R puòessere trasformata in un punto z...i punti z sono una trasformazione che permette di confrontare fraloro variabili diverse
EsempioAndrea è stato valutato da uno psicologo con un test di abilitàmatematiche e uno di abilità verbali. I suoi punteggi sono statitrasformati in punti z e corrispondono a:matematiche -0.21; verbali +1.75Andrea ha abilità matematiche che sono poco inferiori a quelli dellamaggior parte della gente (il 42% delle persone ha un punteggioinferiore al suo), mentre ha capacità verbali che sono superiori aquelle del 96% delle persone.
G. Rossi (Dip. Psicologia) Tsac 2018-19 17 / 48
Punteggi standardizzatiCome siamo passati da un punto z ad una %?
Una variabile con N molto grande che si distribuisce normalmente,trasformata in punti z tende ad avvicinarsi alla curva normaleEsiste una tabella dei punti z, costruita su una particolare curvanormale: quella che ha M=0 e s=1questa tabella serve per trovare l’area della curva normalecorrispondente ad un determinato punto zLe tabelle possono riportare informazioni diverse che fannoriferimento alla stessa cosa.
G. Rossi (Dip. Psicologia) Tsac 2018-19 18 / 48
Tavole della distr. normale
La curva normale è simmetricaQuindi ogni metà è il 50%Allontanandoci da z=0abbiamo aree simili per z similiz=-0.10 -> 3.98% sotto lamediaz=0.10 -> 3.98% sopra lamedia
G. Rossi (Dip. Psicologia) Tsac 2018-19 19 / 48
Esempio di Tavola della distr. normale
Welkowitz, Cohen, Ewen Tavola A (p. 473 ss.)
La tavola riporta le proporzione di area sottese alla curva normale calcolate apartire dalla media (ricordarsi che l’intera area è simmetrica)
Per ogni punto z vieneindicata l’area fra z=0 e ilpunto z stesso (area in grigio)La proporzione di area èindicata come percentuale(34,13) con due decimaliSi può trasformare facilmentein proporzione (.3413)
G. Rossi (Dip. Psicologia) Tsac 2018-19 20 / 48
Tavole della distr. normale
La prima colonna indica il primo decimale del punto z, ogni colonna successivaindica il secondo decimale
All’incrocio fra una riga (ad es. 0,3) e una colonna (0,05) troviamo l’areacorrispondente (espressa in %)
Es. l’area fra z=0,35 e 0 è pari a 13,68
Es. l’area fra z=0,05 e 0 è pari a 1,99
G. Rossi (Dip. Psicologia) Tsac 2018-19 21 / 48
Tavole della distr. normale
La prima colonna indica ilpunto z (con 2 decimali)La seconda colonnariporta l’area fra il punto ze la media (espressacome %)Es. l’area fra z=0,05 e 0 èpari a 1,99La terza colonna riportal’area fra il punto z e lacoda positiva (espressacome %)Es. l’area fra z=0,05 e lacoda positiva è pari a50-1,99=48.01
G. Rossi (Dip. Psicologia) Tsac 2018-19 22 / 48
Tavole della distr. normale
La prima colonna indica ilpunto z (con 2 decimali)
La seconda colonna riportal’area fra il punto z e la codanegativa
Es. l’area fra z=0,05 e lacoda negativa è pari a50+1,99=51.99
La terza colonna riportal’area fra il punto z e la codapositiva
La quarta colonna riporta ilvalore dell’ordinatacorrispondente al punto z
G. Rossi (Dip. Psicologia) Tsac 2018-19 23 / 48
Scale derivate dai punti z
Ci sono scale standardizzate utilizzate comunemente in psicologia(specie per i test) che derivano dai punti zpunteggi T: hanno media 50 e ds=10. Si ottengono conT = 10z + 50QI o IQ: la maggior parte dei test d’intelligenza (come il WAIS)utilizza una media di 100 e ds=15. Si ottengono conQI = 15z + 100QI o IQ: il test d’intelligenza Stanford-Binet utilizza una media di100 e ds=16. Si ottengono con QI = 16z + 100
G. Rossi (Dip. Psicologia) Tsac 2018-19 24 / 48
Cos’è SPSS
SPSS significa Statistical Package for Social Sciences (Pacchettostatistico per le scienze sociali) ed è un programma per gestire dati ecalcolare statistiche. Ma adesso si chiama IBM Spss
Permette di inserire, nominare e gestire le misurazioni statistichePermette di manipolare le variabili (in modo analogo ai foglielettronici)Permette di calcolare le statistiche descrittive, di fare graficiPermette di fare l’analisi dei dati
Esiste un clone “open source” chiamato PSPP gratuito (ma non ancoracompleto)Esiste anche un software che imita SPSS solo nell’aspetto, ma usa R per farei calcoli: Jamovi, gratuito (ma non ancora completo) che userò qualche voltain classe
In Spss si può fare solo quello che è previsto dal software; i graficinon sono bellissimiIn Excel si possono fare molti più grafici (anche più “belli”)In R (usato in questi lucidi) si può fare praticamente tutto, ma èmolto più complicato
G. Rossi (Dip. Psicologia) Tsac 2018-19 30 / 48
Spss: frequenze
Calcoliamo lefrequenze con ilcomandoAnalizza |Statistichedescrittive |Frequenze...
Poi spostiamo unavariabilenominale/ordinalefra le VariabiliE premiamo OK
G. Rossi (Dip. Psicologia) Tsac 2018-19 31 / 48
Spss: frequenze
G. Rossi (Dip. Psicologia) Tsac 2018-19 32 / 48
Spss: istogramma (Frequenze)
Analizza | Statistichedescrittive |Frequenze...
Pulsante Grafici...
Selezioniamo Istogramma
eventualmente anche Concurva normale
Pulsante Continua
e OK
G. Rossi (Dip. Psicologia) Tsac 2018-19 33 / 48
Spss: istogramma (Esplora)
Analizza | Statistichedescrittive |Esplora...
Pulsante Grafici...
Selezioniamo Istogramma
(non è possibile avere la curvanormale)
Pulsante Continua
e OK
G. Rossi (Dip. Psicologia) Tsac 2018-19 34 / 48
Spss: istogramma (Frequenze/Esplora)
Spss usaautomaticamente gliintervalli di classe
non è possibilemodificarel’ampiezza di classe
La curva normalenon c’è conEsplora
G. Rossi (Dip. Psicologia) Tsac 2018-19 35 / 48
Spss: n-tili (Frequenze)
In Statistiche...
Quartili calcola i quartili
Punti di divisione divide inn parti uguali
Percentili: scrivete ilpercentile che volete eaggiungete
Qui abbiamo chiesto: i quartili, iterzili e il 45esimo percentile<—- Qui i risultati espressi comepercentili
G. Rossi (Dip. Psicologia) Tsac 2018-19 36 / 48
Spss: Esplora...
Dopo aver scelto le variabili, metterle in Variabilidipendenti
poi
click-are suStatistiche... e
scegliere Percentili
Quindi, click-are suContinua
Poi OK
G. Rossi (Dip. Psicologia) Tsac 2018-19 37 / 48
Spss: Esplora...
Esplora non permette di scegliere, ma fornisce alcuni n-tili notevoli
I tre quartili e i valori corrispondenti al 5% e 10% su entrambi i lati.Questi valori hanno particolarmente senso con variabili “normali”(capiremo più avanti) e sono spesso riportati nei manuali distandardizzazione dei test psicologici.
La media viene visualizzata da Spss in molte procedure. Quellespecifiche sono:
Analizza | Statistiche descrittive |Frequenze... (fra le varie statistiche che è possibile stamparevi è anche la media)Analizza | Statistiche descrittive |Descrittive... (è la procedura specifica per le statistichedescrittive)Analizza | Statistiche descrittive | Esplora...(stampa la media come una delle diverse statistiche per capirel’andamento e la distribuzione di una variabile)
G. Rossi (Dip. Psicologia) Tsac 2018-19 40 / 48
Spss: Media con Frequenze...
Dopo aver scelto le variabili,
click-are su Statistiche... eselezionare Media
Quindi, click-are su Continua
Con variabili quantitative convienede-selezionare anche
oppure in Formato...
Poi OK
G. Rossi (Dip. Psicologia) Tsac 2018-19 41 / 48
Spss: Media con Descrittive...
Dopo aver scelto le variabili,
click-are su Opzioni...
Normalmente Media è giàselezionatoPotete ordinare i risultati in varimodiPoi OK
G. Rossi (Dip. Psicologia) Tsac 2018-19 42 / 48
Spss: Variabilità
Anche varianza e dev. st. sono visualizzate da Spss (sempre N-1) inmolte procedure. Quelle specifiche sono:
Analizza | Statistiche descrittive |Frequenze... (fra le varie statistiche vi è anche quelle divariabilità)Analizza | Statistiche descrittive |Descrittive... (è la procedura specifica per le statistichedescrittive)Analizza | Statistiche descrittive | Esplora...(stampa le misure di variabilità come parte delle diverse statisticheper capire l’andamento e la distribuzione di una variabile)
G. Rossi (Dip. Psicologia) Tsac 2018-19 43 / 48
Spss: Variabilità con Frequenze...
Dopo aver scelto le variabili, click-are su Statistiche... eselezionare quelle che servono
Quindi, click-are su Continua
Con variabili quantitative conviene selezionare anche
oppure in Formato...
Poi OK
G. Rossi (Dip. Psicologia) Tsac 2018-19 44 / 48
Spss: Variabilità con Descrittive...
Dopo aver scelto le variabili, click-are su Opzioni...
Poi Continua e OK
G. Rossi (Dip. Psicologia) Tsac 2018-19 45 / 48
Spss: punti z
Spss permette di calcolare i punti z di una variabile per ogni unitàstatistica, tramite Analizza | Statistiche descrittive| Descrittive... e attivando il flag Salva valoristandardizzati come variabili
G. Rossi (Dip. Psicologia) Tsac 2018-19 46 / 48
Spss: punti z
All’insieme dellevariabili, vieneaggiunta unavariabile con ilnomecorrispondentepreceduto dauna “Z”Questa variabilepuò essereusata comequalsiasi altra
G. Rossi (Dip. Psicologia) Tsac 2018-19 47 / 48
Autovalutazioni
Su elearning trovate 2 quiz di poche domande ciascuno, che potetefare e rifare tutte le volte che volete (ma tra un tentativo e l’altro dovetelasciar passare almeno 1 ora di tempo):
Quiz intitolato: Autovalutazione sulle scale di misura (10 domandeestratte casualmente da un database di 62, 15 minuti perrispondere)Quiz intitolato: Autovalutazione sulle statistiche descrittive (11domande estratte casualmente da un database di 88, 20 minutiper rispondere)