CORSO DI LAUREA IN ECONOMIA AZIENDALE Metodi Statistici per le decisioni d’impresa (Note didattiche) Bruno Chiandotto 1 4. STATISTICA DESCRITTIVA In questo capitolo si ritrovano esposti, in una prospettiva empirica, molti dei concetti introdotti in precedenza nel contesto teorico del calcolo delle probabilità. Per esprimere gli stessi concetti non sempre si utilizza la stessa terminologia, ad esempio qui si parlerà di variabile o distribuzione statistica e non di variabile casuale, si parlerà di frequenza relativa e non di probabilità, si parlerà di funzione di massa e di densità di frequenza, anziché di funzione di massa e di densità di probabilità, di funzione di frequenze cumulate, anziché di funzione delle probabilità cumulate, ecc. Oltre alla riproposizione in un contesto empirico degli indici sintetici già considerati nel contesto teorico, verranno introdotti ulteriori indici estendendo l’analisi alle mutabili statistiche, cioè, ai fenomeni collettivi le cui manifestazioni sono espresse con scale qualitative. In particolare, verranno introdotti indici di mutabilità, verranno considerati aspetti particolari della variabilità e si procederà ad adeguati approfondimenti riguardo al problema della misura dell’associazione tra caratteri. Nel contesto empirico l’elemento fondamentale di riferimento è l’ informazione e la statistica può essere identificata come disciplina che tratta di metodi attraverso i quali l’informazione stessa dovrebbe o potrebbe essere impiegata per ottenere, in funzione delle specificità del problema analizzato, una rappresentazione semplificata della realtà facendo emergere le caratteristiche che interessano in dipendenza degli obiettivi che s’intendono perseguire. In tale ottica assumono rilevanza ulteriori elementi quali l’esatta definizione della qualità e quantità d’informazione che s’intende acquisire, la decisione sui tempi e sui modi di acquisizione e la valutazione dei costi connessi. Relativamente all’informazione, si deve sottolineare che è opinione abbastanza diffusa quella di ritenere carente il patrimonio informativo disponibile, ma non è affatto infrequente imbattersi in situazioni nelle quali, pur in presenza di un patrimonio informativo rilevante, l’utilizzatore potenziale, non avendo chiari gli obiettivi che intende perseguire, non riesce a cogliere la portata e l’utilità del patrimonio stesso. Accade anche che l’utilizzatore (o chi per lui), pur avendo chiaramente definito gli
67
Embed
4. STATISTICA DESCRITTIVA - UniFI · 2009-03-25 · CORSO DI LAUREA IN ECONOMIA AZIENDALE Metodi Statistici per le decisioni d’impresa (Note didattiche) Bruno Chiandotto 1 4. STATISTICA
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
CORSO DI LAUREA IN ECONOMIA AZIENDALEMetodi Statistici per le decisioni d’impresa (Note didattiche)
Bruno Chiandotto
1
4. STATISTICA DESCRITTIVA
In questo capitolo si ritrovano esposti, in una prospettiva empirica, molti dei
concetti introdotti in precedenza nel contesto teorico del calcolo delle probabilità.
Per esprimere gli stessi concetti non sempre si utilizza la stessa terminologia, ad
esempio qui si parlerà di variabile o distribuzione statistica e non di variabile casuale, si
parlerà di frequenza relativa e non di probabilità, si parlerà di funzione di massa e di
densità di frequenza, anziché di funzione di massa e di densità di probabilità, di
funzione di frequenze cumulate, anziché di funzione delle probabilità cumulate, ecc.
Oltre alla riproposizione in un contesto empirico degli indici sintetici già
considerati nel contesto teorico, verranno introdotti ulteriori indici estendendo l’analisi
alle mutabili statistiche, cioè, ai fenomeni collettivi le cui manifestazioni sono espresse
con scale qualitative. In particolare, verranno introdotti indici di mutabilità, verranno
considerati aspetti particolari della variabilità e si procederà ad adeguati
approfondimenti riguardo al problema della misura dell’associazione tra caratteri.
Nel contesto empirico l’elemento fondamentale di riferimento è l’ informazione e
la statistica può essere identificata come disciplina che tratta di metodi attraverso i quali
l’informazione stessa dovrebbe o potrebbe essere impiegata per ottenere, in funzione
delle specificità del problema analizzato, una rappresentazione semplificata della realtà
facendo emergere le caratteristiche che interessano in dipendenza degli obiettivi che
s’intendono perseguire.
In tale ottica assumono rilevanza ulteriori elementi quali l’esatta definizione della
qualità e quantità d’informazione che s’intende acquisire, la decisione sui tempi e sui
modi di acquisizione e la valutazione dei costi connessi.
Relativamente all’informazione, si deve sottolineare che è opinione abbastanza
diffusa quella di ritenere carente il patrimonio informativo disponibile, ma non è affatto
infrequente imbattersi in situazioni nelle quali, pur in presenza di un patrimonio
informativo rilevante, l’utilizzatore potenziale, non avendo chiari gli obiettivi che
intende perseguire, non riesce a cogliere la portata e l’utilità del patrimonio stesso.
Accade anche che l’utilizzatore (o chi per lui), pur avendo chiaramente definito gli
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
2
obiettivi, non sia in grado, mancando di strumentazione metodologica adeguata, di trarre
dal patrimonio informativo disponibile la specifica informazione d’interesse.
La statistica, che si occupa della raccolta e del trattamento finalizzato dei dati,
entra, a pieno titolo, in ogni processo decisionale, finalizzato al conseguimento di uno
specifico obiettivo, che prevede l’utilizzo di informazioni. Un processo nel quale: a) gli
input (informazioni di base) sono costituiti da dati riferiti ad una specifica realtà, della
quale rappresentano qualitativamente e/o quantitativamente uno o più aspetti; b) la
trasformazione avviene attraverso l’impiego di procedure e metodi analitici; c) gli
output (i prodotti o informazioni statistiche) sono dati numerici il cui significato ed
interpretazione dipendono dagli input utilizzati e dal meccanismo logico e metodologico
di elaborazione.
Da quanto sopra detto, emergono almeno tre insiemi di elementi caratteristici: un
insieme di dati che vengono introdotti quali input nel processo di trasformazione, un
insieme di procedure di elaborazione e un insieme di prodotti costituito da tutte le
modalità assumibili dai risultati conseguenti l’applicazione delle procedure.
Si supponga ora che sia sempre possibile associare ad ogni prodotto la descrizione
delle conseguenze che scaturiscono dalla scelta, le quali assumeranno una fisionomia
particolare a seconda dell’oggetto del problema: se si tratta di operare una
compattazione di dati osservati con l’obiettivo di mettere in risalto una caratteristica
specifica del fenomeno, le conseguenze potranno essere descritte dalla perdita (di
informazione) determinata dal processo, oppure, se il problema è finalizzato alla scelta
di una modalità operativa, le conseguenze potranno essere identificate in perdite
monetarie o di altra natura ed essere, eventualmente, collegate ad errori commessi nel
processo di trasformazione.
Risulta, pertanto, definito un quarto insieme di elementi: l’insieme delle
conseguenze.
Il criterio guida nell’operare la trasformazione dei dati consiste, per quanto
possibile, nell’evitare conseguenze negative. Ne deriva che l’informazione circa le
conseguenze assume una rilevanza esclusiva ed un ruolo condizionante rispetto ad ogni
altra tipologia (disponibile) per la quale si renderà, appunto, necessario un confronto o,
meglio, una integrazione con i dati di perdita già definiti.
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
3
La traccia originale viene, quindi, specificata e organizzata secondo lo schema
seguente: avendo definito l’insieme dei risultati possibili (le informazioni statistiche) e
avendo individuato le perdite corrispondenti, l’elaborazione deve essere effettuata
avendo come obiettivo la minimizzazione della perdita.
Considerando che, con l’impostazione sopra delineata, sulla base di una funzione
di perdita viene selezionato l’elemento ottimo (quello cioè cui corrisponde la perdita
minima), risulta naturale attribuire agli specifici elementi che costituiscono l’insieme dei
prodotti l’identità di decisioni, nel senso che essi rappresentano le alternative possibili
del risultato di un problema del quale è stato specificato l’obiettivo. Si può, pertanto,
accantonare l’espressione processo di trasformazione (compattazione) delle
informazioni e fare riferimento al problema decisionale quale schematizzazione che
prevede la lista di tutti gli esiti possibili e la scelta di quello ottimo secondo il criterio di
minimizzazione della perdita.
Assumendo come struttura di base quella sopra introdotta è possibile formulare,
senza perdere in generalità e senza condizionamenti, ogni problema statistico in termini
decisionali.
A proposito dell’ultima affermazione fatta, sorge una problematica di estrema
rilevanza riguardo ai vantaggi e alle difficoltà, se non addirittura alla ragionevolezza,
propri di una impostazione quale è quella decisionale. Alcuni autori ritengono
l’impostazione decisionale applicabile ai soli problemi con finalità operative, altri
considerano (come l’autore di queste note didattiche) la logica decisionale applicabile,
secondo modalità particolari, a tutte le problematiche descrittive e/o inferenziali anche
quando queste sono caratterizzate da finalità esclusivamente conoscitive, altri ancora
ritengono la logica decisionale semplicistica ed oltremodo riduttiva.
Gli elementi a sostegno della impostazione decisionale sono innumerevoli e di
varia natura. Si può, innanzi tutto, osservare che la duplice finalità, conoscitiva ed
operativa, assegnata alla statistica quale disciplina scientifica, con conseguente
attribuzione dei problemi decisionali alla seconda finalità, si risolve, semplicemente,
nella specificazione della duplice tipologia di prodotti che vanno a costituire l’insieme
delle decisioni: a) le decisioni espresse come azioni da intraprendere e da realizzare
concretamente; b) le decisioni espresse come affermazioni da formulare le quali, a loro
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
4
volta, possono configurarsi come asserzioni che specificano la conformità
dell’evidenza osservata nei confronti di una o più ipotesi assunte a priori, come
asserzioni che specificano la stima di una quantità incognita e/o l’adattamento di un
modello teorico ad una realtà osservata, ecc.
Il problema si risolve sempre in una decisione, che poi questa sia orientata al cosa
dire o al cosa fare è solo una questione di specificità della situazione in cui lo statistico
opera. Se si parla poi di atti o decisioni in termini più generali, nel senso di scelte, la
suddivisione diventa addirittura artificiosa se si pensa che ogni azione può essere
considerata come l’effetto dell’affermazione: “ la decisione d” è la migliore possibile.
Ne scaturisce, allora, una differenza solo verbale, terminologica e, quindi, non
sostenibile dal punto di vista concettuale.
Un altro rilevante aspetto che può consigliare la scelta decisionale, risiede nella
logica interna propria della teoria (statistica) delle decisioni che induce a formulare ed
interpretare correttamente un problema statistico. Si tratta di una correttezza che può
essere ricondotta a due fatti essenziali: gli obiettivi che s’intendono perseguire e i dati
utilizzabili. L’obiettivo della minimizzazione della perdita evidenzia, infatti, la
parzialità e la particolarità del risultato che scaturisce dalla elaborazione: problemi
analoghi affrontati con specificazioni diverse della funzione di perdita possono
condurre, anzi generalmente conducono, a conclusioni diverse in quanto collegate ad
elementi diversi dell’insieme delle decisioni possibili. Quale soluzione è quella giusta è
quale è quella sbagliata? Nessuna delle due, oppure entrambe se viste in ottiche diverse;
il giudizio non deve essere formulato in termini di correttezza o errore, si può solo dire
che, ritenendo valida (accettabile, verosimile) una struttura di perdita così come è
rappresentata dalla funzione prescelta, la decisione migliore è quella che risulta dalla
imposizione della condizione di perdita minima.
L’ultima riflessione si ricollega alla necessità di attribuire ai dati una specifica
forma per poter ottenere una rappresentazione (compattazione) significativa degli stessi.
La realtà non è né descrivibile né rappresentabile senza ricorrere a schemi concettuali di
riferimento e in corrispondenza di ognuno di essi si ottiene un risultato, evidentemente
parziale e condizionato allo schema specificato. La logica decisionale, i cui risultati
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
5
sono condizionati alla particolare funzione di perdita specificata, fa emergere in modo
inequivocabile tale consapevolezza.
Si è già messo in evidenza come ogni problema statistico preveda la presenza di
unità statistiche portatrici delle informazioni e di dati statistici (informazioni di
base) che s’intendono analizzare.
Per quanto concerne le unità (statistiche) portatrici delle informazioni, si può
procedere all'introduzione di una tipologia generale che le distingue in:
a) elementi o insieme d'elementi;
b) tempi o intervalli temporali;
c) aree territoriali o "zone".
Relativamente ai dati statistici, quando questi riguardano fenomeni cosiddetti di
consistenza o di fondo e per i quali è ragionevole il riferimento ad un istante, si parla di
tempi, mentre quando i fenomeni sono di flusso, cioè con dati attribuibili a periodi, si
considerano intervalli temporali.
Una serie di dati statistici riferita a tempi successivi viene solitamente denominata
serie storica o serie temporale. La sua caratteristica peculiare è l’ordine di successione
predeterminato (informazione aggiuntiva), che deve essere tenuto presente ai fini delle
elaborazioni statistiche.
Una serie di dati statistici riferita a zone geografiche viene solitamente chiamata
serie territoriale. Nelle elaborazioni statistiche occorrerà tenere conto sia della
differente importanza eventualmente attribuibile a ciascuna zona, sia delle relazioni di
contiguità spaziale fra coppie di zone.
Nei casi in cui le unità di riferimento non possono essere considerate equivalenti
(elementi di diversa dimensione, zone di varia ampiezza), le elaborazioni statistiche
richiedono, in genere, l'adozione di un opportuno sistema di ponderazione, cioè di pesi
che esprimono l'importanza attribuita a ciascuna unità.
Fissati gli obiettivi che s’intendono perseguire ed individuato, in corrispondenza
agli obiettivi stessi, l’insieme dei dati statistici necessari, cioè le manifestazioni dei
fenomeni di interesse, può emergere la necessità di procedere all'effettiva rilevazione
delle manifestazioni dei fenomeni (raccolta dei dati statistici).
Il processo di rilevazione dei dati può essere distinto nelle seguenti quattro fasi:
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
6
- definizione del piano di rilevazione;
- raccolta effettiva dei dati;
- spoglio e classificazione.
La fase più delicata nel processo di rilevazione dei dati è senza dubbio quella
relativa alla definizione del piano di rilevazione. L'argomento, che per la sua importanza
meriterebbe una dettagliata trattazione, non viene qui affrontato: ci si limita pertanto a
richiamare la fondamentale distinzione delle rilevazioni riguardo alla loro ampiezza. In
questo contesto, le rilevazioni si dicono complete quando interessano tutte le
manifestazioni del fenomeno oggetto d'indagine, si dicono invece parziali o
campionarie le rilevazioni che interessano soltanto una parte delle manifestazioni.
L'insieme di tutte le possibili manifestazioni relative ad un certo fenomeno viene
detto popolazione mentre i fenomeni oggetto di analisi, si distinguono, in mutabili e
variabili a seconda della natura qualitativa o quantitativa delle loro manifestazioni.
Un fenomeno variabile, e cioè un fenomeno classificato secondo le modalità
quantitative di un suo carattere, può avere natura discreta o continua. Essendo il numero
associato a ciascuna modalità misurabile di un certo carattere usualmente detto variabile
(con le modalità, ma specifico di ciascuna modalità) statistica, da ora innanzi parleremo
di variabili statistiche (discrete o continue) senza stare a specificare ogni volta che si
sta trattando di un fenomeno classificato secondo le modalità quantitative di un suo
carattere (discreto o continuo).
- Variabili statistiche
Una variabile statistica discreta può assumere soltanto un insieme numerabile di
valori, mentre una variabile statistica continua potrà assumere tutti i valori all'interno di
un certo intervallo dell’asse reale. Sono variabili statistiche discrete il numero dei
soggetti affetti da cancro polmonare, il numero degli abitanti di una certa regione, ecc.;
sono variabili statistiche continue la temperatura di un corpo, l'età di un individuo, la
velocità di un'automobile, ecc. In linea generale tutte le grandezze relative allo spazio
(lunghezza, superficie, ecc.), al tempo (età, durata in vita, ecc.) e alla massa (peso,
pressione arteriosa, ecc.), sono delle variabili statistiche continue.
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
7
Analogamente a quanto già fatto quando si è trattato delle variabili casuali, si
parla di mutabili o variabili statistiche semplici, quando un fenomeno risulta classificato
secondo le modalità (qualitative o quantitative) di un solo carattere, si parla invece di
mutabili o variabili statistiche multiple, quando un fenomeno viene classificato secondo
le modalità (qualitative o quantitative) di più caratteri; nel caso in cui si considerino,
relativamente ad un certo fenomeno, caratteri aventi natura qualitativa e caratteri aventi
natura quantitativa, si parla di variabili statistiche miste.
Si consideri un insieme P di n manifestazioni relative ad un certo fenomeno F,
classificato secondo le modalità quantitative di un suo carattere; si indichino poi
simbolicamente con x1, x2,....,xk e con n1, n2,...., nk, le modalità quantitative distinte (che
supporremo ordinate in modo crescente) del carattere ed il numero delle volte con cui
esse si sono presentate. L'insieme delle coppie (x1, n1), (x2, n2),.....,(xk, nk) viene detto
distribuzione di frequenza, gli interi ni (i=1,2,...k) vengono detti frequenze assolute,
mentre si dicono frequenze relative i numeri.
N
nf)x(f i
ii == i = 1,2,...k
Valgono ovviamente le relazioni:
∑=
=k
iinN
1
fi ≥ 0 ∑=
=k
iif
1
1
Se si indica con X la variabile statistica, e cioè l'entità variabile capace di
assumere i valori x1, x2,....,xk con frequenze relative pari a f1, f2,.....fk, la funzione f(xi), e
cioè la funzione che fa corrispondere a ciascuna modalità di una variabile statistica la
rispettiva frequenza relativa, è detta funzione di frequenza, si dice invece funzione di
frequenze cumulate (o funzione di distribuzione, o di ripartizione empirica) la fun-
zione definita nella formula
∑=
=i
jji )x(f)x(F
1
Oltre che di frequenze relative cumulate si può, naturalmente, procedere al
computo delle frequenze assolute comulate
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
8
∑=
=i
jji nN
1
i = 1,2,...,k
Ovviamente
∑=
===i
j
ijii N
N)x(f)x(FF
1
per i = 1,2,...,k
1===
=
N
N
N
NF
NN
kk
k
Evidentemente il passaggio dalla funzione di frequenza alla funzione di
distribuzione è immediato ed univoco, inoltre entrambe descrivono completamente la
variabile statistica cui si riferiscono.
Se le manifestazioni quantitative di un certo fenomeno vengono raggruppate in
classi di modalità, e ciò accade soprattutto quando si ha a che fare con caratteri aventi
natura continua, le variabili statistiche divise in intervalli, si configurano nel modo
seguente:
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
9
1211
211
22
222122
21
11
1111110
===+++=−−
==+++=−−
==+=−
===−
Nk
N
kF
N
kn
kfkn...nnkNknkxkx
Ni
N
kF
N
inifin...nniNinixix
N
NF
N
nfnnNn
xx
N
NF
nfnNnxx
)neripartizio
diFunzione(
cumulate
relative
Frequenze
relative
Frequenze
cumulate
assolute
Frequenze
assolute
FrequenzeC
N
�����
�����
modalitàdilassi
dove la notazione x x x xi i i i− −− <1 1( ) vuol significare che l'intervallo è aperto a sinistra
e chiuso a destra, nel senso che esso include il valore xi e non il valore xi-1
che
appartiene invece all'intervallo precedente (volendo si possono considerare intervalli
chiusi a sinistra x xi i− −1 o intervalli chiusi x xi i− −1 , ma in quest'ultimo caso uno
stesso valore xi non potrà apparire come estremo in due intervalli contigui); ni e fi
rappresentano, al solito, la frequenza assoluta e la frequenza relativa delle unità che
ricadono nell'intervallo xi-1
−| xi.
In modo analogo a quanto fatto in precedenza, si potrà definire la funzione di
frequenze cumulate o funzione di ripartizione per le variabili statistiche divise in
intervalli.
Risulta del tutto evidente a questo punto la completa equivalenza tra variabile
statistica e variabile casuale; equivalenza che diventa ancora più chiara se si fa
riferimento alla definizione classica della probabilità, Se si ipotizza un esperimento
consistente nell’estrazione di un unità statistica da una popolazione di N unità con
uguale probabilità di essere estratte, ni rappresenta il numero dei casi favorevoli, cioè il
numero di unità statistiche per le quali la manifestazione del fenomeno di interesse è
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
10
pari a xi , mentre N rappresenta il numero dei casi possibili, cioè il numero
complessivo delle unità statistiche considerate.
Altrettanto ovvie risultano le equivalenze tra funzione di massa di frequenza e
funzione di massa di probabilità, tra funzione di frequenze cumulate e funzione di
probabilità cumulate. Da sottolineare che per quest’ultima funzione si usa, sia nel
contesto empirico che in quello teorico, la stessa denominazione di funzione di
ripartizione o funzione di distribuzione.
Esempio 1 (Distribuzioni discrete)
Le votazioni riportate da un gruppo di 30 studenti che hanno superato l’esame di
Tab. 8 - Tavola di correlazione tra statura e peso di 1000 studenti di Friburgo (secondoRautmann e Duras). Valori centrali delle classi di statura e di peso.
Se si prescinde dal fatto che entrambi i caratteri sono espressi in scala quantitativa
e si volesse misurare il grado di interdipendenza basandosi solo sulle frequenze, si
dovrebbe procedere al calcolo delle frequenze teoriche ( nnnn jiij /..* ⋅= ) sotto l’ipotesi di
indipendenza e al successivo computo delle contingenze che potranno essere poi
compattate attraverso indici adeguati.
Nella tab. 9, usualmente detta tavola di indifferenza, sono riportati i valori
assunti dalle frequenze teoriche.
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
51
Peso Y y1 y2 y3 y4 y5 y6 y7 y8 y9 y10 y11 y12 Totale
Tab. 16 - Computo dei prodotti incrociati ijji nyx .
Utilizzando i dati di questa tabella e quelli riportati nelle Tabb. 14 e 15 è facile
pervenire al valore del coefficiente di correlazione lineare di Bravais-Pearson.
( )( ) ( ) 6140
2222
2
,y Nny x Nnx
y x Nnyx
j.j.ii
ijjiyxxy =
−−−
==∑∑
∑∑ρρ
Si segnala inoltre che, come si avrà modo di chiarire successivamente, i valori deicoefficienti di regressione x/yb e y/xb relativi alle due rette interpolate facendo ricorso
al metodo dei minimi quadrati, sono dati da:
∑∑∑
−−
==222 x Nnx
y x Nnyxb
.ii
ijji
x
xyx/y σ
σ= 0,6604
∑∑∑
−−
==222 y Nny
y x Nnyxb
j.j
ijji
y
xyx/y σ
σ= 0,5704
che verificano anche la relazione precedentemente introdotta:
6140,bb y/xx/yyxxy =⋅== ρρ
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
58
Rapporti statistici
Come più volte sottolineato nelle pagine precedenti, per la risoluzione dei
problemi decisionali, la scelta dell’alternativa ottimale richiede il confronto tra le
conseguenze che alle alternative stesse sono direttamente collegate. Il problema del
confronto tra dati osservati (manifestazioni dei fenomeni di interesse) è uno dei
problemi classici che la statistica ha affrontato proponendo soluzioni che, nella
generalità dei casi, si sono rivelate abbastanza soddisfacenti.
Se le manifestazioni dei fenomeni di interesse sono espresse con una scala
quantitativa (di rapporto) il confronto può essere effettuato sia tramite differenza,
eventualmente relativizzata in modo appropriato, sia tramite rapporto.
Prima di procedere nell’esposizione si deve sottolineare che i dati osservati che si
vogliono confrontare possono riferirsi ad uno stesso fenomeno, o a fenomeni diversi;
ovviamente, affinché il risultato del confronto sia significativo, è necessario che fra le
grandezze poste a confronto esista un nesso logico, ad esempio quando si riferiscono ad
una stessa unità di osservazione.
Si consideri in primo luogo il raffronto fra le modalità xi e xj espressione delle
manifestazioni di uno stesso fenomeno, tali modalità sono direttamente comparabili se
le unità statistiche di riferimento sono equivalenti. In caso contrario, il confronto fra le
modalità del fenomeno può essere di scarso significato. Si pensi, ad esempio, al fatturato
di aziende di diverse dimensioni od anche al numero di automobili circolanti in
provincie di differente ampiezza demografica. Si ricorre allora a trasformazioni dei
valori originari in modo da rendere i risultati logicamente confrontabili.
Il criterio più diffuso è quello di dividere ciascun valore xi per un opportuno
indice di dimensione, che rifletta l'importanza (il peso) dell'unità statistica di
riferimento, si procede, cioè, al calcolo di un rapporto statistico opportuno.
I rapporti statistici vengono usualmente distinti a seconda della natura dell'indice
di dimensione di volta in volta adottato.
Si definiscono rapporti di composizione o rapporti di frequenza o rapporti di
parte al tutto, quelli in cui l’indice di dimensione è l'ammontare complessivo, di un
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
59
fenomeno di cui xi costituisce una parte o una quota (rapporti di composizione) o quelli
in cui l’indice di dimensione è il numero n delle unità statistiche di osservazione e ni
il numero delle unità statistiche che presentano la modalità ix . Nella generalità dei casi i
rapporti di composizione sono espressi in percentuale.
E' chiaro che i rapporti di composizione assumono valori nell'intervallo [0,1]
ovvero [0,100%].
Si parla di rapporto di densità se l’indice di dimensione può essere interpretato
come l'ampiezza del campo di riferimento. La popolazione residente rapportata alla
superficie territoriale, che rappresenta la ben nota densità della popolazione; il reddito
totale diviso per il numero di abitanti, che fornisce il reddito pro capite; il valore
aggiunto per addetto, ecc..
Si dicono rapporti di derivazione quelli in cui l’indice di dimensione è il valore
assunto in un differente fenomeno, che costituisce il presupposto necessario del
fenomeno d’interesse.
Il numero dei nati in un certo intervallo temporale (usualmente l'anno) rapportato
alla popolazione media di tale periodo, che rappresenta il quoziente generico di natalità,
eventualmente espresso per 1000 abitanti; il quoziente specifico di natalità, definito
come rapporto, eventualmente moltiplicato per 1000, tra il numero dei nati nell'anno ed
il numero di donne in età feconda, che si fa corrispondere convenzionalmente a quello
delle donne in età da 15 a 50 anni; il quoziente di nuzialità, definito come numero di
matrimoni in un anno ogni 1000 abitanti.
Si dicono rapporti di coesistenza quelli in cui l’indice di dimensione è il valore
relativo ad un altro fenomeno, che si mette a raffronto con il fenomeno d’interesse, allo
scopo di evidenziare l'eventuale squilibrio.
Il rapporto tra valore delle importazioni e il valore delle esportazioni in diversi
Paesi; il rapporto tra impieghi e depositi nelle banche; il rapporto tra attivo disponibile
(cassa e depositi bancari più titoli e valori) e debiti a breve termine nelle aziende, che
costituisce il cosiddetto quoziente di liquidità immediata.
Ad altri tipi di rapporti statistici si fa ricorso quando si è interessati a determinare
la consistenza media (o giacenza media) di un fenomeno in un intervallo di tempo.
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
60
Si definisce come rapporto di durata il quoziente fra l'entità media di un
fenomeno in un intervallo di tempo e l'entità del flusso (movimento) che si è
manifestato nell'intervallo stesso. Esso fornisce la durata media della permanenza del
fenomeno, espressa in termini dell'unità di tempo considerata. Usualmente la
consistenza media in un intervallo temporale si ottiene attraverso la semisomma della
consistenza all'inizio ed alla fine dell’intervallo, mentre il flusso viene determinato
attraverso la semisomma delle entrate e delle uscite.
Se si suppone che le giacenze di una merce in magazzino sono state di q.800 al
1/1/1997 e che in gennaio le entrate sono state di q.200 e le uscite di q.300. La con-
sistenza (finale) al 31/1/1997 risulta: 800+200-300=700. Il rapporto di durata riferito a
gennaio è pari a: 750/250=3. Ciò significa che la merce rimane, in media, in magazzino
per 3 mesi.
Si dice rapporto di ripetizione il reciproco di un rapporto di durata. Esso esprime
il numero di volte in cui un fenomeno si manifesta nell'intervallo temporale considerato.
Il rapporto di durata e di ripetizione sono due modi diversi per esprimere la
medesima informazione. Si preferisce, in genere, utilizzare i rapporti di durata, per
esprimere la rotazione (turnover) dei lavoratori e per valutare la velocità di circolazione
della moneta, definita come numero di volte in cui un'unità monetaria interviene, in
media, negli scambi nell'arco temporale di riferimento.
- Numeri indici
Un caso particolare, ma di notevole rilevanza e di vasta applicazione, è quello in
cui si vuole effettuare il confronto tra le manifestazioni di uno stesso fenomeno in
tempi o in luoghi diversi; cioè, il caso in cui si sia interessati a confrontare i termini di
una serie temporale o di una serie territoriale.
Si consideri ad es. un generico fenomeno X le cui manifestazioni quantitative
x1, x2, ..., xt, ..., xn sono il risultato di osservazioni effettuate al tempo t=1,2,...,n ; si
ammetta cioè la disponibilità di una serie temporale di dati e che si sia interessati ad
evidenziare l’andamento temporale del fenomeno mediante un’analisi comparativa.
Gli elementi della serie possono essere confrontati, come già detto, calcolando
delle differenze, che possono comunque risultare scarsamente significative, oppure
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
61
calcolando dei rapporti. Se si sceglie questa seconda via si procede al calcolo dei
numeri indici.
I numeri indici che servono a misurare le variazioni relative di uno stesso
fenomeno, o fenomeni diversi ma logicamente collegati, vengono distinti in numeri
indici a base fissa e numeri indici a base mobile.
Si ottengono i numeri indici a base fissa, o meglio la serie dei numeri indici a base
fissa, istaurando un rapporto tra tutti i termini della serie ed un singolo valore scelto
come base di confronto. Questo elemento può essere un singolo valore della serie
(quello ad es. che occupa una particolare posizione: il primo (x1), l’ultimo (xn) o quello
intermedio), può essere derivato calcolando una opportuna media di più valori (ad
esempio dei primi tre, degli ultimi tre, dei tre intermedi) ecc.
Ovviamente i numeri indici a base fissa possono essere calcolati anche in
riferimento a serie territoriali. In questo caso il dato scelto come base può riguardare una
specifica area territoriale o la media di valori relativi a più aree territoriali. Un caso
particolarmente interessante e di largo impiego è quello in cui si istaura il confronto tra
i dati relativi alle singole aree (ad es. le Regioni) e quello medio relativo all’intera area
che le contiene (dato medio nazionale).
Ha senso parlare di indici a base mobile solo quando si ha a che fare con una
successione logicamente ordinata di dati quantitativi qual’è, ad esempio, la serie
temporale. A questo tipo di serie verranno limitate le considerazioni nelle righe seguenti
risultando semplice la generalizzazione a serie di dati aventi natura diversa.
Data la serie temporale
x1, x2, ..., xi, ..., xn
la serie dei numeri indici 1
1 x
xI i
i= a base fissa 1 è data da
111
2
1
1
x
x,....,
x
x,....,
x
x,
x
x ni
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
62
mentre la serie di numeri indici a base mobile 1
1−
− =i
iii x
xI è data da
112
3
1
2
−− n
n
i
i
x
x,....,
x
x,....,
x
x,
x
x
Si osservi come la serie dei numeri indici a base mobile si riduce di una unità (n-1
anziché n).
Il passaggio da una serie di numeri indici a base fissa alla serie a base mobile è
immediato
1
11
−− =
iii I
II per i = 1,2,...,n
così come è immediato il passaggio da una serie di indici a base mobile alla serie di
numeri indici a base fissa
∏=
−=i
jjji II
211 per i = 1,2,...,n
è, ovviamente, altrettanto facile il passaggio da una serie di numeri indici aventi una
certa base, ad esempio 1, ad una serie di numeri indici avente base diversa, ad esempio
n; il cambiamento di base nell’esempio viene operato attraverso la relazione
in I
II
1
1= per i = 1,2,...,n
Gli indici sopra introdotti godono di alcune proprietà:
i) identità
1==i
iii x
xI per i = 1,2,...,n
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
63
ii) reversibilità delle basi
jiij
II
=1per i,j = 1,2,...,n
iii) transitività (circolarità)
rjriij III =⋅ per i,j,r = 1,2,...,n
e vengono detti numeri indici semplici.
Ai numeri indici semplici si associano i numeri indici composti (o numeri
indici sintetici) che vengono calcolati quando si dispone di più serie temporali di dati e
si vuol procedere all’effettuazione di un confronto sintetico tra gli stessi.
Con il calcolo dei numeri indici composti ci si prefigge di esprimere
sinteticamente l’andamento di più serie temporali, con riferimento a ciascuno dei tempi
successivi considerati.
Le serie temporali possono essere, ad esempio, quelle dei prezzi dei vari beni,
assunti come rappresentativi dell’insieme delle transazioni e l’obiettivo può consistere
in una valutazione sintetica dell’andamento generale dei prezzi. Si possono anche
considerare le serie temporali delle principali produzioni industriali e cercare di
determinare un indice globale della dinamica produttiva, utilizzabile a scopi di diagnosi
sulla congiuntura economica.
I problemi di sintesi vengono risolti, nella generalità dei casi, con l’impiego di
opportune medie.
La tabella a doppia entrata nella quale sono riportati i dati di base per il calcolo di
numeri indici composti è una serie temporale multipla del tipo seguente:
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
64
Fenomeni
Tempi1 2 ....... j ....... m
1 x11 x12 ....... x1j ....... x1m
2 x21 x22 ....... x2j ....... x2m
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.i xi1 xi2 ....... xij ....... xim
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.n xn1 xn2 ....... xnj ....... xnm
Tab. 17 - Schema di tabella per una serie temporale a m dimensioni
dove: xij = modalità nel tempo i del fenomeno quantitativo j.
La procedura più comunemente impiegata per il calcolo dei numeri indici
composti si basa sulla determinazione dei numeri indici semplici, a base fissa, di
ciascuno degli m fenomeni considerati, allo scopo di rendere comparabili le variazioni
di serie storiche differenti, cioè
j
ijj x
xI
11 = per i = 1,2,...,n ; j = 1,2,...,m
Per sintetizzare le m serie di numeri indici semplici al tempo i (i=1,2,...,n), si
procede al calcolo di una media opportuna. Dato che i fenomeni hanno usualmente una
diversa rilevanza è ragionevole utilizzare una media ponderata, in particolare una media
aritmetica ponderata, attribuendo a ciascuna serie un peso adeguato wj (j=1,2,...,m).
Pertanto, un numero indice composto, costruito col criterio della media aritmetica
ponderata, nel tempo i e con base al tempo 1, è espresso dalla relazione
∑
∑
∑
∑
=
=
=
= ==m
jj
m
jj
j
ij
m
jj
m
jjj
ci
w
wx
x
w
wI
I
1
1 1
1
11
1 per i = 1,2,...,n
Anche i numeri indici composti, come i numeri indici semplici, vengono
usualmente espressi ponendo uguale a 100 il valore che essi assumono nel tempo base.
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
65
A titolo esemplificativo si procederà ora all’esame di uno dei casi più interessanti
di costruzione di indici composti: quello relativo a serie temporali di prezzi.
Come sottolineato, i pesi wj devono esprimere l’importanza attribuita a ciascuna
serie di dati.
Nel caso di serie temporali di prezzi, il criterio preferibile è quello di fare
riferimento ai valori delle transazioni (scambi, consumi, ecc.) di ciascun bene, che sono
uguali al prodotto dei prezzi unitari per le quantità.
Se in sostituzione della generica simbologia sopra utilizzata si pone
xij = pij ≡ prezzo unitario al tempo i del bene j
qij ≡ quantità scambiata al tempo i del bene j
e se il criterio di ponderazione è quello riferito ai valori monetari, il peso wij da
attribuire nel tempo i al generico bene j può essere definito in quattro modi diversi a
seconda che si considerino i prezzi e le quantità al tempo base 1 ovvero al tempo di
calcolo i:
QuantitàPrezzi
Tempo base1
Tempo di calcoloi
Tempo base1
p1j q1j p1j qij
Tempo di calcoloi
pij q1j pij qij
Soltanto i valori dei pesi definiti nei primi due modi vengono utilizzati in pratica.
Si tratta di pesi che consentono anche semplificazioni nelle formule di calcolo dei
numeri indici composti.
Infatti, con riferimento a serie di prezzi ed adottando come pesi w1j i valori
p1j q1j , si avrà
∑
∑
∑
∑
=
=
=
= =⋅
=m
jjj
m
jjij
m
jjj
m
jjj
j
ij
CLi
qp
qp
qp
qpp
p
I
111
11
111
111
11 per i = 1,2,...,n
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
66
che viene detta formula dei numeri indici composti dei prezzi secondo Laspeyres.
Adottando i pesi w1j = p1j qij , si perviene alla seguente formula dei numeri indici
composti dei prezzi secondo Paasche:
∑
∑
∑
∑
=
=
=
= =⋅
=m
jijj
m
jijij
m
jijj
m
jijj
j
ij
CPi
qp
qp
qp
qpp
p
I
11
1
11
11
11 per i = 1,2,...,n
La formula di Laspeyres fa riferimento alle quantità q1j nel tempo base, per cui
essa misura sinteticamente le variazioni relative dei prezzi d’un insieme fisso (detto
usualmente paniere) di beni, cioè nell’ipotesi che la scomposizione degli scambi,
ovvero dei consumi, rimanga immutata.
L’indice composto secondo Paasche, invece, fa riferimento, per ciascun tempo di
calcolo, alle quantità qij del tempo medesimo, per cui esso tiene conto sia delle
variazioni relative dei prezzi, sia delle modificazioni intervenute nella composizione
degli scambi. In proposito si deve comunque sottolineare che quanto osservato vale per
il tempo di calcolo e non per il tempo base che, come si evince dalla formula, fornisce
un valore virtuale della spesa essendo il prezzo dell’anno base moltiplicato per la
quantità scambiata al tempo di calcolo.
La serie di numeri indici composti secondo Laspeyres presenta due importanti
vantaggi. Il primo è che il sistema dei pesi viene determinato una sola volta con
riferimento all’anno base, il che rende assai più rapido il calcolo nei tempi successivi,
dovendosi rilevare soltanto i prezzi dei singoli beni, e non anche l’ammontare delle
transazioni. Il secondo vantaggio è che i numeri indici secondo Laspeyres forniscono
una misura della sola variabilità dei prezzi dell’insieme (fisso) di beni considerati e non
sono quindi influenzati dalle eventuali modificazioni nella composizione degli scambi
o dei consumi. Pregio, quest’ultimo, che si risolve però in un difetto di duplice natura.
Per un verso, facendo i pesi sempre riferimento all’anno base tendono col tempo a
divenire obsoleti non rispecchiando più una realtà mutata; a questo inconveniente,
comunque, si pone riparo attraverso periodici aggiornamenti della base. Più rilevante è il
difetto commesso alla cosiddetta tendenziosità positiva dell’indice, cioè alla tendenza
B. Chiandotto Versione 00-Cap.4Metodi statistici per le decisioni d’impresa
67
che ha l’indice stesso ad esaltare le variazioni dei prezzi. Infatti, essendo generalmente
inversa la relazione tra prezzi e quantità, nel senso che al crescere del prezzo di un bene
si accompagna, usualmente, la riduzione della quantità domandata, variazioni in senso
positivo dei prezzi vengono esaltate dalla formula di Laspeyres risultando sopra valutato
il numeratore della formula stessa in quanto a prezzi che si sono incrementati
dovrebbero corrispondere quantità di beni inferiori a quelle registrate nell’anno base.
Ragionamento analogo porta a concludere per la presenza di una tendenziosità
negativa dell’indice di Paasche ( CPi
CLi II 11 ≥ ).
Per bilanciare le opposte tendenze dei due indici I. Fisher ha proposto il
computo della loro media geometrica. L’espressione analitica dell’indice, usualmente
detto ideale di Fisher è
∑
∑
∑
∑
=
=
=
= ⋅=⋅=m
jijj
m
jijij
m
jjj
m
jjij
CPi
CLi
CFi
qp
qp
qp
qp
III
11
1
111
11
111
Gli indici composti sopra introdotti sono stati ottenuti procedendo al computo di
medie di rapporti. Una via alternativa per sintetizzare le varie serie temporali è
rappresentata dal computo di rapporti di medie; ad es:
∑ ∑
∑ ∑
∑
∑
= =
= =
=
=m
j
m
jjjj
m
j
m
jjjij
m
jj
m
jij
w/wx
w/wx
;x
m
xm
1 11
1 1
11
1
1
1
per i = 1,2,...,n
ma è evidente come un tale modo di procedere risulta, nella generalità dei casi, poco
utile in quanto presuppone una sommabilità di valori relativi a fenomeni diversi.
Usualmente, infatti, i fenomeni sono espressi con diverse unità di misura e non sempre
con l’attribuzione di pesi si riesce a rendere confrontabili, e quindi sommabili, i valori di