CURS STATISTICĂ - Unitatea de învăţare nr. 7 ANALIZA STATISTICĂ A DISTRIBUŢIILOR DE FRECVENŢE. INDICATORII VARIAŢIEI ŞI ASIMETRIEI Cuprins: 1.Obiectivele Unităţii de învăţare. 2.Clasificarea indicatorilor variatiei. 2.1. Indicatorii simpli ai variaţiei. 2.2. Indicatorii sintetici ai variaţiei. 3.Indicatorii asimetriei. 4. Răspunsuri şi comentarii la testele de autoevaluare. 5. Teme de control. 6. Rezumatul Unităţii de învăţare. 7. Bibliografia Unităţii de învăţare. 1. Obiectivele unităţii de învăţare În analiza unei serii statistice ne interesează, pe lângă analiza tendinţei centrale şi analiza variaţiei sau a variabilităţii, precum şi analiza formei distribuţiei. Fenomenele şi procesele economico-sociale sunt complexe, aflându-se sub influenţa unui număr mare de factori esenţiali şi întâmplători, ceea ce face ca media, cel mai utilizat indicator al tendinţei centrale, să nu fie suficientă pentru analiza acestor fenomene. ☺ Exemplul 1 Fie următoarele seturi de date: 2 4 6 8 10 12 14 1 1 Me x 5 6 7 8 9 10 11
23
Embed
CURS STATISTICĂ Unitatea de învăţare nr. 7 de distr.forma seriilor.pdf · 1 w m 0 w (n m) n x x n 2 2 2 2 2 2 2 i1 i 2 i1 i i 2 w Dispersia caracteristicii alternative este egală
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
CURS STATISTICĂ - Unitatea de învăţare nr. 7
ANALIZA STATISTICĂ A DISTRIBUŢIILOR DE FRECVENŢE.
INDICATORII VARIAŢIEI ŞI ASIMETRIEI
Cuprins:
1.Obiectivele Unităţii de învăţare.
2.Clasificarea indicatorilor variatiei.
2.1. Indicatorii simpli ai variaţiei.
2.2. Indicatorii sintetici ai variaţiei.
3.Indicatorii asimetriei.
4. Răspunsuri şi comentarii la testele de autoevaluare.
5. Teme de control.
6. Rezumatul Unităţii de învăţare.
7. Bibliografia Unităţii de învăţare.
1. Obiectivele unităţii de învăţare
În analiza unei serii statistice ne interesează, pe lângă analiza tendinţei centrale şi
analiza variaţiei sau a variabilităţii, precum şi analiza formei distribuţiei.
Fenomenele şi procesele economico-sociale sunt complexe, aflându-se sub influenţa
unui număr mare de factori esenţiali şi întâmplători, ceea ce face ca media, cel mai utilizat
indicator al tendinţei centrale, să nu fie suficientă pentru analiza acestor fenomene.
☺ Exemplul 1
Fie următoarele seturi de date:
2 4 6 8 10 12 14
11 Mex
5 6 7 8 9 10 11
22 Mex
Se observă că deşi cele două serii au aceeaşi medie şi mediană 2121 MeMexx ,
ele diferă prin modul de împrăştiere a valorilor. De aceea, pe lângă indicatorii tendinţei
centrale se impune şi calculul indicatorilor de variaţie.
In urma parcurgerii acestui capitol, studenţii vor putea :
studia reprezentativitatea mediei pentru o serie de date;
aprecia gradul de omogenitate a seriei;
caracteriza gradului de variaţie a unei serii;
compara în timp şi spaţiu variaţia mai multor serii de repartiţie pentru aceeaşi
caracteristică sau pentru caracteristici diferite care au fost înregistrate pentru aceeaşi
colectivitate;
cunoaşte forma distribuţiei (repartiţiei) de frecvenţe prin comparaţie cu distribuţia
normală
2. Clasificarea indicatorilor variaţiei
Indicatorii variaţiei pentru o serie statistică se clasifică în:
indicatori simpli ai variaţiei – sunt acei indicatori care arată împrăştierea valorilor
una faţă de alta sau împrăştierea valorilor faţă de o anumită valoare;
indicatori sintetici ai variaţiei – care iau în considerare toţi termenii seriei în calculul
lor, sintetizând într-o singură valoare întreaga împrăştiere din serie.
2.1. Indicatorii simpli ai variaţiei
Indicatorii simpli ai variaţiei se exprimă atât în mărimi absolute (având aceleaşi unităţi
de măsură ca şi caracteristica studiată), cât şi în mărimi relative (obţinute prin raportarea
mărimii absolute la medie).
Indicatorii simpli ai variaţiei sunt:
amplitudinea absolută a variaţiei;
amplitudinea relativă a variaţiei;
abaterile individuale absolute;
abaterile individuale relative.
Amplitudinea absolută a variaţiei (Ax) se determină ca diferenţă între valoarea
maximă (xmax) şi valoarea minimă (xmin) a caracteristicii şi arată câmpul maxim de împrăştiere
a valorilor caracteristicii.
Ax = xmax - xmin
Are unitatea de măsură a valorilor caracteristicii şi din acest motiv nu poate fi folosită la
compararea seriilor după caracteristici exprimate în unităţi de măsură diferite.
Se utilizează în etapa de grupare a datelor, mai precis la construirea intervalelor de
variaţie şi se mai utilizează şi la construirea graficelor.
Amplitudinea este foarte sensibilă la valorile extreme. Cu cât acestea sunt mai
îndepărtate cu atât câmpul de împrăştiere a valorilor este mai mare.
Amplitudinea relativă a variaţiei (Ax(%)) se obţine prin raportarea amplitudinii
absolute la medie. Se exprimă în coeficient sau procente, deci pot fi comparate serii după
caracteristici exprimate în unităţi de măsură diferite:
100x
AA x
(%)x
Abaterile individuale absolute care ne arată împrăştierea fiecărei valori de la valoarea
medie:
xxd ii
În practică se utilizează mai mult abaterea absolută maximă şi abaterea absolută
minimă:
0xxd maxmax
0xxd minmin
Abaterile individuale absolute se exprimă prin aceeaşi unitate de măsură ca şi
caracteristica studiată şi pot lua valori negative sau pozitive după cum valoarea individuală
este mai mică sau mai mare ca media.
Dacă di în valoare absolută au valori mari putem concluziona că datele sunt împrăştiate,
adică există o variaţie mare în interiorul seriei.
Suma valorilor abaterilor individuale absolute este nulă:
0xxdn
1ii
n
1ii
Suma abaterilor maxime şi minime luate în modul este egală cu amplitudinea absolută a
variaţiei:
xminmax Add
Dacă în cazul unei serii, abaterea maximă absolută diferă mult de valoarea abaterii
minime absolute luată în modul, atunci pentru seria respectivă trebuie calculaţi pe lângă
indicatorii variaţiei şi indicatorii de asimetrie.
Într-o serie simetrică:
maxmin dd
Abaterile individuale relative se exprimă în coeficienţi sau procente şi se calculează
raportând abaterile individuale absolute la medie:
100x
dd
100x
dd
100x
dd
minmin(%)
maxmax(%)
i(%)i
Toţi aceşti indicatori simpli prezintă dezavantajul că nu sintetizează, într-o singură
valoare, împrăştierea tuturor termenilor din seria analizată.
Pentru a elimina acest dezavantaj calculăm indicatorii sintetici ai variaţiei.
2.2. Indicatorii sintetici ai variaţiei
Indicatorii sintetici ai variaţiei sunt:
abaterea medie liniară d ;
dispersia (varianţa);
abaterea medie pătratică (abatere medie standard sau tip);
coeficientul de variaţie.
Abaterea medie liniară d se calculează ca o medie aritmetică simplă (în cazul seriilor
simple) sau ponderată (în cazul seriilor de distribuţie de frecvenţe) a abaterilor termenilor
seriei de la media lor în valoare absolută.
- pentru o serie simplă:
n
xx
d
n
1ii
- pentru o serie de distribuţie de frecvenţe absolute:
k
1ii
k
1iii
n
nxx
d
În cazul în care seria de distribuţie de frecvenţe este pe intervale, atunci xi este centrul
intervalului.
- pentru o serie de distribuţie de frecvenţe relative:
100
nxx
d
k
1i
*ii
- dacă *in sunt exprimate în procente
k
1i
*ii nxxd - dacă *
in sunt exprimate în coeficienţi
În locul mediei, pot fi folosiţi şi alţi indicatori ai tendinţei centrale.
Dezavantaje ale abaterii medii liniare:
se exprimă în aceeaşi unitate de măsură ca şi caracteristica analizată, deci nu poate fi
utilizată la compararea a două sau mai multe serii după caracteristici exprimate în
unităţi de măsură diferite;
nu ţine seama de semnul algebric;
nu ţine seama de faptul că abaterile mai mari în valoare absolută influenţează în mai
mare măsură gradul de variaţie al unei caracteristici comparativ cu abaterile mici.
Pentru a înlătura aceste dezavantaje se calculează şi alţi indicatori sintetici ai variaţiei.
☺ Exemplul 2
Repartiţia salariaţilor unei întreprinderi după prima obţinută la sfârşitul anului este prezentată
în tabelul următor:
Prima (lei) Nr. salariaţi
ni
Centrul
xi xini xx i ii nxx
sub 100
100 – 200
200 – 300
300 – 400
peste 400
15
20
30
25
10
50
150
250
350
450
750
3.000
7.500
8.750
7.500
+195
+95
5
105
205
2.925
1.900
150
2.625
2.050
Total 100 - 24.500 - 9.650
salariatlei
n
nx
x
i
i
i
ii
/245100
500.245
1
5
1
salariatlei
n
nxx
x
i
i
i
ii
/5,96100
650.95
1
5
1
Prima unui salariat se abate în medie de la prima medie cu 96,5 lei.
Dispersia se calculează ca medie aritmetică simplă (în cazul seriilor simple) sau
ponderată (în cazul seriilor de distribuţie de frecvenţă) a pătratelor abaterilor termenilor seriei
de la tendinţa centrală (cel mai adesea media aritmetică).
- pentru o serie simplă:
n
xxn
1i
2i
2
- pentru o serie de frecvenţe absolute:
k
1ii
k
1ii
2i
2
n
nxx
- pentru o serie de frecvenţe relative:
100
nxxk
1i
*i
2i
2
sau
k
1i
*i
2i
2 nxx
Dacă datele provin din eşantioane de volum redus şi le folosim pentru extinderea rezultatelor
la nivelul colectivităţii generale (le folosim pentru o inferenţă statistică), atunci în calculul
dispersiei la numitor se va folosi (n-1) şi nu “n” fiind astfel dispersia eşantionului un
estimator mai bun al dispersiei în colectivitatea generală:
1n
xx
s
n
1i
2i
2
Dispersia prezintă dezavantajul că este un indicator abstract care nu are o unitate
concretă de măsură. Ea arată modul în care gravitează termenii seriei în jurul tendinţei
centrale (de obicei media). Dacă dispersia unei serii este egală cu 0, atunci acea serie nu
prezintă variaţie, toţi termenii ei fiind egali. Cu cât valoarea dispersiei creşte faţă de zero, cu
atât împrăştierea termenilor seriei creşte şi ea.
Este un indicator deosebit de util în studiile statistice, fiind utilizată în calculul
asimetriei, excesului, boltirii unei serii, precum şi în calculul altor indicatori statistici.
Dispersia caracteristicii alternative:
Varianta xi Frecvenţa
ni Frecvenţe relative
DA
NU
1
0
m
n – m
n
m
w1n
mn
Total - n 1
w1www1w1w
)w1(www1n
mnw
n
mw1
n
)mn(w0mw1
n
nxx
2222
22
2
1ii
2
1ii
2i
2w
Dispersia caracteristicii alternative este egală cu produsul dintre cele două frecvenţe
relative.
☺ Exemplul 3
Prima (lei) Nr. salariaţi (ni)
sub 300
300
65
35
Total 100
Să se calculeze dispersia caracteristicii alternative “salariaţi cu prima sub 300 RON”.
65,0100
65
n
mw
2275,035,065,0)w1(w2w
Dispersia caracteristicii alternative prezintă următoarele particularităţi:
dispersia caracteristicii alternative poate lua valori doar în intervalul:
25,0,02w
când w = 1 – w, adică w = 0,5, dispersia atinge valoarea maximă 25,02w ;
dacă w 1 – w, adică w 0,5 şi w creşte uniform în cadrul intervalului (0, 0,5)
atunci 2w înregistrează o creştere mai rapidă la început şi mai lentă când se apropie
de limita superioară;
dacă w 1 – w, adică w 0,5 şi w creşte uniform în cadrul intervalului (0,5, 1)
atunci 2w înregistrează o scădere în acelaşi ritm în care a avut loc creşterea.
Abaterea medie pătratică (abatere standard, abatere tip sau ecart tip) se calculează
ca o medie pătratică a abaterilor termenilor seriei de la media lor sau ca radical din dispersie.
Abaterea medie pătratică ne arată cu cât în medie se abat termenii unei serii de la
tendinţa centrală (de obicei media):
- pentru o serie simplă:
n
xxn
1i
2i
2
- pentru o serie de frecvenţe absolute:
k
1ii
k
1ii
2i
2
n
nxx
- pentru o serie de frecvenţe relative:
100
nxxk
1i
*i
2i
2
☺ Exemplul 4
Fie 2 serii:
S1: 1 2 3 4 5 6
S2: 101 102 103 104 105 106
Cele două serii au aceeaşi amplitudine, aceeaşi abatere medie liniară şi aceeaşi abatere medie
pătratică. Cu toate acestea, împrăştierea din seria A este mai mare decât cea din seria B.
Este foarte dificil să comparăm serii de date după caracteristici exprimate prin aceeaşi
unitate de măsură deoarece variabilitatea depinde de ordinul de mărime.
Abaterea medie pătratică are aceeaşi semnificaţie ca şi abaterea medie liniară, dar ea
obţinându-se prin ridicarea la pătrat a abaterilor individuale de la tendinţa centrală (medie)
înlătură dezavantajul acordării aceleiaşi importanţe atât abaterilor mari cât şi celor mici.
Abaterea medie pătratică are aceeaşi unitate de măsură cu a caracteristicii studiate, de
aici provenind dezavantajul că nu pot fi comparate colectivităţi după caracteristici exprimate
prin unităţi de măsură diferite.
Deoarece pxx rezultă că d .
În cazul unei serii de distribuţie de frecvenţe simetrică sau uşor asimetrică, adică pentru
o serie cu tendinţă de normalitate între abaterea medie liniară şi abaterea medie pătratică
există relaţia:
8,0d
☺ Exemplu 5
Se utilizează datele din Exemplul 2.
salariat/RON31,120144752
salariat/RON5,96d
8,031,120
5,96dseria este simetrică adică are o repartiţie normală.
Abaterea medie pătratică este un indicator care ne oferă informaţii privind modul de
împrăştiere a termenilor unei serii cu tendinţă de normalitate. Astfel, o regulă empirică spune:
- 68,37% din termenii unei serii se situează în intervalul x,x ;
- 98,45% din termenii unei serii se situează în intervalul 2x,2x ;
- 99,73% din termenii unei serii se situează în intervalul 3x,3x ;
- 99,94% din termeni se găsesc în intervalul 4x,4x
Abaterea medie pătratică este un indicator deosebit de util la estimarea erorilor de
selecţie, la calcule de corelaţie precum şi la orice comparaţie statistică în timp şi spaţiu.
Coeficientul de variaţie este cel mai utilizat şi mai semnificativ indicator pentru
analiza variaţiei. Se calculează ca raport între abaterea medie pătratică sau liniară şi medie.
100x
v
sau 100x
d'v
v v’
Coeficientul de variaţie se exprimă procentual, deci putem aprecia că el reprezintă
exprimarea relativă a lui sau a lui d .
Dacă v = 0 seria este perfect omogenă, toţi termenii seriei sunt egali între ei şi sunt egali
cu media: în acest caz nu există variaţie.
Dacă v 5%, seria este foarte omogenă, variaţia este foarte mică, media este foarte
reprezentativă, iar gruparea a fost foarte bine executată (în cazul seriilor de distribuţie de
frecvenţe).
Dacă v 35%, seria este omogenă.
Dacă v 70-75%, seria este eterogenă, variaţia este foarte mare, media nu este
reprezentativă, iar gruparea trebuie refăcută.
Testul de autoevaluare 1
1.Un auditor bancar a selectat 10 conturi şi a înregistrat sumele existente în fiecare dintre
aceste conturi. Sumele sunt date în Euro:
150 175 195 200 235 240 250 256 275 294
Se cere:
a) să se calculeze suma medie de bani existentă într-un cont
b) să se caracterizeze gradul de omogenitatea al seriei.
Deşi cel mai adesea coeficientul de variaţie se calculează utilizând media (deoarece
respectă cele mai multe din condiţiile impuse de Yule), acest indicator se poate calcula
utilizând şi alţi indicatori ai tendinţei centrale (mediana, mediala, modul).
Acest indicator nu se poate utiliza (adică este lipsit de semnificaţie) în cazul în care
media aritmetică este apropiată de zero sau când valorile termenilor seriei sunt foarte
apropiate.
☺ Exemplul 6
Se utilizează datele din Exemplul 2 şi Exemplul 5.
%35%1,49100245
31,120100
xv
seria nu este omogenă
%3,39100245
5,96100
x
d'v
3. Indicatorii de asimetrie
Asimetria unei serii de distribuţie empirice poate fi determinată atât prin metoda grafică
cât şi prin calculul indicatorilor de asimetrie.
Reprezentarea grafică cea mai utilizată pentru aprecierea asimetriei este poligonul
frecvenţelor, dar graficul ne oferă doar o imagine sugestivă asupra gradului de asimetrie, fără
a putea să-l măsoare printr-o valoare exactă.
x
Pentru distribuţii moderat asimetrice, între x , Me, Mo există următoarea
relaţie: xMe3xMo
Tipuri de repartiţii cu asimetrie pronunţată:
Repartiţii în formă de J se întâlnesc în cazul în care frecvenţele sunt maxime la un capăt
sau altul al intervalului de variaţie.
ni
xi MoMex
ni
xi x Mo Me
ni
xi
Mo Me
Serie perfect simetrică
(Clopotul lui Gauss)
Serie asimetrică cu
asimetrie de stânga sau
pozitivă, predomină
valorile mici
MoMex
Serie asimetrică cu
asimetrie de dreapta sau
negativă, predomină
valorile mari
MoMex
ni
xi 0
ni
xi 0
x
Repartiţie în formă de U se întâlneşte atunci când frecvenţele maxime apar la capetele
intervalului de variaţie, iar frecvenţele minime în centrul intervalului.
Repartiţie complexă obţinută prin suprapunerea a trei repartiţii: una în formă de J şi
două moderat asimetrice. Acest tip de repartiţii apare frecvent când gruparea nu a fost
executată corect.
Indicatorii asimetriei sunt:
- asimetrie absolută:
MoxAs sau Mex3As
Aceşti indicatori au unitatea de măsură a caracteristicii analizate, deci prezintă
dezavantajul că nu pot fi comparate din punct de vedere al asimetriei serii după caracteristici
exprimate prin unităţi de măsură diferite.
Aceşti indicatori pot fi pozitivi (în cazul asimetriei de stânga) sau negativi (în cazul
asimetriei de dreapta).
Datorită faptului că o distribuţie se caracterizează şi prin variabilitate, pentru aceeaşi
asimetrie absolută, o serie care are variabilitatea mai mică va fi mai pronunţat oblică, iar
pentru una cu variabilitatea mai mare, oblicitatea se va atenua.
- asimetrie relativă:
De aceea se calculează coeficientul de asimetrie propus de Pearson (statistician
englez 1857-1936):
ni
xi 0
ni
xi 0
1,1Mox
Cas
Dacă Cas = 0 seria este perfect simetrică:
MoMex
Dacă Cas 0 seria prezintă asimetrie pozitivă sau de stânga:
MoMex (predomină valorile mici)
Dacă Cas 0 seria prezintă asimetrie negativă sau de dreapta:
MoMex (predomină valorile mari)
Cu cât Cas este mai apropiată de 1 seria este mai asimetrică.
Dacă Cas [-0,3; 0,3] seria este uşor sau moderat asimetrică.
Acest coeficient este recomandat numai pentru serii de repartiţie uşor asimetrice.
Dacă se cunoaşte mediana seriei, coeficientul de asimetrie se poate calcula cu relaţia:
3,3
Mex3Cas
Acest indicator este recomandat numai pentru serii de repartiţie uşor asimetrice când
între cei trei indicatori ai tendinţei centrale există relaţia:
xMe3xMo
Cu cât Cas este mai apropiat de 0 cu atât seria este mai simetrică, iar cu cât se apropie
de extremităţile intervalului, asimetria devine mai pronunţată.
Aceşti doi indicatori ai asimetriei sunt cei mai utilizaţi în practică, dar în afară de aceştia
se mai utilizează şi alţi indicatori.
☺ Exemplul 7
Se utilizează datele din Exemplul 2.
0RON55,2166,266245MoxAs asimetrie negativă sau de dreapta
66,266510
10100200hxMo
21
10
300,200Mo
018,031,120
66,21MoxCas
3,0,3,0Cas seria este uşor asimetrică, cu asimetrie negativă sau de dreapta, deci
predomină salariaţii cu prime mari. MoMex
☺ Exersaţi în … Excel
Un profesor doreşte să vadă care au fost rezultatele medii obţinute de studenţii săi la examen. De
asemenea, ar vrea să observe care a fost variaţia notelor. Calculaţi mărimile necesare. Notele obţinute