1 UNIVERSITATEA „ALEXANDRU IOAN CUZA” IAŞI FACULTATEA DE ECONOMIE ŞI ADMINISTRAREA AFACERILOR CARMEN PINTILESCU DĂNUŢ JEMNA DANIELAVIORICĂ VIORICA CHIRILĂ BAZELE STATISTICII Suport de curs – I.D. - 2013 – 2014 -
1
UNIVERSITATEA „ALEXANDRU IOAN CUZA” IAŞI
FACULTATEA DE ECONOMIE ŞI ADMINISTRAREA
AFACERILOR
CARMEN PINTILESCU
DĂNUŢ JEMNA
DANIELAVIORICĂ
VIORICA CHIRILĂ
BAZELE STATISTICII
Suport de curs – I.D.
- 2013 – 2014 -
3
CUPRINS
Introducere ...................................................................................................... ... 2
Partea întâi – Metode de analiză statistică descriptivă
US1 Noţiuni Fundamentale ............................................................................ ... 4
1.1 Date statistice 5
1.2 Variabile statistice 5
1.3 Unităţi statistice 8
1.4 Distribuţii statistice 8
US2 Analiza unei serii statistice discrete .................................. ..................... ... 15
2.1 Analiza grafică 16
2.2 Analiza numerică. Indicatori ai statisticii descriptive 25
2.3 Aplicaţie în SPSS 62
US3 Analiza unei serii statistice continue ..................................................... ... 67
3.1 Analiza grafică 68
3.2 Analiza numerică. Indicatori ai statisticii descriptive 71
3.3 Aplicaţie în SPSS 82
US4 Analiza unei serii statistice calitative .................................................... ... 87
4.1 Analiza grafică 88
4.2 Analiza numerică 88
4.3 Aplicaţie în SPSS 91
Partea a doua – Metode de analiză statistică inferenţială
US5 Noţiuni fundamentale ............................................................................. ... 93
5.1 Probabilităţi. Variabile aleatoare. Distribuţii probabiliste 94
5.2 Selecţie. Eşantion. Variabile aleatoare de selecţie 100
5.2 Parametri,estimatori, estimaţii. Distribuţii de selecţie ............. 101
5.3 Statistici frecvent utilizate în cercetările prin sondaj 102
US6 Estimarea parametrilor unei populaţii ................................................. ... 107
6.1 Estimarea punctuală 108
6.2 Estimarea prin interval de încredere 109
US7 Testarea ipotezelor statistice .................................................................. ... 117
7.1 Etapele procesului testării statistice 118
7.2 Testarea ipotezelor privind un parametru 119
Anexe ............................................................................................................... ... 133
Bibliografie ..................................................................................................... ... 135
4
PARTEA ÎNTÂI – METODE DE ANALIZĂ STATISTICĂ DESCRIPTIVĂ
US 1. NOŢIUNI FUNDAMENTALE
Cuprins
1.1 Date statistice
1.2 Variabile statistice
1.3 Unităţi statistice
1.4 Distribuţii statistice
Obiective
- definirea conceptelor fundamentale specifice statisticii;
- prezentarea de exemple pentru fiecare concept;
- familiarizarea studenţilor cu sursele de date statistice oficiale.
Competenţe
- însuşirea noţiunilor fundamentale necesare utilizării metodelor statistice de prelucrare a datelor;
- înţelegerea diferenţei dintre metodele descriptive şi cele inferenţiale;
- dobândirea competenţelor practice de accesare şi interogare a bazelor de date statistice oficiale.
Termen mediu: 2 h
Bibliografie
1. Andrei, T. şi Stancu, S., Statistică - teorie şi aplicaţii , Editura All, Bucureşti, 1995
2. Jaba, E., Statistica, Ediţia a treia, Editura Economica, Bucureşti, 2002
3. McNabb, D., Research methods in public administration and nonprofit management:
quantitative and qualitative approaches, Armonk, M.E. Sharpe, 2002
4. Mcneill, P., Research methods, London, Routledge, 2005
5. Rosental, C. and C. Frémontier-Murphy, Introduction aux méthodes quantitatives en sciences
humaines et sociales, Paris, Dunod, 2001
6. Wonnacott, T.H., Wonnacott, R.J., Statistique, Economica, Paris, 1991.
5
Cursul de Bazele statisticii impune studiul unor noţiuni fundamentale, cum ar fi: datele
statistice, variabilele statistice, distribuţiile statistice.
1.1. Date statistice. Metode statistice
În sensul cel mai larg, datele statistice reprezintă rezultatul activităţii desfăşurate de
instituţia de statistică, cercetători sau de firme specializate care îşi publică rezultatele în rapoarte
sau lucrări de cercetare, care apoi sunt diseminate publicuui interesat. Asemenea rezultate apar în
tabele sau sub formă grafică, pot lua o formă numerică sau nenumerică. În sens restrâns, datele
statistice se referă strict la procesul de măsurare a realităţii economice şi sociale. Procesul de
sintetizare, prelucrare şi analiză se traduce apoi în rezultate sintetice, în informaţii care au deja un
conţinut cognitiv datorat interpretării şi corelării rezultatelor.
Specificul datelor statistice este acela că ele se referă la populaţii statistice, adică la
colectivităţi reale de unităţi bine delimitate formate din obiecte, persoane, fapte, evenimente,
procese din lumea reală. Acestea se obţin ca urmare a unui proces de observare directă, adică se
obţin prin măsurarea realităţii acolo unde ea se manifestă. În general, populaţiile statistice respectă
o condiţie de volum adică sunt “suficient de numeroase”, pentru a respecta o serie de legi ale
statisticii, astfel încât rezultatele să fie consistente.
Pentru explorarea tipurilor de date statistice oferite de sursele oficiale, studenţii vor
parcurge paginile Institutului Naţional de Statistică (www.insse.ro) şi ale EUROSTAT
(www.ec.europa.eu/eurostat).
Metodele statistice de prelucrare a datelor sunt metode de cercetare care au la bază datele
statistice. Este vorba despre un set de instrumente care permit “exploatarea” datelor statistice
pentru a obţine o informaţie sub forma indicatorilor statistici sau a unor rezultate mai elaborate
cum ar fi estimaţiile sau modelele care explică dependenţa dintre fenomene.
La nivelul acestui curs, studenţii sunt introduşi în cunoaşterea şi aplicarea a două categorii
de metode statistice de bază: metode statistice descriptive şi inferenţiale.
Metodele descriptive se referă la obţinerea informaţiei cantitative cu ajutorul unor
indicatori statistici care sintetizează informaţia de la nivelul tuturor unităţilor statistice analizate.
Această informaţie se referă la întreaga populaţie sau colectivitate analizată şi se prezintă sub
formă grafică, tabelară şi a indicatorilor descriptivi.
Metodele inferenţiale au la bază ideea culegerii datelor, a prelucrării şi analizei acestora de
la nivelul unui eşantion reprezentativ extras din populaţiie după un procedeu ştiinţific
corespunzător. Rezultatele obţinute la nivelul eşantionului sunt apoi extrapolate la nivelul
populaţiei totale, în condiţii de calitate specificate. Obiectivul principal al accestor metode este
estimarea unor parametri şi testarea unor ipoteze care privesc realitatea analizată.
1.2. Variabile statistice
1.2.1. Definiţie şi notaţii
Variabila statistică este o caracteristică, o însuşire a unor unităţi statistice, care
înregistrează o anumită valoare, pentru fiecare unitate statistică observată.
Exemple
- dacă se consideră ansamblul firmelor din judeţul Iaşi care desfăşoară activitate de
producţie, variabilele statistice care pot reprezenta un interes pentru cercetarea statistică sunt:
valoarea vânzărilor, numărul de salariaţi, cifra de afaceri, mărimea firmei etc.
6
- dacă se consideră ansamblul studenţilor unei serii, variabilele statistice care pot fi supuse
analizei statistice sunt: vârsta studenţilor, sexul persoanei, nota obţinută la un examen, etc.
O variabilă statistică este notată cu X. Valorile sau variantele variabilei X se notează cu xi.
Din punct de vedere formal, avem: m,1icu),x(:X i .
1.2.2. Clasificarea variabilelor statistice
Variabilele statistice pot fi clasificate după mai multe criterii:
1. După modul de exprimare, distingem:
- variabile cantitative sau numerice sunt acele variabile pentru care valorile sunt
exprimate numeric.
Exemple: vârsta persoanelor, câştigul salarial, înălţimea etc.
- variabile calitative, nenumerice sau categoriale sunt acele variabile pentru care
valorile sunt exprimate prin cuvinte.
Exemple: sexul persoanei (masculin şi feminin), starea civilă (celibatar, căsătorit, văduv,
divorţat), mediul de rezidenţă (urban, rural) etc.
Pentru analiza statistică, valorilor variabilei categoriale li se atribuie un cod numeric.
Variabilele calitative pot fi nominale sau ordinale.
Variabilele nominale sunt acele variabile pentru care ordinea acordării codurilor nu are un
sens.
Exemple: pentru variabila X: Sexul persoanei, se pot acorda codurile 1 pentru varianta
Masculin şi 2 pentru varianta Feminin, fără să se poată stabili o relaţie de ordine între aceste două
valori.
Un caz particular al variabilelor nominale este reprezentat de variabilele alternative sau
dummy. În acest caz, valorile acordate categoriilor acestor variabile sunt, de regulă, 1 (pentru
unităţile care posedă o anumită caracteristică) şi 0 (pentru celelalte unităţi statistice).
De exemplu, într-un studiu cu privire la nivelul de dezvoltare economică a ţărilor Uniunii
Europene (UE), apreciat prin PIB/locuitor, se poatre crea o variabilă dummy cu două valori: 1-
pentru ţările UE care erau înainte de extinderea Uniunii în Europa Centrală şi de Est, şi 0 pentru
celelalte ţări. Analiza statistică poate, în acest caz, evidenţia diferenţele de dezvoltare economică
existente între aceste două grupe de ţări.
Variabilele ordinale sunt acele variabile în care există o relaţie de ordine între unităţile din
categoriile variabilei. Ordinea acordării codurilor diferitelor categorii ale variabilei X are, în acest
caz, un sens.
Exemple: pentru variabila X: Preferinţa pentru un produs, cu variantele Foarte bun, Bun,
Nici bun-nici rău, Foarte rău, Rău, ordinea acordării codurilor are un sens. Valorile variabilei X
sunt 1- Foarte bun, 2- Bun, 3- Nici bun-nici rău, 4 - Foarte rău, 5-Rău.
2. După modul de manifestare a variaţiei lor, distingem:
- variabile discrete sunt acele variabile care nu pot lua decât valori finite din domeniul
de valori al variabilei.
Exemple: variabilele Numărul de angajaţi, Numărul de şomeri, Numărul de copii pe
familie etc.
- variabile continue sunt acele variabile care pot lua o infinitate de valori din domeniul
de valori al variabilei.
7
Exemple: variabilele Înălţimea, Greutatea, Viteza etc.
1.2.3. Scale de măsură
În vederea măsurării unei variabile pentru o unitate statistică, valorilor unei variabile li se
atribuie coduri sau numere. Scala este reprezentată de aceste coduri sau numere atribuite valorilor
variabilei X.
În statistică se folosesc patru tipuri de scale:
a) scale pentru măsurarea variabilelor calitative: scala nominală şi scala ordinală;
b) scale pentru măsurarea variabilelor cantitative: scala interval şi scala raport.
a) Scale pentru măsurarea variabilelor calitative
Scala nominală este o scală care presupune atribuirea de coduri variantelor unei variabile
calitative nominale. Aceste coduri nu au decât rolul de a realiza o separare a unităţilor statistice pe
clase sau grupe. Ordinea acordării acestor coduri nu are un sens. Pe această scală de măsurare, nu
este posibilă realizarea operaţiilor de adunare, scădere etc.
Exemplu
- pentru variabila Sexul persoanei, codurile care se atribuie valorilor acestei variabile
sunt, de exemplu, 1 - pentru unităţile statistice de sex masculin, 2- pentru unităţile
statistice de sex feminin. Ordinea acordării acestor coduri nu are un sens, ceea ce
înseamnă că se poate atribui codul 1 - pentru unităţile statistice de sex feminin şi codul
2- pentru unităţile statistice de sex masculin. Pentru această variabilă statistică,
singurele operaţii care pot fi realizate privesc doar frecvenţele sau numărul de unităţi
statistice. De exemplu, poate fi identificată categoria care are frecvenţa cea mai mare,
însă nu poate fi calculată media aritmetică, deoarece valorile codurilor sunt arbitrare.
Scala ordinală este o scală care presupune atribuirea de coduri variantelor unei variabile
calitative ordinale. Scala ordinală introduce relaţia de ordine între valorile acestor coduri. Pe
această scală de măsurare, este posibilă realizarea operaţiilor specifice variabilelor nominale, dar
şi a operaţiilor care au la bază relaţia de ordine.
Exemplu
- pentru variabila Nivelul de educaţie cu variantele Studii primare, Studii gimnaziale,
Studii liceale, Studii superioare, codurile care se atribuie valorilor acestei variabile
sunt, de exemplu, 1 - Studii primare, 2 - Studii gimnaziale, 3 - Studii liceale, 4 - Studii
superioare. Ordinea acordării acestor coduri are, în acest caz, un sens. Pentru această
variabilă statistică, poate fi identificată categoria care are frecvenţa cea mai mare, dar
şi numărul de unităţi care au studii primare, gimnaziale şi liceale.
b) Scale pentru măsurarea variabilelor cantitative
Scala interval este o scală care se foloseşte pentru o variabilă cantitativă. Diferenţa dintre
două valori are, în acest caz, un sens. Scala interval se caracterizează printr-o valoare zero, fixată,
însă, arbitrar: valoarea zero nu arată absenţa unui fenomen, ci doar trecerea de la o stare la alte.
De aceea, raportul dintre două valori nu are sens în cazul scalei interval.
Exemplu
8
Dacă se consideră temperatura exprimată în grade Celsius, diferenţa dintre valorile 200 şi
100 are aceeaşi semnificaţie ca diferenţa dintre valorile 30
0 şi 20
0. Temperatura de 20
0 de grade,
de exemplu, nu arată însă faptul că aceasta este o temperatură de două ori mai mare decât
temperatura de 100. De aceea, raportul dintre două valori în cazul scalei interval nu are sens.
Scala raport este folosită pentru variabilele numerice şi are ca proprietate faptul că
posedă un zero absolut. Valoarea zero arată, în acest caz, absenţa unui fenomen. În cazul acestei
scale sunt posibile toate operaţiile aritmetice.
Exemplu
Dacă se consideră greutatea unor persoane, diferenţa şi raportul dintre două valori au un
sens. O greutate de 50 kg este de două ori mai mare decât greutatea de 25 de kg. Valoarea zero
arată absenţa greutăţii pentru unitatea respectivă.
1.3. Unităţi statistice
Unităţile statistice sunt elementele componente ale unei populaţii statistice sau ale unui
eşantion. Suma unităţilor statistice formează volumul populaţiei, notat cu N, sau a eşantionului,
notat cu n.
1.4. Distribuţii statistice
Plecând de la un şir de valori ale unei variabile X înregistrate pentru un ansamblu format
din n unităţi, se poate realiza o grupare a acestor valori, prin construirea unei distribuţii de
frecvenţă.
O distribuţie sau o serie statistică presupune ordonarea valorilor variabilei X şi
determinarea frecvenţei de apariţie, a numărului de unităţi pentru fiecare valoare xi a variabilei.
Frecvenţa de apariţie este notată cu ni.
1.4.1. Distribuţii statistice pentru variabile cantitative discrete
Distribuţia statistică pentru o variabilă discretă presupune realizarea unei grupări a
valorilor variabilei X pe variante de variaţie şi determinarea frecvenţei de apariţie a fiecărei
variante xi. Forma de prezentare a unei distribuţii statistice pentru o variabilă discretă este
prezentată în tabelul de mai jos:
Tabelul 1.1. Forma generală a unei distribuţii
pentru o variabilă discretă
xi ni
x1 n1
x2 n2
xi ni
xm nm
TOTAL i
inn
Exemplu
Pentru cele 42 judeţe ale României (inclusiv municipiul Bucureşti), rata şomajului este
prezentată în tabelul de mai jos. Se cere să se formeze distribuţia de frecvenţă.
9
Tabelul 1.2. Rata şomajului în judeţele României, în anul 2010 Judeţul Rata şomajului
(%)
Judeţul Rata şomajului
(%)
Judeţul Rata şomajului
(%)
Alba 10,0 Constanţa 5,8 Mureş 8,0
Arad 5,2 Covasna 10,0 Neamţ 7,7
Argeş 7,6 Dâmboviţa 8,5 Olt 8,2
Bacău 7,8 Dolj 9,8 Prahova 8,6
Bihor 5,9 Galaţi 10,4 Satu-Mare 6,1
Bistriţa-Năsăud 6,4 Giurgiu 8,4 Sălaj 8,4
Botoşani 6,4 Gorj 10,1 Sibiu 5,8
Braşov 7,2 Harghita 8,8 Suceava 7,3
Brăila 8,7 Hunedoara 8,5 Teleorman 10,9
Municipiul
Bucureşti 2,3 Ialomiţa 9,9 Timiş 3,7
Buzău 9,7 Iaşi 7,0 Tulcea 8,1
Caraş-Severin 9,0 Ilfov 2,7 Vâlcea 7,7
Călăraşi 8,8 Maramureş 6,0 Vaslui 11,8
Cluj 4,9 Mehedinţi 10,5 Vrancea 7,4
Sursa: Anuarul Statistic al României, anul 2011, www.insse.ro, accesat pe 1 noiembrie 2012.
Rezolvare
Variabila statistică X este reprezentată de Rata şomajului, iar variantele variabilei X sunt
valorile xi prezentate în tabelul 1.2.
Pentru formarea distribuţiei de frecvenţă, se ordonează valorile variabilei X în sens
crescător şi se determină frecvenţa de apariţie (numărul de judeţe care înregistrează aceeaşi
valoare a ratei şomajului), ni, a fiecărei variante xi. Rezultatele sunt prezentate în tabelul de mai
jos:
10
Tabelul 1.3. Distribuţia judeţelor României după rata şomajului în anul 2010
Rata şomajului
xi
Frecvenţa de apariţie
ni
2,3 1
2,7 1
3,7 1
4,9 1
5,2 1
5,8 2
5,9 1
6,0 1
6,1 1
6,4 2
7,0 1
7,2 1
7,3 1
7,4 1
7,6 1
7,7 2
7,8 1
8,0 1
8,1 1
8,2 1
8,4 2
8,5 2
8,6 1
8,7 1
8,8 2
9,0 1
9,7 1
9,8 1
9,9 1
10,0 2
10,1 1
10,4 1
10,5 1
10,9 1
11,8 1
TOTAL 42
1.4.2. Distribuţii statistice pentru variabile cantitative continue
Pentru construirea unei distribuţii statistice după o variabilă continuă, de regulă, se
definesc intervale de variaţie (xi-1, xi). Considerând cazul intervalelor egale de variaţie, pentru
formarea distribuţiei de frecvenţă se parcurg următoarele etape:
se calculează mărimea intervalelor de grupare, după relaţia:
11
k
xx
k
Al minmax , unde:
A este amplitudinea de variaţie a variabilei X, adică diferenţa dintre nivelul maxim şi
nivelul minim al variabilei: A=xmax-xmin;
k este numărul de grupe în care se grupează datele.
Dacă se obţine un număr zecimal, mărimea intervalului de grupare se rotunjeşte
întotdeauna în plus.
se formează intervalele de grupare;
se determină frecvenţa de apariţie, ni, corespunzătoare fiecărui interval de variaţie.
Forma de prezentare a unei distribuţii statistice pentru o variabilă continuă este realizată în
tabelul de mai jos:
Tabelul 1.4. Forma generală a unei distribuţii
pentru o variabilă continuă
xi-1-xi ni
xo-x1 n1
x1-x2 n2
xi-1-xi ni
xm-1-xm nm
TOTAL i
inn
Observaţie
În cazul variabilelor discrete care prezintă un număr mare de valori, pentru o prezentare
sintetică a distribuţiei unităţilor statistice, se realizează, de regulă, gruparea acestora pe intervale
de variaţie.
Exemplu
În tabelul 1.2. este prezentată distribuţia de frecvenţă a judeţelor României după rata
şomajului înregistrată în anul 2010. Se cere să se formeze distribuţia de frecvenţă pe intervale de
variaţie egale, considerând 5 intervale de grupare.
Rezolvare
Variabila statistică X este reprezentată de Rata şomajului.
Pentru formarea distribuţiei de frecvenţă pe intervale de variaţie egale, se parcurg
următoarele etape:
se calculează mărimea intervalelor de grupare, după relaţia:
11 8 2 31 9
5
max minx xA , ,l ,
k k
. Mărimea intervalelor de variaţie este 1 9 2l , .
se formează intervalele de grupare. Primul interval de variaţie este intervalul (2-4), al
doilea interval este (4-6), etc.
se determină frecvenţa de apariţie corespunzătoare fiecărui interval de variaţie.
Rezultatele centralizării datelor sunt prezentate în tabelul de mai jos:
12
Tabelul 1.5. Distribuţia judeţelor României
după rata şomajului ( %), în anul 2010
xi-1-xi
(%)
ni
2-4 3
4-6 6
6-8 12
8-10 16
10-12 5
TOTAL 42 *Notă: Limita superioară a fiecărui interval este inclusă în intervalul respectiv.
Observaţie
Pentru gruparea datelor pe intervale de variaţie, există mai multe variante posibile. Dacă
limita superioară a unui interval coincide cu limita inferioară a altui interval, se precizează printr-
o notă unde a fost inclusă acea valoare. În exemplul de mai sus, judeţele cu rata şomajului egală
cu 4, 6, 8,10 şi 12 au fost incluse în intervalele în care aceste valori sunt limite superioare.
1.4.3. Distribuţii statistice pentru variabile calitative
Distribuţia statistică pentru o variabilă calitativă presupune prezentarea categoriilor
variabilei X şi determinarea frecvenţei de apariţie a fiecărei variante.
Forma de prezentare a unei distribuţii statistice pentru o variabilă calitativă este prezentată
în tabelul de mai jos:
Tabelul 1.6. Forma generală a unei distribuţii
pentru o variabilă categorială
xi ni
x1 n1
x2 n2
xm nm
TOTAL i
inn
Exemplu
Pentru ansamblul judeţelor României se înregistrează regiunea de dezvoltare (Nord-Vest,
Centru, Nord-Est, Sud-Est, Sud, Bucureşti-Ilfov, Sud-Vest, Vest) şi se obţin rezultatele din tabelul
de mai jos. Se cere să se formeze distribuţia de frecvenţă.
13
Tabelul 1.7. Distribuţia judeţelor din România după regiunea de dezvoltare Judeţul Regiunea de
dezvoltare
Judeţul Regiunea de
dezvoltare
Judeţul Regiunea de
dezvoltare
Alba Centru Constanţa Sud- Est Mureş Centru
Arad Vest Covasna Centru Neamţ Nord - Est
Argeş Sud Dâmboviţa Sud Olt Sud-Vest
Bacău Nord - Est Dolj Sud-Vest Prahova Sud
Bihor Nord - Vest Galaţi Sud- Est Satu-Mare Nord - Vest
Bistriţa-Năsăud Nord - Vest Giurgiu Sud Sălaj Nord - Vest
Botoşani Nord - Est Gorj Sud-Vest Sibiu Centru
Braşov Centru Harghita Centru Suceava Nord - Est
Brăila Sud- Est Hunedoara Vest Teleorman Sud
Municipiul
Bucureşti Bucureşti-Ilfov Ialomiţa Sud Timiş Vest
Buzău Sud- Est Iaşi Nord - Est Tulcea Sud- Est
Caraş-Severin Vest Ilfov Bucureşti-Ilfov Vâlcea Sud-Vest
Călăraşi Sud Maramureş Nord - Vest Vaslui Nord - Est
Cluj Nord - Vest Mehedinţi Sud-Vest Vrancea Sud- Est
Sursa: Anuarul Statistic al României, anul 2011, www.insse.ro, accesat pe 1 noiembrie 2012
Rezolvare
Variabila statistică X este reprezentată de Regiunea de dezvoltare, variabilă calitativă
nominală, iar variantele variabilei X sunt xi: Nord-Vest, Centru, Nord-Est, Sud-Est, Sud,
Bucureşti-Ilfov, Sud-Vest, Vest.
Rezultatele grupării datelor sunt prezentate în tabelul de mai jos:
Tabelul 1.8. Distribuţia judeţelor României pe regiuni de dezvoltare
xi ni
Nord-Vest 6
Centru 6
Nord-Est 6
Sud-Est 6
Sud 7
Bucureşti-Ilfov 2
Sud-Vest 5
Vest 4
TOTAL 42
14
Teste1
1) Variabila alternativă:
a) admite alternative în procesul de măsurare
b) ia doar două valori posibile
c) poate fi numerică şi categorială
2) Un exemplu de variabilă continuă este:
a) vârsta
b) numărul de copaci într-un parc
c) genul persoanei
3) Distribuţia din tabelul de mai jos se referă la o variabilă:
xi-1-xi ni
5-9 20
9-13 3
13-17 2
17-21 3
21-25 2
TOTAL 30
a) discretă
b) continuă
c) numerică
d) alternativă
4) Se cunoaşte că într-o şcoală sunt 210 elevi de gen masculin şi 300 de gen feminin. Au loc
răspunsurile:
a) valoarea 210 este o frecvenţă relativă pentru cei de gen masculin
b) informaţiile disponibile permit construirea unei distribuţii după o variabilă alternativă
c) variabila analizată este calitativă
5) Pentru distribuţia din tabelul de mai jos sunt valabile enunţurile:
xi ni
2 20
4 30
6 20
8 10
TOTAL 80
a) variabila distribuită este discretă
b) populaţia are 30 de unităţi
c) valoarea 10 este o frecvenţă absolută
d) variabila are patru valori distincte
1 Răspunsuri: 1 – b,c; 2 – a; 3 – b,c; 4 – b,c; 5 – a,c,d.
15
US 2. ANALIZA UNEI SERII STATISTICE DISCRETE
Cuprins
2.1 Analiza grafică
2.2 Analiza numerică. Indicatori ai statisticii descriptive
2.3 Aplicaţie în SPSS
Obiective
- prezentarea tipurilor de frecvenţe utilizate în analiza uunei serii discrete
- prezentarea tipurilor de grafice specifice unei serii discrete
- definirea indicatorilor descriptivi, a proprietăţilor, a modului de calcul şi a interpretării acestora
- realizarea de exemple cu date reale
- prezentarea modului de analiză gafică şi numerică a unei serii discrete în SPSS
Competenţe
- însuşirea principalelor metode de analiză grafică şi numerică a unei serii discrete
- dezvoltarea abilităţilor practice de prelucrare şi interpretare a datelor statistice sistematizate într-
o serie discretă
- dezvoltarea capacităţii de utilizare a softului statistic pentru prelucrarea automată a datelor
- capacitatea de a realiza o sinteză a informaţiei statistice, având la dispoziţie rezultatele analizei
grafice şi numerice
Termen mediu: 4 h
Bibliografie
1. Andrei, T. şi Stancu, S., Statistică - teorie şi aplicaţii , Editura All, Bucureşti, 1995
2. Jaba, E., Statistica, Ediţia a treia, Editura Economica, Bucureşti, 2002
3. Jaba, E., Pintilescu, C., Statistică. Teste grilă şi probleme, Editura Sedcom Libris, Iaşi, 2005.
4. Jaba, E., Grama, A., Analiza statistică cu SPSS sub Windows, Ed. Polirom, Iaşi, 2004
5. Lecaillon, J.; Labrousse, C., Statistique descriptive, Editura Cujas, Paris, 1988
6. Mills, Fr.G., Statistical Methods, 3rd
ed., Henry Holt, New York, 1955.
7. McNabb, D., Research methods in public administration and nonprofit management :
quantitative and qualitative approaches, Armonk, M.E. Sharpe, 2002
8. Rosental, C. and C. Frémontier-Murphy, Introduction aux méthodes quantitatives en sciences
humaines et sociales, Paris, Dunod, 2001
9. Yule, U.G.; Kendall, M.C. - Introducere în teoria statisticii, Editura Ştiinţifică, Bucureşti, 1969.
10. Wonnacott, T.H., Wonnacott, R.J., Statistique, Economica, Paris, 1991.
16
Analiza unei serii statistice discrete se realizează cu ajutorul metodelor grafice şi
numerice. În continuare prezentăm câteva coordonate ale acestor tipuri de analiză.
2.1 Analiza grafică
Pentru reprezentarea grafică a unei serii după o variabilă discretă se folosesc următoarele
diagrame: poligonul frecvenţelor, curba frecvenţelor sau curba frecvenţelor cumulate. Indicatorii
numerici prin care poate fi caracterizată o serie statistică după o variabilă discretă pot fi grupaţi în
indicatori ai tendinţei centrale (mărimi medii), indicatori ai dispersiei, indicatori ai asimetriei şi
boltirii.
2.1.1. Frecvenţe absolute cumulate crescător (Ni↓ ) sau descrescător (Ni↑ )
Frecvenţele absolute cumulate crescător (Ni↓) sau descrescător (Ni↑) exprimă numărul de
unităţi statistice cumulate “până la” sau “peste” un anumit nivel al variabilei, adică valori ≤ xi,
respectiv ≥ xi.
Relaţiile de calcul sunt:
i
1hhi1ii nnNN , respectiv
m
ihhi1ii nnNN .
2.1.2. Frecvenţe relative cumulate crescător (Fi↓) sau descrescător (Fi↑)
Frecvenţele relative cumulate crescător (Fi↓) sau descrescător (Fi↑) exprimă ponderea
unităţilor statistice cumulate “până la” sau “peste” un anumit nivel al caracteristicii, adică valori ≤
xi , respectiv ≥ xi.
Relaţiile de calcul sunt:
i
1hhi1ii ffFF , respectiv
m
ihhi1ii ffFF , unde fi reprezintă frecvenţele relative.
Frecvenţele relative, fi , exprimă ponderea unităţilor ni în volumul total al unităţilor
observate, n, şi se calculează după relaţiile:
n
n
n
nf i
ii
ii
, atunci când frecvenţele sunt exprimate sub formă de coeficient. În acest
caz, .1fi
i
100n
n100
n
nf i
ii
ii
, atunci când frecvenţele sunt exprimate sub formă de procente
(%). În acest caz, %.100fi
i
Exemplu
Distribuţia judeţelor din România care au pensiuni turistice la 31 iulie 2010 (exclusiv
judeţul Braşov şi judeţul Prahova) se prezintă astfel:
17
Tabelul 2.1. Distribuţia judeţelor din România
după numărul de pensiuni turistice la 31 iulie 2010
Pensiuni
turistice
Nr. judeţe
1 1
2 2
3 1
4 7
5 3
6 2
9 1
10 1
14 2
18 1
22 2
23 1
29 3
40 1
42 1
46 3
47 1
49 1
61 1
62 1
TOTAL 36
Sursa: Anuarul Statistic al României, anul 2011, www.insse.ro, accesat pe 1 noiembrie 2012.
Se cere să se calculeze frecvenţele absolute şi relative cumulate crescător sau descrescător.
Rezolvare
Frecvenţe absolute cumulate crescător( Ni↓)
Frecvenţele absolute cumulate crescător se calculează după relaţia:
i
1hhi1ii nnNN .
Pentru exemplul dat, avem:
1 1 1N n ;
2 1 2 1 2 3N N n ;
3 2 3 3 1 4N N n etc.
Celelalte rezultate sunt prezentate în tabelul de mai jos:
18
Tabelul 2.2. Frecvenţele absolute cumulate crescător
Pensiuni
turistice
Nr. judeţe iN
1 1 1
2 2 3
3 1 4
4 7 11
5 3 14
6 2 16
9 1 17
10 1 18
14 2 20
18 1 21
22 2 23
23 1 24
29 3 27
40 1 28
42 1 29
46 3 32
47 1 33
49 1 34
61 1 35
62 1 36
TOTAL 36 -
Interpretare
Numărul judeţelor din România care au o pensiune turistică este egal cu unu. Numărul
judeţelor care au cel mult două pensiuni turistice este egal cu 3. Numărul judeţelor care au cel
mult 3 pensiuni turistice este egal cu 4. În mod similar, se interpretează celelalte rezultate.
Observaţie
În calculul frecvenţelor absolute cumulate crescător, ultima valoare Ni↓ este întotdeauna
egală cu volumul total al eşantionului observat. În exemplul dat, avem N20↓=n=36.
Frecvenţe absolute cumulate descrescător ( iN )
Frecvenţele absolute cumulate descrescător se calculează după relaţia:
m
ihhi1ii nnNN .
Pentru exemplul dat, avem:
2192019 nNN ;
;312181918 nNN
Celelalte rezultate sunt prezentate în tabelul de mai jos:
19
Tabelul 2.3. Frecvenţele absolute cumulate descrescător
Pensiuni
turistice
Nr. judeţe iN
1 1 36
2 2 35
3 1 33
4 7 32
5 3 25
6 2 22
9 1 20
10 1 19
14 2 18
18 1 16
22 2 15
23 1 13
29 3 12
40 1 9
42 1 8
46 3 7
47 1 4
49 1 3
61 1 2
62 1 1
TOTAL 36 -
Interpretare
Numărul judeţelor din România care au 62 pensiuni turistice este egal cu unu. Numărul
judeţelor care au peste 61 pensiuni turistice este egal cu 2. Numărul judeţelor care au peste 49
pensiuni turistice este egal cu 3. În mod similar, se interpretează celelalte rezultate.
Frecvenţe relative (fi)
Frecvenţele relative se calculează după relaţia:
100n
n100
n
nf i
ii
ii
.
Pentru exemplul dat, avem:
%76,4100210
10100
n
nf
ii
11
; %90,11100
210
25100
n
nf
ii
22
etc.
Celelalte rezultate sunt prezentate în tabelul de mai jos:
20
Tabelul 2.4. Frecvenţele relative
Pensiuni
turistice
Nr. judeţe fi (%)
1 1 2,78
2 2 5,55
3 1 2,78
4 7 19,44
5 3 8,33
6 2 5,55
9 1 2,78
10 1 2,78
14 2 5,56
18 1 2,78
22 2 5,55
23 1 2,78
29 3 8,33
40 1 2,78
42 1 2,78
46 3 8,33
47 1 2,78
49 1 2,78
61 1 2,78
62 1 2,78
TOTAL 36 100
Interpretare
Ponderea judeţelor din România care au o pensiune turistică este de 2,78% din numărul
total de judeţe care au pensiuni turistice. Ponderea judeţelor care au 2 pensiuni turistice este de
5,55%, iar ponderea judeţelor care au 3 pensiuni turistice este de 2,78%. În mod similar, se
interpretează celelalte rezultate.
Frecvenţe relative cumulate crescător ( iF )
Frecvenţele relative cumulate crescător se calculează după relaţia:
i
1hhi1ii ffFF .
Pentru exemplul dat, avem:
1 1 2 78F f , % ;
2 1 2 2 78 5 55 8 33F F f , , , %;
%11,1178,233,8223 fFF , etc.
Celelalte rezultate sunt prezentate în tabelul de mai jos:
21
Tabelul 2.5. Frecvenţele relative cumulate crescător
Pensiuni
turistice
Nr. judeţe fi (%) iF (%)
1 1 2,78 2,78
2 2 5,55 8,33
3 1 2,78 11,11
4 7 19,44 30,55
5 3 8,33 38,88
6 2 5,55 44,43
9 1 2,78 47,21
10 1 2,78 49,99
14 2 5,56 55,55
18 1 2,78 58,33
22 2 5,55 63,88
23 1 2,78 66,66
29 3 8,33 74,99
40 1 2,78 77,77
42 1 2,78 80,55
46 3 8,33 88,88
47 1 2,78 91,66
49 1 2,78 94,44
61 1 2,78 97,22
62 1 2,78 100
TOTAL 36 100 -
Interpretare
Ponderea judeţelor din România care au o pensiune turistică este de 2,78%. Ponderea
judeţelor care au cel mult 2 pensiuni turistice este de 8,33%. Ponderea judeţelor care au cel mult 3
pensiuni turistice este de 11,11%. În mod similar, se interpretează celelalte rezultate.
Frecvenţe relative cumulate descrescător ( iF )
Frecvenţele relative cumulate descrescător se calculează după relaţiile:
m
ihhi1ii ffFF .
Pentru exemplul dat, avem:
20 21 20 2 78F F f , %; ;
19 20 19 2 78 2 78 5 56F F f , , , %;
18 19 18 5 56 2 78 8 34F F f , , , % etc.
Celelalte rezultate sunt prezentate în tabelul de mai jos:
22
Tabelul 2.6. Frecvenţele relative cumulate crescător
Pensiuni
turistice
Nr. judeţe fi (%) iF (%)
1 1 2,78 100
2 2 5,55 97,22
3 1 2,78 91,67
4 7 19,44 88,89
5 3 8,33 69,45
6 2 5,55 61,12
9 1 2,78 55,57
10 1 2,78 52,79
14 2 5,56 50,01
18 1 2,78 44,45
22 2 5,55 41,67
23 1 2,78 36,12
29 3 8,33 33,34
40 1 2,78 25,01
42 1 2,78 22,23
46 3 8,33 19,45
47 1 2,78 11,12
49 1 2,78 8,34
61 1 2,78 5,56
62 1 2,78 2,78
TOTAL 36 100 -
Interpretare
Ponderea judeţelor din România care au 62 pensiuni turistice este de 2,78%. Ponderea
judeţelor care au peste 61 pensiuni turistice este de 5,56%. Ponderea judeţelor care au peste 49
pensiuni turistice este de 8,34%. În mod similar, se interpretează celelalte rezultate.
2.1.3. Tipuri de grafice
O distribuţie statistică după o variabilă numerică discretă poate fi reprezentată grafic
folosind poligonul frecvenţelor, curba frecvenţelor şi curba frecvenţelor cumulate.
Poligonul frecvenţelor
Construirea poligonului frecvenţelor presupune găsirea locului geometric al punctelor Ai
de coordonate (xi , ni) sau (xi , fi) şi unirea acestora prin segmente de dreaptă. Poligonul
frecvenţelor aproximează forma unei distribuţii.
Alura poligonului frecvenţelor este reprezentată în figura de mai jos:
23
Figura 1. Poligonul frecvenţelor
Curba frecvenţelor
Construirea curbei frecvenţelor presupune ajustarea printr-o linie curbă, continuă a
poligonului frecvenţelor. Curba frecvenţelor aproximează mai bine forma de distribuţie a
colectivităţii după variabila considerată.
Alura curbei frecvenţelor este reprezentată în figura de mai jos:
Figura 2. Curba frecvenţelor
Curba frecvenţelor pentru distribuţia dată se compară cu forma curbei frecvenţelor pentru
o distribuţie normală, cunoscută sub denumirea de Clopotul lui Gauss. Această curbă este o curbă
simetrică faţă de nivelul mediu: jumătate din unităţi au valori mai mici decât nivelul mediu, iar
jumătate au valori mai mari.
În urma prelucrării datelor la nivelul unui eşantion, pot fi obţinute următoarele forme ale
distribuţiei unităţilor:
24
Figura 3. Curbă asimetrică la dreapta
Figura 4. Curbă asimetrică la stânga
În exemplele prezentate în Figura 3 şi Figura 4 se observă o concentrare a frecvenţelor ni
spre valorile mici (Figura 3), respectiv spre valorile mari ale variabilei X (Figura 4).
Curba frecvenţelor cumulate
Construirea curbei frecvenţelor cumulate presupune reprezentarea grafică a funcţiei de
repartiţie a frecvenţelor unei variabile: F(Xxi).
Alura curbei frecvenţelor cumulate crescător este reprezentată în figura de mai jos:
Figura 5. Curba frecvenţelor cumulate crescător
25
Alura curbei frecvenţelor cumulate desccrescător este reprezentată în figura de mai jos:
Figura 6. Curba frecvenţelor cumulate descrescător
2.2. Analiza numerică. Indicatori ai statisticii descriptive
Cei mai importanţi indicatori ai statisticii descriptive pot fi grupaţi în indicatori ai tendinţei
centrale, indicatori ai dispersiei, indicatori ai asimetriei şi boltirii.
2.2.1. Indicatori ai tendinţei centrale (mărimi medii)
Indicatorii tendinţei centrale sunt indicatori prin care pot fi caracterizate în mod sintetic
unităţile statistice observate după o variabilă X. Principalele mărimi medii folosite în
caracterizarea unei serii statistice sunt media aritmetică, modul şi mediana.
a. Media aritmetică )x(
Media aritmetică pentru o serie statistică după o variabilă discretă se calculează după
relaţiile:
n
x
x ii
, pentru o serie simplă de valori;
ii
iii
n
nx
x , pentru o serie cu frecvenţe ni.
Principalele proprietăţi ale mediei aritmetice sunt:
1. Media aritmetică se înscrie în intervalul de variaţie al variabilei X:
maxmin xxx .
2. Pentru o serie cu frecvenţe, media aritmetică este plasată între valorile extreme, oscilând în
jurul valorii cu frecvenţa dominantă.
Media este considerată în statistică un punct de echilibru, similar centrului de greutate în
fizică. Dacă o serie nu prezintă o asimetrie pronunţată, atunci media va fi în apropierea valorii cu
frecvenţa cea mai mare.
26
3. Media este o mărime normală, adică suma abaterilor valorilor individuale ale unei variabile X
de la media lor este egală cu zero:
0)xx(i
i , pentru o serie simplă de valori;
0n)xx( ii
i , pentru o serie cu frecvenţe.
Exemple
1. Vânzările unei firme (mil. Lei) înregistrate timp de cinci zile sunt: 10, 9, 8 7, 7. Se cere
să se calculeze media aritmetică.
Rezolvare
Media aritmetică pentru o serie simplă de valori se calculează după relaţia:
n
x
x ii
.
Pentru exemplul dat, obţinem:
2,85
778910
n
x
x ii
mil. Lei.
Interpretare
Nivelul mediu al vânzărilor zilnice ale firmei este de 8,2 mil. Lei.
2. Distribuţia judeţelor din România care au pensiuni turistice la 31 iulie 2010 (exclusiv
judeţul Braşov şi judeţul Prahova) se prezintă astfel:
27
Tabelul 2.7. Distribuţia judeţelor din România
după numărul de pensiuni turistice la 31 iulie 2010
Pensiuni
turistice
Nr. judeţe
1 1
2 2
3 1
4 7
5 3
6 2
9 1
10 1
14 2
18 1
22 2
23 1
29 3
40 1
42 1
46 3
47 1
49 1
61 1
62 1
TOTAL 36
Se cere să se calculeze media aritmetică.
Rezolvare
Media aritmetică pentru o serie statistică cu frecvenţe se calculează după relaţia
ii
iii
n
nx
x .
Elementele pentru calculul mediei aritmetice sunt prezentate în tabelul de mai jos:
28
Tabelul 2.8. Elemente pentru calculul mediei aritmetice
Pensiuni
turistice
Nr. judeţe ii nx
1 1 1
2 2 4
3 1 3
4 7 28
5 3 15
6 2 12
9 1 9
10 1 10
14 2 28
18 1 18
22 2 44
23 1 23
29 3 87
40 1 40
42 1 42
46 3 138
47 1 47
49 1 49
61 1 61
62 1 62
TOTAL i
in 36 i
ii nx 721
Înlocuind în relaţia de mai sus, se obţine :
72120 03
36
i i
i
i
i
x n
x ,n
.
Interpretare
Numărul mediu de pensiuni turistice este de 20,03~20 pensiuni/judeţ.
b. Modul (Mo)
Modul este valoarea variabilei cea mai frecvent observată într-o distribuţie, adică valoarea
xi care corespunde frecvenţei maxime (nimax).
Aflarea modului presupune identificarea valorii xi corespunzătoare frecvenţei maxime
(nimax).
Exemple
1. Vânzările unei firme A (mil. Lei) înregistrate timp de cinci zile sunt: 10, 9, 8 7, 7. Se
cere să se afle modul.
Rezolvare
Pentru aflarea modului, trebuie identificată valoarea xi corespunzătoare frecvenţei maxime
(nimax). Frecvenţa maximă este nimax=2, iar valoarea xi corespunzătoare este xi=7. Pentru seria
dată, modul este: Mo=7 mil. Lei.
29
Interpretare
Valoarea vânzărilor cea mai frecvent înregistrată de firma A este de 7 mil. Lei pe zi.
2. Vânzările unei firme A (mil. Lei) înregistrate timp de cinci zile sunt: 10, 8, 8 7, 7. Se
cere să se afle valoarea modului.
Rezolvare
Pentru aflarea modului, trebuie identificată valoarea xi corespunzătoare frecvenţei maxime
(nimax). Frecvenţa maximă este nimax=2, iar valorile xi corespunzătoare sunt xi=7 şi xi=8. Seria dată
este o serie bimodală, valorile modului fiind de 7 mil. Lei şi de 8 mil. Lei.
Interpretare
Valorile vânzărilor cele mai frecvente sunt de 7 mil. Lei şi de 8 mil. Lei pe zi .
3. Distribuţia judeţelor din România care au pensiuni turistice la 31 iulie 2010 (exclusiv
judeţul Braşov şi judeţul Prahova) se prezintă astfel:
Tabelul 2.9. Distribuţia judeţelor din România
după numărul de pensiuni turistice la 31 iulie 2010
Pensiuni
turistice
Nr. judeţe
1 1
2 2
3 1
Mo=4 7
5 3
6 2
9 1
10 1
14 2
18 1
22 2
23 1
29 3
40 1
42 1
46 3
47 1
49 1
61 1
62 1
TOTAL 36
Se cere să se calculeze modul.
Rezolvare
Pentru aflarea modului, se află frecvenţa maximă: nimax=7. Valoarea xi care corespunde
acestei frecvenţe maxime este xi=4. Pentru seria dată, modul este: Mo=4.
30
Interpretare
Cele mai multe judeţe din România au avut la 31 iulie 2010 un număr de 4 pensiuni
turistice.
c. Mediana (Me)
Mediana reprezintă acea valoare a variabilei care împarte seria ordonată crescător în două
părţi egale: jumătate din unităţi au valori mai mici decât mediana, iar jumătate au valori mai mari
decât mediana.
Aflarea medianei se realizează diferit în funcţie de tipul seriei:
1. Pentru o serie simplă:
cu număr par de termeni, mediana este reprezentată de media aritmetică simplă a celor doi
termeni centrali ai seriei ordonate crescător.
Exemplu
Se consideră seria reprezentată de valorile 10, 9, 11, 6, 7, 8. Pentru aflarea medianei, şirul
valorilor se ordonează în sens crescător: 6, 7, 8, 9, 10, 11. Mediana este reprezentată de media
aritmetică simplă a celor doi termeni centrali ai seriei ordonate crescător, respectiv
5,82
98Me
.
cu număr impar de termeni, mediana este reprezentată de termenul central al seriei
ordonate crescător.
Exemplu
Se consideră seria reprezentată de valorile 10, 9, 11, 6, 7. Pentru aflarea medianei, şirul
valorilor se ordonează în sens crescător: 6, 7, 9, 10, 11. Mediana este reprezentată de termenul
central al seriei ordonate crescător, respectiv 9Me .
2. Pentru o serie cu frecvenţe după o variabilă discretă
Aflarea medianei presupune parcurgerea următoarelor etape:
se calculează unitatea mediană: 2
1n
U ii
Me
.
se calculează frecvenţele absolute cumulate crescător, Ni↓;
se află prima valoare Ni↓≥UMe
;
valoarea xi corespunzătoare acestei frecvenţe Ni↓≥UMe
este mediana.
Exemplu
Distribuţia judeţelor din România care au pensiuni turistice la 31 iulie 2010 (exclusiv
judeţul Braşov şi judeţul Prahova) se prezintă astfel:
31
Tabelul 2.10. Distribuţia judeţelor din România
după numărul de pensiuni turistice la 31 iulie 2010
Pensiuni
turistice
Nr. judeţe
1 1
2 2
3 1
4 7
5 3
6 2
9 1
10 1
14 2
18 1
22 2
23 1
29 3
40 1
42 1
46 3
47 1
49 1
61 1
62 1
TOTAL 36
Se cere să se calculeze mediana.
Rezolvare
Etape pentru aflarea medianei:
se calculează unitatea mediană:
137
18 52 2
iMe i
n
U ,
;
se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în
tabelul de mai jos:
32
Tabelul 2.11. Frecvenţele absolute cumulate crescător
Pensiuni
turistice
Nr. judeţe iN
1 1 1
2 2 3
3 1 4
4 7 11
5 3 14
6 2 16
9 1 17
10 1 18
Me=14 2 20
18 1 21
22 2 23
23 1 24
29 3 27
40 1 28
42 1 29
46 3 32
47 1 33
49 1 34
61 1 35
62 1 36
TOTAL 36 -
se află prima valoare Ni↓≥UMe
. Pentru exemplul dat, 20 18 5Me
iN U , .
valoarea xi corespunzătoare primei frecvenţe Ni↓≥UMe
este mediana. Pentru exemplul dat,
Me=14.
Interpretare
Jumătate din numărul total al judeţelor din România au până la 14 pensiuni turistice,
inclusiv, iar jumătate au peste 14 pensiuni turistice, inclusiv.
Observaţie
Locul medianei într-o distribuţie depinde de forma acesteia. Doar în cazul unei distribuţii
simetrice mediana este termenul central al seriei.
Exemplu
Se consideră distribuţiile a două serii, prezentate în tabelele de mai jos:
Seria I xi ni
1 20
2 40
3 20
4 15
5 5
TOTAL 100
33
Seria II xi ni
1 10
2 20
3 40
4 20
5 10
TOTAL 100
Să se afle şi să se compare valorile medianei pentru cele două distribuţii.
Rezolvare
Pentru seria I, aflarea medianei presupune parcurgerea următoarelor etape:
se calculează unitatea mediană: 5,502
101
2
1
i
i
Me
n
U ;
se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în
tabelul de mai jos:
Tabelul 2.12. Frecvenţele absolute cumulate crescător
pentru seria I xi ni iN
1 20 20
Me=2 40 60
3 20 80
4 15 95
5 5 100
TOTAL 100 -
prima valoare Ni↓≥UMe
este .50U60N Mei
valoarea xi corespunzătoare frecvenţei Ni↓≥UMe
este Me=2.
Pentru seria II se obţin următoarele rezultate:
Tabelul 2.13. Frecvenţele absolute cumulate crescător
pentru seria II xi ni iN
1 10 10
2 20 30
Me=3 40 70
4 20 90
5 10 100
TOTAL 100 -
În acest caz, valoarea medianei este Me=3.
34
Se observă că poziţia medianei pentru cele două distribuţii diferă, deşi volumul
colectivităţii este acelaşi, n=100. Seria I este o serie asimetrică, spre deosebire de seria II care este
o distribuţie simetrică. În acest ultim caz, mediana este reprezentată de termenul central al seriei.
d. Relaţii între cele trei mărimi medii fundamentale
Relaţia dintre cele trei mărimi medii fundamentale evidenţiază forma unei distribuţii:
atunci când MeMox , distribuţia este simetrică;
Figura 7. Distribuţie simetrică
atunci când MoMex , distribuţia este asimetrică la dreapta;
Figura 8. Distribuţie asimetrică la dreapta
atunci când MoMex , distribuţia este asimetrică la stânga.
35
Figura 9. Distribuţie asimetrică la stânga
e. Comparaţii între cele trei mărimi medii fundamentale
Interpretarea valorilor obţinute pentru cele trei mărimi medii fundamentale poate releva
aspecte importante privind unităţile statistice din distribuţia analizată.
De exemplu, să considerăm că în urma prelucrării datelor privind salariul lunar (lei)
obţinut de către salariaţii unei firme, s-au obţinut următoarele rezultate:
lei800Me;lei700Mo;lei1500x .
Aceste valori arată că salariul mediu obţinut de salariaţii firmei este de 1500 lei/lună, însă
cei mai mulţi salariaţi câştigă 700 lei/lună, iar jumătate din numărul total al salariaţilor câştigă
până la 800 lei/lună, iar jumătate câştigă peste 800 lei/lună. Distribuţia salariaţilor firmei
observate este o distribuţie puternic asimetrică la dreapta.
Aceste rezultate pot fi explicate prin diferenţe mari înregistrate între valorile salariului
obţinut de salariaţii din firma considerată. Media aritmetică este o mărime influenţată de valorile
extreme, aberante. De aceea, este deosebit de utilă şi interpretarea celorlalte mărimi medii
fundamentale.
f. Generalizarea medianei: quantilele
Quantilele sunt valori ale caracteristicii care împart volumul unei colectivităţi în r părţi
egale. Cele mai folosite quantile sunt:
1. Quartilele
Quartilele sunt valori ale caracteristicii care împart volumul unei colectivităţi în 4 părţi
egale.
Poziţia celor trei quartile într-o distribuţie simetrică este prezentată în figura de mai jos:
Figura 10. Poziţia quartilelor într-o distribuţie
36
Quartila unu ( Q1)
Aflarea quartilei unu presupune parcurgerea următoarelor etape:
se calculează unitatea quartilică unu: 4
11
i
i
Q
n
U ;
se calculează frecvenţele absolute cumulate crescător, Ni↓;
se află prima valoare Ni↓≥UQ1;
valoarea xi corespunzătoare frecvenţei Ni↓≥UQ1 este quartila unu.
Quartila doi ( Q2)
Aflarea quartilei doi presupune parcurgerea următoarelor etape:
se calculează unitatea quartilică doi: Mei
i
i
i
QU
nn
U
2
1
4
)1(22 . Quartila doi
este, deci, mediana.
Quartila trei ( Q3)
Aflarea quartilei trei presupune parcurgerea următoarelor etape:
se calculează unitatea quartilică trei: 4
)1(33
i
iQ
n
U ;
se calculează frecvenţele absolute cumulate crescător, Ni↓;
se află prima valoare Ni↓≥UQ3;
valoarea xi corespunzătoare frecvenţei Ni↓≥UQ3 este quartila trei.
Exemplu
Distribuţia judeţelor din România care au pensiuni turistice la 31 iulie 2010 (exclusiv
judeţul Braşov şi judeţul Prahova) se prezintă astfel:
37
Tabelul 2.14. Distribuţia judeţelor din România
după numărul de pensiuni turistice la 31 iulie 2010
Pensiuni
turistice
Nr. judeţe
1 1
2 2
3 1
4 7
5 3
6 2
9 1
10 1
14 2
18 1
22 2
23 1
29 3
40 1
42 1
46 3
47 1
49 1
61 1
62 1
TOTAL 36
Se cere să se calculeze quartila unu şi quartila trei.
Rezolvare
Quartila unu
se calculează unitatea quartilică unu: 1
136 1
9 254 4
iQ i
n
U ,
;
se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în
tabelul de mai jos:
38
Tabelul 2.15. Frecvenţele absolute cumulate crescător
Pensiuni
turistice
Nr. judeţe iN
1 1 1
2 2 3
3 1 4
Q1=4 7 11
5 3 14
6 2 16
9 1 17
10 1 18
14 2 20
18 1 21
22 2 23
23 1 24
29 3 27
40 1 28
42 1 29
46 3 32
47 1 33
49 1 34
61 1 35
62 1 36
TOTAL 36 -
se află prima valoare Ni↓≥UQ1. Pentru exemplul dat, 111 9 25
Q
iN U , ;
valoarea xi corespunzătoare primei frecvenţe Ni↓≥UMe
este quartila unu. Pentru exemplul
dat, Q1=4.
Interpretare
25% din numărul total de judeţe ale României au cel mult 4 pensiuni turistice, inclusiv, iar
75% au peste 4 pensiuni turistice, inclusiv.
Quartila trei
se calculează unitatea quartilică trei: 3
3 13 37
27 754 4
i
Q i
n
U ,
;
se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în
tabelul de mai jos:
39
Tabelul 2.16. Frecvenţele absolute cumulate crescător
Pensiuni
turistice
Nr. judeţe iN
1 1 1
2 2 3
3 1 4
4 7 11
5 3 14
6 2 16
9 1 17
10 1 18
14 2 20
18 1 21
22 2 23
23 1 24
29 3 27
Q3=40 1 28
42 1 29
46 3 32
47 1 33
49 1 34
61 1 35
62 1 36
TOTAL 36 -
se află prima valoare Ni↓≥UQ3. Pentru exemplul dat, 328 27 75
Q
iN U , .
valoarea xi corespunzătoare primei frecvenţe Ni↓≥UQ3 este quartila trei. Pentru exemplul
dat, Q3=40.
Interpretare
75% din numărul total al judeţelor din România au până la 40 de pensiuni turistice, iar
25% au peste 40 pensiuni turistice.
2. Decilele
Decilele sunt valori ale caracteristicii care împart volumul unei colectivităţi în 10 părţi
egale. Cele mai importante decile sunt decila unu şi decila nouă.
Decila unu ( D1)
Aflarea decilei unu presupune parcurgerea următoarelor etape:
se calculează unitatea decilică unu: 10
11
i
i
D
n
U ;
se calculează frecvenţele absolute cumulate crescător, Ni↓;
se află prima valoare Ni↓≥UD1;
valoarea xi corespunzătoare frecvenţei Ni↓≥UD1 este decila unu.
Decila nouă (D9)
40
Aflarea decilei nouă presupune parcurgerea următoarelor etape:
se calculează unitatea decilică nouă: 10
)1(99
i
iD
n
U ;
se calculează frecvenţele absolute cumulate crescător, Ni↓;
se află prima valoare Ni↓≥UD9;
valoarea xi corespunzătoare ifrecvenţei Ni↓≥UD9 este decila nouă.
Exemplu
Distribuţia judeţelor din România care au pensiuni turistice la 31 iulie 2010 (exclusiv
judeţul Braşov şi judeţul Prahova) se prezintă astfel:
Tabelul 2.17. Distribuţia judeţelor din România
după numărul de pensiuni turistice la 31 iulie 2010
Pensiuni
turistice
Nr. judeţe
1 1
2 2
3 1
4 7
5 3
6 2
9 1
10 1
14 2
18 1
22 2
23 1
29 3
40 1
42 1
46 3
47 1
49 1
61 1
62 1
TOTAL 36
Se cere să se calculeze decila unu şi decila nouă.
Rezolvare
Decila unu
se calculează unitatea decilică unu: 7,310
37
10
11
i
i
D
n
U ;
se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în
tabelul de mai jos:
41
Tabelul 2.18. Frecvenţele absolute cumulate crescător
Pensiuni
turistice
Nr. judeţe iN
1 1 1
2 2 3
D1=3 1 4
4 7 11
5 3 14
6 2 16
9 1 17
10 1 18
14 2 20
18 1 21
22 2 23
23 1 24
29 3 27
40 1 28
42 1 29
46 3 32
47 1 33
49 1 34
61 1 35
62 1 36
TOTAL 36 -
se află prima valoare Ni↓≥UD1. Pentru exemplul dat, 14 3 6
D
iN U , .
valoarea xi corespunzătoare primei frecvenţe Ni↓≥UD1 este decila unu. Pentru exemplul
dat, D1=3.
Interpretare
10% din judeţele României au la 31 iulie 2010 numărul de pensiuni turistice de până la 3,
inclusiv, iar 90% au peste 3 pensiuni turistice, inclusiv.
Decila nouă
se calculează unitatea decilică nouă: 9
9 19 37
33 310 10
i
D i
n
U ,
;
se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în
tabelul de mai jos:
42
Tabelul 2.19. Frecvenţele absolute cumulate crescător
Pensiuni
turistice
Nr. judeţe iN
1 1 1
2 2 3
3 1 4
4 7 11
5 3 14
6 2 16
9 1 17
10 1 18
14 2 20
18 1 21
22 2 23
23 1 24
29 3 27
40 1 28
42 1 29
46 3 32
47 1 33
D9=49 1 34
61 1 35
62 1 36
TOTAL 36 -
se află prima valoare Ni↓≥UD9. Pentru exemplul dat, 934 33 3
D
iN U , .
valoarea xi corespunzătoare primei frecvenţe Ni↓≥UD
9 este decila nouă. Pentru exemplul
dat, D9=49.
Interpretare
90% din judeţele României au la 31 iulie 2010 până la 49 pensiuni turistice, iar 10% au
peste 49 pensiuni turistice.
g. Reprezentarea diagramei „box-and-whiskers” sau „box-plot”
Construirea diagramei „box-and-whiskers” presupune reprezentarea următoarelor valori
ale tendinţei centrale: quartila unu, mediana, quartila trei, decila unu şi decila nouă. Forma
generală a diagramei „box-and-whiskers” este prezentată în figura de mai jos:
43
1
10,009,008,007,006,005,004,00
D1 Q1 Q2 Q3 D9
Figura 11. Diagrama „box-and-whiskers”
Diagrama „box-and-whiskers” este utilă în cercetarea statistică deoarece oferă informaţii
cu privire la indicatorii tendinţei centrale, la forma unei distribuţii, dar şi cu privire la gradul de
dispersie al distribuţiei (fenomen prezentat în capitolul următor). Într-o distribuţie perfect
simetrică, valorile decilei unu şi nouă, respectiv ale quartilei unu şi trei, sunt reprezentate la
aceeaşi distanţă faţă de mediană. Această situaţie este reprezentată în Figura 11.
2.2.2. Indicatori ai dispersiei
Pentru caracterizarea unităţilor unei distribuţii nu este suficientă doar folosirea
indicatorilor tendinţei centrale. Pentru o caracterizare corectă a unei distribuţii trebuie să se ia în
considerare gradul de variaţie a valorilor variabilei X faţă de nivelul mediu. O colectivitate
caracterizată printr-o dispersie mare a valorilor xi ale unei variabile faţă de nivelul mediu este o
colectivitate eterogenă iar media nu este reprezentativă pentru distribuţie.
a. Definirea fenomenului de dispersie
Aprecierea variabilităţii valorilor unei variabile faţă de nivelul mediu se poate realiza prin
aprecierea fenomenului de dispersie. Dispersia exprimă gradul de împrăştiere a valorilor
individuale ale unei variabile faţă de nivelul mediu. Aprecierea fenomenului de dispersie al unei
distribuţii permite identificarea gradului de reprezentativitate a mediei unei distribuţii.
b. Indicatorii dispersiei
Principalii indicatori ai dispersiei sunt:
1. Amplitudinea de variaţie
Amplitudinea de variaţie măsoară distanţa dintre nivelul maxim şi nivelul minim al unei
variabile. Se calculează pe baza relaţiei:
minmax xxA .
Acest indicator permite aprecierea întinderii domeniului de variaţie al variabilei X.
Dezavantajul acestui indicator constă în faptul că nu „pătrunde” în interiorul distribuţiei, respectiv
între cele două valori extreme ale variabilei.
2. Varianţa
Varianţa este media pătratelor abaterilor valorilor xi de la nivelul mediu şi poate fi
calculată pe baza relaţiei:
44
n
)xx(
s
2
ii
2
, pentru o serie simplă;
ii
i2
ii
2
n
n)xx(
s , pentru o serie cu frecvenţe.
Varianţa nu are unitate de măsură şi nu se interpretează.
3. Abaterea medie pătratică (abaterea standard)
Abaterea medie pătratică sau abaterea standard este rădăcina mediei pătratelor abaterilor
valorilor xi de la nivelul mediu şi poate fi calculată pe baza relaţiei:
n
)xx(
ss
2
ii
2
, pentru o serie simplă;
ii
i2
ii
2
n
n)xx(
ss , pentru o serie cu frecvenţe.
Abaterea standard se exprimă în aceeaşi unitate de măsură cu cea a variabilei X. Arată cu
cât variază, în medie, valorile variabilei X de la nivelul mediu, în sens negativ şi pozitiv.
4. Coeficientul de variaţie
Întrucât abaterea standard şi media se exprimă în aceeaşi unitate de măsură cu cea a
variabilei X, aceşti indicatori nu pot fi folosiţi pentru a compara două serii de date care sunt
exprimate în unităţi de măsură diferite. Pentru a înlătura acest inconvenient, se calculează
coeficientul de variaţie, după relaţia:
100x
sv .
Prin evaluarea acestui coeficient se poate aprecia gradul de reprezentativitate a mediei
unei distribuţii. În general, o valoare a coeficientului de variaţie mai mică de 50% arată că media
este reprezentativă.
Exemplu
Distribuţia judeţelor din România care au pensiuni turistice la 31 iulie 2010 (exclusiv
judeţul Braşov şi judeţul Prahova) se prezintă astfel:
45
Tabelul 2.20. Distribuţia judeţelor din România
după numărul de pensiuni turistice la 31 iulie 2010
Pensiuni
turistice
Nr. judeţe
1 1
2 2
3 1
4 7
5 3
6 2
9 1
10 1
14 2
18 1
22 2
23 1
29 3
40 1
42 1
46 3
47 1
49 1
61 1
62 1
TOTAL 36
Se cere să se calculeze indicatorii dispersiei.
Rezolvare
Cei mai importanţi indicatori ai dispersiei sunt: amplitudinea de variaţie, varianţa, abaterea
standard şi coeficientul de variaţie.
Amplitudinea de variaţie
Amplitudinea de variaţie se calculează pe baza relaţiei:
62 1 61max minA x x .
Interpretare
Diferenţa dintre nivelul maxim şi nivelul minim al variabilei X este egală cu 61.
Varianţa
Varianţa se calculează pe baza relaţiei:
ii
i2
ii
2
n
n)xx(
s . Pentru această distribuţie, media este 20 03x , .
Elementele de calcul ale varianţei sunt prezentate în tabelul de mai jos:
46
Tabelul 2.21. Elemente de calcul ale varianţei
Pensiuni
turistice
Nr. judeţe xxi 2i )xx( i
2i n)xx(
1 1 -19,03 362,1409 362,1409
2 2 -18,03 325,0809 650,1618
3 1 -17,03 290,0209 290,0209
4 7 -16,03 256,9609 1798,726
5 3 -15,03 225,9009 677,7027
6 2 -14,03 196,8409 393,6818
9 1 -11,03 121,6609 121,6609
10 1 -10,03 100,6009 100,6009
14 2 -6,03 36,3609 72,7218
18 1 -2,03 4,1209 4,1209
22 2 1,97 3,8809 7,7618
23 1 2,97 8,8209 8,8209
29 3 8,97 80,4609 241,3827
40 1 19,97 398,8009 398,8009
42 1 21,97 482,6809 482,6809
46 3 25,97 674,4409 2023,323
47 1 26,97 727,3809 727,3809
49 1 28,97 839,2609 839,2609
61 1 40,97 1678,5409 1678,541
62 1 41,97 1761,4809 1761,481
TOTAL 36 - - 12640,97
Înlocuind în relaţia de mai sus, se obţine: 2
2 12640 97351 138
36
i i
i
i
i
( x x ) n,
s ,n
.
Abaterea standard
Abaterea standard se calculează pe baza relaţiei:
2 351138 18 74s s , , .
Interpretare
Numărul de pensiuni din judeţele României variază, în medie, faţă de nivelul mediu cu
18,74~19 pensiuni, în sens pozitiv şi negativ.
Coeficientul de variaţie
Coeficientul de variaţie se calculează după relaţia:
18 74100 100 93 56
20 03
s ,v , %
x , .
Interpretare
Valoarea coeficientului de variaţie arată că distribuţia judeţelor după numărul de pensiuni
turistice la 31 iulie 2010 nu este o distribuţie omogenă, este caracterizată printr-o dispersie mare
(v>50%). Media nu este reprezentativă pentru această distribuţie.
47
c. Compararea fenomenului de dispersie pentru mai multe distribuţii
Pentru două colectivităţi se înregistrează vârsta persoanelor şi se obţin următoarele
rezultate:
ani2s,ani15x 11 ;
ani2s,ani50x 22 .
Aceste rezultate arată că ambele colectivităţi se caracterizează printr-o dispersie mică a
vârstei persoanelor faţă de vârsta medie. Vârsta medie pentru unităţile din prima colectivitate este,
însă, mult mai mică decât vârsta medie pentru unităţile din cea de-a doua colectivitate. Aceasta
arată că prima colectivitate este formată din persoane foarte tinere, spre deosebire de persoanele
din cea de-a doua colectivitate.
Reprezentarea grafică a două distribuţii caracterizate prin medii diferite şi aceeaşi
dispersie este realizată în figura de mai jos:
Figura 12. Curba frecvenţelor pentru două distribuţii
Reprezentarea grafică a două distribuţii caracterizate prin aceeaşi medie şi dispersii
diferite este realizată în figura de mai jos:
Figura 13. Curba frecvenţelor pentru două distribuţii
d. Abaterea standard şi distribuţia normală
Cunoscând nivelul mediu şi abaterea standard pentru o distribuţie, putem afla care este
proporţia unităţilor care înregistrează valori mai mari, de exemplu, decât ( sx ).
Pentru aceasta, se calculează valori ale unei variabile standardizat Z, cunoscută şi sub
denumirea de scor Zi, după relaţia:
48
s
xxz i
i
. Această mărime arată poziţia unei unităţi faţă de nivelul mediu ( x ), folosind
ca „unitate de măsură” abaterea standard. Variabila Z este o variabilă de medie 0 şi varianţă egală
cu 1.
De exemplu, pentru o distribuţie caracterizată printr-o medie de 100x şi o abatere
standard de 20s , pentru xi=140 putem afla valoarea zi, astfel: 220
100140
iz . Aceasta
arată că unitatea care înregistrează valoarea xi=140 se găseşte la o distanţă faţă de nivelul mediu
egală cu de două ori abaterea standard.
Odată calculată valoarea z, putem afla proporţia unităţilor care înregistrează valori mai
mari decât 140, de exemplu. Aceste valori sunt calculate pentru o distribuţie normală şi sunt
tabelate (Anexa 1).
Tabelul care prezintă aceste rezultate este de forma:
0 0.01 0.05
0
0.1
0.2
1 0,341
1.1 0,375
Pe prima coloană sunt valorile lui z, întregul şi prima zecimală, iar valorile din
următoarele coloane reprezintă a doua zecimală a valorii zi. Valorile din interiorul tabelul arată
proporţia unităţilor care înregistrează valori cuprinse între nivelul mediu şi scorul z corespunzător.
De exemplu, pentru o valoare zi=1,15, se citeşte 0,375. Această valoare arată că
aproximativ 37,5% din unităţile distribuţiei înregistrează valori cuprinse între nivelul mediu şi
valoarea zi=1,15.
În Tabelul Z nu sunt valori negative pentru zi, însă distribuţia normală este o distribuţie
simetrică, deci aria suprafeţei cuprinse între nivelul mediu şi valoarea pozitivă sau negativă a lui Z
este aceeaşi.
Exemple
49
1. Pentru o distribuţie normală de medie, x , şi abatere standard, s, să se afle proporţia
unităţilor care înregistrează valori cuprinse în intervalele ( sx ), ( s2x ) şi ( s3x ).
Rezolvare
Pentru a afla proporţia unităţilor care înregistrează valori cuprinse în intervalul
)sx;sx( , se calculează scorul Z, astfel:
1s
xsx
s
xxz 1
1
1s
xsx
s
xxz 2
2
.
Din tabelul Z se citeşte valoarea care corespunde unui nivel zi=1, şi anume 0,341.
0 0.01 0.05
0
0.1
0.2
1 0,341
1.1 0,375
Această valoare, 0,341, reprezintă aria suprafeţei cuprinse între nivelul mediu şi zi=1.
Proporţia unităţilor care înregistrează valori cuprinse în intervalul )sx;sx( este:
682,0341,02 sau 68,2%.
În mod similar, se obţin valorile zi=±2, pentru limitele intervalului ( s2x ).
50
Din tabelul Z, se citeşte valoarea care corespunde unui nivel zi=2, de 0,477.
0 0.05
0
0.1
0.2
2 0,477
Proporţia unităţilor care înregistrează valori cuprinse în intervalul )s2x;s2x( este:
954,0477,02 sau 95,4%.
Pentru intervalul ( s3x ), se obţin valorile zi=±3:
Pentru zi=±3, se citeşte valoarea corespunzătoare 0,499.
0 0.05
0
51
0.1
0.2
3 0,499
Proporţia unităţilor care înregistrează valori cuprinse în intervalul )s3x;s3x( este:
998,0499,02 sau 99,8%.
Interpretare
Într-o distribuţie normală, în intervalul ( sx ) sunt cuprinse 68,2% din unităţi, în
intervalul ( s2x ) sunt cuprinse 95,4% din unităţi şi în intervalul ( s3x ) sunt cuprinse
99,8% din unităţi.
2. Distribuţia unor studenţi după nota obţinută la un test urmează o lege normală şi se
caracterizează prin următoarele rezultate: 7x şi s=2. Se cere să se afle proporţia studenţilor
care au luat note mai mici decât 6.
Rezolvare
Valoarea Zi care corespunde unei valori xi=6 se calculează astfel:
502
76,
s
xxz i
i
Din tabelul Z se citeşte valoarea care corespunde unui nivel zi=0,5, egală cu 0,191.
0 0.01 0.05
0
0.1
0.2
0,5 0,191
Proporţia studenţilor care au luat note mai mici decât 6 este f=0,5-0,191=0,309 sau 30,9%.
52
Observaţie
Aria suprafeţei reprezentate în figura de mai sus este egală cu unu (după cum am precizat
anterior, suma proporţiilor este egală cu 1 sau 100%). Distribuţia normală este o distribuţie
simetrică, deci proporţia unităţilor care au valori mai mari decât nivelul mediu este de 0,5.
3. Distribuţia unor persoane după vârstă urmează o lege normală şi se caracterizează prin
următoarele rezultate: 30x ani şi s=4 ani. Se cere să se afle proporţia persoanelor care au o
vârstă cuprinsă între 27 ani şi 35 ani.
Rezolvare
Valorile lui Z corespunzătoare lui x1=27 şi x2=35 sunt:
75,04
3027
s
xxz 1
1
25,14
3035
s
xxz 2
2
.
Din tabelul Z se citesc valorile corespunzătoare lui z1=-0,75 şi z2=+1,25, astfel:
0 0.05
0
0.1
0.2
0,7 0,273
1,2 0,394
Proporţia persoanelor care au o vârstă cuprinsă între 27 ani şi 35 ani este:
f=0,273+0,394=0,667 sau 66,7%.
53
4. Pentru o distribuţie normală de medie x , şi abatere standard s, să se afle limitele
intervalului care include 95% din unităţile statistice observate.
Rezolvare
Această problemă poate fi prezentată grafic astfel:
Demersul urmat pentru rezolvarea acestei probleme este invers celui prezentat anterior: se
cunoaşte proporţia (95%) şi trebuie să aflăm valoarea zi care corespunde acestei proporţii.
Pentru a afla valoarea zi, se calculează aria suprafeţei cuprinsă între nivelul mediu şi z, care
este egală cu %5,472
%95 sau 0,475.
Pentru această proporţie egală cu 0,475, se citeşte valoarea zi corespunzătoare, de 1,96.
54
0 0.06
0
0.1
0.2
1,9 0,475
Prin urmare, într-o distribuţie normală, 95% din unităţi au valori cuprinse în intervalul
s96,1x;s96,1x .
Observaţie
În estimarea parametrilor unei populaţii, problematică prezentată în partea a doua,
obiectivul urmărit este de a afla limitele unui interval care acoperă media unei populaţii, în 95%
din cazuri, de exemplu.
2.2.4. Indicatori ai formei unei distribuţii
a. Asimetria
O distribuţie este simetrică dacă valorile frecvenţelor sunt egal dispersate faţă de valoarea
centrală a seriei. Distribuţia normală este exemplul clasic al unei repartiţii simetrice. Graficul
densităţii de repartiţie în cazul unei distribuţii normale are forma unui clopot simetric, cu axa de
simetrie reprezentată de media seriei. O deviere de la forma simetrică a unei distribuţii evidenţiază
fenomenul de asimetrie.
Asimetria poate fi apreciată pe cale grafică prin reprezentarea poligonului şi curbei
frecvenţelor, şi prin reprezentarea diagramei “box-and-whiskers”.
Alura curbei frecvenţelor în cazul unei distribuţii simetrice, a unei distribuţii asimetrice la
dreapta sau la stânga este reprezentată grafic în figurile de mai jos:
55
10,008,006,004,00
Nota
50
40
30
20
10
0
Fre
qu
en
cy
Mean = 7,00Std. Dev. =1,54303N = 190
Figura 14. Distribuţie simetrică
10,008,006,004,00
Nota
60
50
40
30
20
10
0
Fre
qu
en
cy
Mean = 6,4737Std. Dev. =1,43163N = 190
Figura 15. Distribuţie asimetrică la dreapta
10,008,006,004,00
Nota
60
50
40
30
20
10
0
Fre
qu
en
cy
Mean = 7,5263Std. Dev. =1,43163N = 190
Figura 16. Distribuţie asimetrică la stânga
Alura diagramei “box-and-whiskers” în cazul unei distribuţii simetrice, a unei distribuţii
asimetrice la dreapta sau la stânga este reprezentată grafic în figurile de mai jos:
56
1
10,009,008,007,006,005,004,00
Figura 17. Distribuţie simetrică
Nota
10,009,008,007,006,005,004,00
Figura 18. Distribuţie asimetrică la dreapta
Nota
10,009,008,007,006,005,004,00
Figura 19. Distribuţie asimetrică la stânga
Cei mai importanţi indicatori ai asimetriei sunt:
57
1. Coeficientul de asimetrie Pearson
Coeficientul de asimetrie Pearson se calculează pe baza relaţiei:
32
23
1
, unde:
ii
i3
ii
3n
n)xx(
reprezintă momentul centrat de ordinul 3;
2
ii
i2
ii
2 sn
n)xx(
reprezintă momentul centrat de ordinul 2, adică varianţa.
Acest indicator este întotdeauna pozitiv. Sensul asimetriei este dat de semnul lui µ3.
Atunci când µ3>0, distribuţia este asimetrică la dreapta. Atunci când µ3<0, distribuţia este
asimetrică la stânga.
2. Coeficientul de asimetrie Fisher
Coeficientul de asimetrie Fisher se calculează pe baza relaţiei:
3
31
s
.
Interpretarea valorii acestui coeficient este similară coeficientului de asimetrie Pearson.
Exemplu
Distribuţia judeţelor din România care au pensiuni turistice la 31 iulie 2010 (exclusiv
judeţul Braşov şi judeţul Prahova) se prezintă astfel:
Tabelul 2.22. Distribuţia judeţelor din România
după numărul de pensiuni turistice la 31 iulie 2010
Pensiuni
turistice
Nr. judeţe
1 1
2 2
3 1
4 7
5 3
6 2
9 1
10 1
14 2
18 1
22 2
23 1
29 3
40 1
42 1
46 3
47 1
49 1
61 1
62 1
TOTAL 36
58
Se cere să se calculeze indicatorii asimetriei.
Rezolvare
Indicatorii asimetriei sunt:
1. Coeficientul de asimetrie Pearson
Coeficientul de asimetrie Pearson se calculează pe baza relaţiei:
32
23
1
.
Elementele de calcul sunt prezentate în tabelul de mai jos:
Tabelul 2.23. Elemente de calcul
Pensiuni
turistice
Nr. judeţe xxi 2i )xx( i
2i n)xx(
3i )xx( i
3i n)xx(
1 1 -19,03 362,1409 362,1409 -6891,54 -6891,54
2 2 -18,03 325,0809 650,1618 -5861,21 -11722,4
3 1 -17,03 290,0209 290,0209 -4939,06 -4939,06
4 7 -16,03 256,9609 1798,726 -4119,08 -28833,6
5 3 -15,03 225,9009 677,7027 -3395,29 -10185,9
6 2 -14,03 196,8409 393,6818 -2761,68 -5523,36
9 1 -11,03 121,6609 121,6609 -1341,92 -1341,92
10 1 -10,03 100,6009 100,6009 -1009,03 -1009,03
14 2 -6,03 36,3609 72,7218 -219,26 -438,52
18 1 -2,03 4,1209 4,1209 -8,37 -8,37
22 2 1,97 3,8809 7,7618 7,65 15,3
23 1 2,97 8,8209 8,8209 26,2 26,2
29 3 8,97 80,4609 241,3827 721,73 2165,19
40 1 19,97 398,8009 398,8009 7964,05 7964,05
42 1 21,97 482,6809 482,6809 10604,5 10604,5
46 3 25,97 674,4409 2023,323 17515,23 52545,69
47 1 26,97 727,3809 727,3809 19617,46 19617,46
49 1 28,97 839,2609 839,2609 24313,39 24313,39
61 1 40,97 1678,5409 1678,541 68769,82 68769,82
62 1 41,97 1761,4809 1761,481 73929,35 73929,35
TOTAL 36 - - 12640,97 189057,3
Momentele centrate de ordinul doi şi trei sunt: 2
2
12640 97351138
36
i i
i
i
i
( x x ) n,
,n
3
3
189057 35251 59
36
i i
i
i
i
( x x ) n,
,n
Înlocuind în relaţia de mai sus, se obţine: 2 2
31 3 3
2
5251 5920 637
351138
( , ),
,
.
59
Interpretare
Valoarea coeficientului de asimetrie Pearson arată că distribuţia dată se caracterizează
printr-o asimetrie ( 01 ) la dreapta (µ3>0).
2. Coeficientul de asimetrie Fisher
Coeficientul de asimetrie Fisher se calculează pe baza relaţiei:
3
1 33 3
5251 59 5251 590 798
18 74351 138
, ,,
s ,,
.
b. Boltirea
Boltirea este definită prin compararea distribuţiei statistice cu distribuţia normală din
punctul de vedere al variaţiei variabilei X şi a frecvenţei ni.
Boltirea poate fi apreciată pe cale grafică prin reprezentarea curbei frecvenţelor. Alura
curbei frecvenţelor în cazul unei distribuţii normale (mezocurtice) sau care prezintă un accentuat
fenomen de boltire este reprezentată în figura de mai jos:
Figura 20. Boltirea unei distribuţii
În cazul unei distribuţii leptocurtice, se înregistrează o variaţie mică a valorilor variabilei
X şi o variaţie mare a frecvenţelor absolute, ni. În cazul unei distribuţii platicurtice, se
înregistrează o variaţie mare a variabilei X şi o variaţie mică a frecvenţelor absolute, ni.
Boltirea poate fi apreciată pe cale numerică prin calculul indicatorilor boltirii:
1. Coeficientul de boltire Pearson
Coeficientul de boltire Pearson se calculează pe baza relaţiei:
4
4
22
42
s
, unde:
ii
i4
ii
4n
n)xx(
reprezintă momentul centrat de ordinul 4.
60
O valoare a coeficientului de boltire Pearson 32 arată o distribuţie mezocurtică. O
valoare 32 arată o distribuţie leptocurtică iar o valoare 32 arată o distribuţie platicurtică.
2. Coeficientul de boltire Fisher
Coeficientul de boltire Fisher se calculează pe baza relaţiei:
322 .
O valoare a coeficientului de boltire Fisher 02 arată o distribuţie mezocurtică. O
valoare 02 arată o distribuţie leptocurtică iar o valoare 02 arată o distribuţie platicurtică.
Exemplu
Distribuţia judeţelor din România care au pensiuni turistice la 31 iulie 2010 (exclusiv
judeţul Braşov şi judeţul Prahova) se prezintă astfel:
Tabelul 2.24. Distribuţia judeţelor din România
după numărul de pensiuni turistice la 31 iulie 2010
Pensiuni
turistice
Nr. judeţe
1 1
2 2
3 1
4 7
5 3
6 2
9 1
10 1
14 2
18 1
22 2
23 1
29 3
40 1
42 1
46 3
47 1
49 1
61 1
62 1
TOTAL 36
Se cere să se calculeze indicatorii boltirii.
Rezolvare
Indicatorii boltirii sunt:
Coeficientul de boltire Pearson se calculează pe baza relaţiei:
4
4
22
42
s
, unde:
61
ii
i4
ii
4n
n)xx(
reprezintă momentul centrat de ordinul 4.
Elementele de calcul sunt prezentate în tabelul de mai jos:
Tabelul 2.25. Elemente de calcul
Pensiuni
turistice
Nr. judeţe xxi 4i )xx( i
4i n)xx(
1 1 -19,03 131146,03 131146,03
2 2 -18,03 105677,59 211355,18
3 1 -17,03 84112,12 84112,12
4 7 -16,03 66028,9 462202,3
5 3 -15,03 51031,22 153093,66
6 2 -14,03 38746,34 77492,68
9 1 -11,03 14801,37 14801,37
10 1 -10,03 10120,54 10120,54
14 2 -6,03 1322,12 2644,24
18 1 -2,03 16,98 16,98
22 2 1,97 15,06 30,12
23 1 2,97 77,81 77,81
29 3 8,97 6473,96 19421,88
40 1 19,97 159042,16 159042,16
42 1 21,97 232980,85 232980,85
46 3 25,97 454870,53 1364611,59
47 1 26,97 529082,97 529082,97
49 1 28,97 704358,86 704358,86
61 1 40,97 2817499,55 2817499,55
62 1 41,97 3102814,96 3102814,96
TOTAL 36 - - 10076905,85
Momentul centrat de ordinul patru este: 4
4
10076905 85279914 05
36
i i
i
i
i
( x x ) n,
,n
Înlocuind în relaţia de mai sus, se obţine:
42 2 2
2
279914 052 27
351138
,,
,
.
Interpretare
Valoarea coeficientului de boltire Pearson arată că distribuţia judeţelor după numărul de
pensiuni turistice din 31 iulie 2010 este o distribuţie platicurtică ( 32 ) .
Coeficientul de boltire Fisher se calculează pe baza relaţiei:
2 2 3 2 27 3 0 73, , .
Interpretare
62
Valoarea coeficientului de boltire Fisher arată că distribuţia judeţelor după numărul de
pensiuni turistice din 31 iulie 2010 este o distribuţie platicurtică ( 02 ).
2.3. Aplicaţie în SPSS
Se consideră distribuţia judeţelor României după numărul de terenuri de sport, în anul
2010, prezentată în tabelul 2.26.
Folosind programul informatic SPSS (Statistical Package for Social Sciences), se cere să
se determine şi să se interpreteze mărimile medii, quartila 1 şi quartila 3, decila 1 şi decila 9,
indicatorii dispersiei şi indicatorii formei unei distribuţii.
Rezolvare
Valorile indicatorilor descriptivi sunt prezentate în tabelul 2.27.
Tabelul 2.26. Indicatorii statisticii descriptive, obţinuţi cu ajutorul programului SPSS
63
Tabelul 2.27. Distribuţia judeţelor României după numărul de terenuri de sport, în anul 2010
Valorile indicatorilor sunt:
- media aritmetică (Mean) este 107.7073 terenuri;
- mediana (Median) este 98 terenuri;
- modul (Mode) este 59 terenuri;
- abaterea standard (Std. Deviation) este 44.55626 terenuri;
- varianţa (Variance) este 1985.262;
- coeficientul de asimetrie Fisher (Skewness) este 0.991;
- coeficientul de boltire Fisher (Kurtosis) este 0.450;
- amplitudinea variaţiei (Range) este 175 terenuri;
- decila 1 (Percentile 10) este 59.4 tereuri;
- quartila 1 (Percentile 25) este 69.5 terenuri;
64
- quartila 3 (Percentile 75) este 133 terenuri;
- decila 9 (Percentile 90) este 187.2 terenuri.
Interpretare
Media aritmetică arată că, în medie, un judeţ are aproximativ 108 terenuri de sport.
Mediana arată că 50% dintre judeţe au mai puţin de 98 terenuri de sport inclusiv, iar 50%
dintre judeţe au mai mult de 98 terenuri de sport, inclusiv.
Modul arată că cel mai frecvent, judeţele au 59 de terenuri de sport.
Abaterea standard arată că, în medie, numărul de terenuri de sport al unui judeţ se abate de
la numărul mediu de terenuri/judeţ cu aproximativ 45 terenuri de sport.
Coeficientul de asimetrie Fisher arată că distribuţia este asimetrică la dreapta.
Coeficientul de boltire Fisher arată că distribuţia este leptocurtică.
Amplitudinea variaţiei arată că diferenţa maximă dintre numărul de terenuri de sport a
oricăror două judeţe este de 175 terenuri.
Decila 1 arată că 10% dintre judeţe au mai puţin de 59 terenuri inclusiv, iar 90% dintre
judeţe au mai mult de 59 terenuri, inclusiv.
Quartila 1 arată că 25% dintre judeţe au mai puţin de 70 terenuri inclusiv, iar 75% dintre
judeţe au mai mult de 70 terenuri, inclusiv.
Quartila 3 arată că 75% dintre judeţe au mai puţin de 133 terenuri inclusiv, iar 25% dintre
judeţe au mai mult de 133 terenuri, inclusiv.
Decila 9 arată că 90% dintre judeţe au mai puţin de 187 terenuri inclusiv, iar 10% dintre
judeţe au mai mult de 187 terenuri, inclusiv.
65
Teste1
1) Sunt discrete următoarele variabile:
a) sexul persoanelor, starea civilă, domiciliul
b) numărul de membri ai unei gospodării, numărul de angajaţi ai unei firme
c) salariul lunar, speranţa de viaţă, vârsta
2) Cu ajutorul coeficientului de variaţie se caracterizează:
a) dispersia unei distribuţii
b) normalitatea unei distribuţii
c) reprezentativitatea mediei unei distribuţii
3) Distribuţia unei serii de studenţi după nota a examen este prezentată în tabelul de mai jos:
Nota Nr. studenţi
4 15
5 10
7 25
9 10
10 10
TOTAL 70
Au loc răspunsurile:
a) 10 studenţi au luat până în cinci la examen
b) 20 de studenţi auu luat peste nouă
c) majoritatea au luat sub şapte, inclusiv
4) Repartiţia unui eşantion de 100 studenţi după nota la un examen este prezentată mai jos.
525402010
108654:X
. Pentru această repartiţie, 80% dintre studenţi au obţinut o notă mai
mică de:
a) 5
b) 10
c) 8
5) Pentru o serie statistică se cunosc rezultatele: Q3 = 4, Q1 = 1, Q2 = 1. În aceste condiţii, seria
este:
a) asimetrică la stânga
b) asimetrică la dreapta
c) simetrică
6) Pentru o colectivitate de firme, repartizate după nivelul investiţiilor, se cunosc următoarele
rezultate: 1000nxi
i
2
i , 300nxi
ii mld. lei, 100ni
i . Se poate considera că populaţia
firmelor este:
a) strict omogenă
1 Răspunsuri: 1 – b; 2 – a,c; 3 – b,c; 4 – c; 5 – b; 6 – b; 7 – a,b,c; 8 – a,b.
66
b) omogenă
c) neomogenă
7) Pentru un eşantion de angajaţi repartizaţi după variabila salariul anual ($) s-au obţinut
rezultatele din tabelul de mai jos.
Statistics
Current Salary
474
0
$34,000.00
$28,000.00
$30,500
$17,000.000
$24,000.00
$28,000.00
$37,000.00
Valid
Missing
N
Mean
Median
Mode
Std. Deviation
25
50
75
Percentiles
Sunt valabile interpretările:
a) în medie, un angajat câştigă anual 28000$
b) alariul cel mai frecvent este 30500$
c) un sfert dintre angajaţi au salariul între 24000 şi 28000$
8) Pentru un eşantion de angajaţi repartizaţi după variabila salariul anual ($) s-au obţinut
rezultatele din tabelul de mai jos.
Statistics
Current Salary
474
0
$34,000.00
$28,000.00
$30,500
$17,000.000
$24,000.00
$28,000.00
$37,000.00
Valid
Missing
N
Mean
Median
Mode
Std. Deviation
25
50
75
Percentiles
Sunt valabile interpretările:
a) media nu este reprezentativă
b) populaţia nu este omogenă după salariu
c) majoritatea câştigă 30500 dolari
67
US 3. ANALIZA STATISTICĂ A UNEI SERII CONTINUE
Cuprins
3.1 Analiza grafică
3.2 Analiza numerică. Indicatori ai statisticii descriptive
3.3 Aplicaţie în SPSS
Obiective
- prezentarea tipurilor de frecvenţe utilizate în analiza unei serii continue
- prezentarea tipurilor de grafice specifice unei serii continue
- definirea indicatorilor descriptivi, a proprietăţilor, a modului de calcul şi a interpretării acestora
- realizarea de exemple cu date reale
- prezentarea modului de analiză gafică şi numerică a unei serii continue în SPSS
Competenţe
- însuşirea principalelor metode de analiză grafică şi numerică a unei serii continue
- dezvoltarea abilităţilor practice de prelucrare şi interpretare a datelor statistice sistematizate într-
o serie continuă
- dezvoltarea capacităţii de utilizare a softului statistic pentru prelucrarea automată a datelor
- capacitatea de a realiza o sinteză a informaţiei statistice, având la dispoziţie rezultatele analizei
grafice şi numerice
Termen mediu: 4 h
Bibliografie
1. Andrei, T. şi Stancu, S., Statistică - teorie şi aplicaţii , Editura All, Bucureşti, 1995
2. Jaba, E., Statistica, Ediţia a treia, Editura Economica, Bucureşti, 2002
3. Jaba, E., Pintilescu, C., Statistică. Teste grilă şi probleme, Editura Sedcom Libris, Iaşi, 2005.
4. Lecaillon, J.; Labrousse, C., Statistique descriptive, Editura Cujas, Paris, 1988
5. Mills, Fr.G., Statistical Methods, 3rd
ed., Henry Holt, New York, 1955.
6. McNabb, D., Research methods in public administration and nonprofit management :
quantitative and qualitative approaches, Armonk, M.E. Sharpe, 2002
7. Tövissi, L.; Isaic-Maniu, Al., Statistica, A.S.E., Bucureşti, 1984.
8. Yule, U.G.; Kendall, M.C. - Introducere în teoria statisticii, Editura Ştiinţifică, Bucureşti, 1969.
9. Wonnacott, T.H., Wonnacott, R.J., Statistique, Economica, Paris, 1991.
68
Caracterizarea unităţilor statistice observate după o variabilă continuă se realizează
folosind metode grafice sau numerice.
3.1 Analiza grafică
Reprezentarea grafică a unei serii după o variabilă continuă presupune folosirea
următoarelor diagrame: histograma, poligonul frecvenţelor, curba frecvenţelor sau curba
frecvenţelor cumulate. Indicatorii numerici prin care poate fi caracterizată o serie statistică după o
variabilă continuă pot fi grupaţi, ca şi în cazul variabilelor discrete, în indicatori ai tendinţei
centrale (mărimi medii), indicatori ai dispersiei, indicatori ai asimetriei şi boltirii.
3.1.1. Frecvenţe absolute şi relative cumulate crescător sau descrescător
Frecvenţele absolute şi relative cumulate crescător sau descrescător se calculează în mod
similar modului de calcul prezentat în cazul variabilelor discrete.
Înaintea prelucrării unei serii după o variabilă continuă prezentată pe intervale de variaţie,
dacă limitele intervalelor nu sunt precizate, acestea trebuie închise:
- în cazul intervalelor egale de variaţie, primul şi ultimul interval se închid luând în
considerare aceeaşi mărime a intervalelor;
- în cazul intervalelor inegale de variaţie, primul interval se închide luând în considerare
mărimea intervalului următor, iar ultimul interval se închide luând în considerare
mărimea intervalului anterior.
Exemplu
Distribuţia celor 27 ţări membre ale Uniunii Europene după indicele preţurilor de consum
armonizat (IPCA) înregistrat în anul 2011 (%) este prezentată în tabelul de mai jos:
Tabelul 3.1. Distribuţia ţărilor membre ale Uniunii Europene după indicele preţurilor de
consum armonizat (%) din anul 2011 IPCA
(%)
Număr ţări
până la 110 1
110-120 18
120-130 2
130-140 3
peste 140 3
TOTAL 27
Sursa: Date prelucrate după Baza de date Eurostat, accesată pe 1 noiembrie 2012
http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database
Se cere să se calculeze frecvenţele absolute şi relative cumulate crescător sau descrescător.
Rezolvare
Închiderea intervalelor de variaţie
Mărimea intervalelor de variaţie este l=10. Limita inferioară a primului interval de variaţie
se închide luând în considerare aceeaşi mărime, deci: 110-10=100. Limita superioară a ultimului
interval de variaţie este: 140+10=150.
Frecvenţe absolute cumulate crescător şi descrescător
Frecvenţele absolute cumulate crescător şi descrescător se calculează după relaţiile:
69
i
1hhi1ii nnNN , respectiv
m
ihhi1ii nnNN .
Valorile frecvenţelor absolute cumulate crescător şi descrescător pentru exemplul dat sunt
prezentate în tabelul de mai jos:
Tabelul 3.2. Frecvenţe absolute cumulate crescător şi descrescător
xi-1-xi ni iN iN
100-110 1 1 27
110-120 18 19 26
120-130 2 21 8
130-140 3 24 6
140-150 3 27 3
TOTAL 27 - -
Interpretare
Un număr de 19 ţări au indicele preţurilor de consum de până la 120 % inclusiv ( 1N ).
Un număr de 21 ţări au un indice al preţurilor de consum de până la 130 % inclusiv ( 2N ). În
mod similar se interpretează celelalte valori din tabelul de mai sus.
Din numărul total de ţări, 3 ţări au indicele preţurilor de consum de peste 140 %, inclusiv.
Un număr de 6 ţări au indicele preţurilor de consum de peste 130 %, inclusiv. În mod similar se
interpretează celelalte valori din tabelul de mai sus.
Observaţie
În interpretarea frecvenţelor absolute cumulate crescător se consideră limita superioară a
intervalului de variaţie, iar în interpretarea frecvenţelor absolute cumulate descrescător se
consideră limita inferioară a intervalului de variaţie.
Frecvenţe relative cumulate crescător şi descrescător
Frecvenţele relative cumulate crescător şi descrescător se calculează după relaţiile:
i
1hhi1ii ffFF , respectiv
m
ihhi1ii ffFF .
Pentru datele din tabelul 3.1, valorile calculate ale frecvenţelor relative cumulate crescător
şi descrescător sunt prezentate în tabelul de mai jos:
Tabelul 3.3. Frecvenţe relative cumulate crescător şi descrescător xi-1-xi ni fi (%) iF iF
100-110 1 3,7 3,7 100,00
110-120 18 66,7 70,4 96,3
120-130 2 7,4 77,8 29,6
130-140 3 11,1 88,9 22,2
140-150 3 11,1 100,00 11,1
TOTAL 27 100,00 - -
Interpretare
70
Ponderea ţărilor care au indicele preţurilor de consum de până la 120 % ( 1F ) este de
70,4%. Ponderea ţărilor care au indicele preţurilor de consum de până la 130 % ( 2F ) este de
77,8%. În mod similar se interpretează celelalte valori din Tabelul 3.3.
Ponderea ţărilor care au indicele preţurilor de consum de peste 110 % este de 96,3%.
29,6% din numărul total de ţări au indicele preţurilor de consum de peste 120%. În mod similar se
interpretează celelalte valori din Tabelul 3.3.
3.1.2. Tipuri de grafice
O distribuţie statistică după o variabilă numerică continuă poate fi reprezentată grafic
folosind histograma, poligonul frecvenţelor, curba frecvenţelor şi curba frecvenţelor cumulate.
Histograma
Construirea histogramei presupune ridicarea unor dreptunghiuri alăturate, cu baza egală, în
cazul intervalelor egale de variaţie, sau inegală, în cazul intervalelor inegale, de înălţime ni. Alura
histogramei, considerând intervale egale de variaţie, este reprezentată în figura de mai jos:
10,008,006,004,00
5
4
3
2
1
0
Fre
qu
en
cy
Histogram
Figura 21. Histograma
Poligonul frecvenţelor
Construirea poligonului frecvenţelor presupune găsirea locului geometric al punctelor Ai
de coordonate ( i'i n,x ) sau ( i
'i n,x ) şi unirea acestora prin segmente de dreaptă. Valorile '
ix
reprezintă mijlocul sau centrul intervalelor de variaţie, calculat ca medie aritmetică simplă a
limitelor intervalelor de variaţie:
2
xxx i1i'
i
.
Curba frecvenţelor
Construirea curbei frecvenţelor presupune ajustarea printr-o linie curbă, continuă a
poligonului frecvenţelor. Curba frecvenţelor pentru o distribuţie normală este reprezentată în
figura de mai jos:
71
10,008,006,004,00
Nota
6
5
4
3
2
1
0
Fre
qu
en
cy
Figura 22. Curba frecvenţelor
Curba frecvenţelor cumulate
Construirea curbei frecvenţelor cumulate presupune reprezentarea grafică a funcţiei de
repartiţie a frecvenţelor unei variabile: F(X<xi). Alura curbei frecvenţelor cumulate crescător este
reprezentată în figura de mai jos:
5 6 7 8 9
nota
0%
25%
50%
75%
100%
Pe
rce
nt
Figura 23. Curba frecvenţelor cumulate crescător
3.2 Analiza numerică. Indicatori ai statisticii descriptive
Analiza numerică presupune calculul şi interpretarea indicatorilor statisticii descriptive: ai
tendinţei centrale, ai dispersiei şi ai formei distribuţiei.
3.2.1. Indicatori ai tendinţei centrale (mărimi medii)
a. Media aritmetică
Media aritmetică pentru o serie statistică după o variabilă continuă se calculează după
relaţia:
ii
ii
'i
n
nx
x , unde 2
xxx i1i'
i
.
72
Exemplu
Distribuţia judeţelor României după rata şomajului (%) înregsitrată în anul 2010, este
prezentată în tabelul de mai jos:
Tabelul 3.4. Distribuţia judeţelor României după rata şomajului ( %),
în anul 2010
xi-1-xi
(%)
ni
2-4 3
4-6 6
6-8 12
8-10 16
10-12 5
TOTAL 42
Sursa: Date prelucrate după Anuarul Statistic al României, 2011.
Se cere să se calculeze media aritmetică.
Rezolvare
Media aritmetică se calculează după relaţia
ii
ii
'i
n
nx
x , unde 2
xxx i1i'
i
.
Centrul intervalelor de variaţie se calculează astfel: 0 11
2 43
2 2
' x xx
;
1 22
4 65
2 2
' x xx
etc.
Elementele pentru calculul mediei aritmetice sunt prezentate în tabelul de mai jos:
Tabelul 3.5. Elemente pentru calculul mediei aritmetice xi-1-xi
(%)
ni 'ix i
'i nx
2-4 3 3 9
4-6 6 5 30
6-8 12 7 84
8-10 16 9 144
10-12 5 11 55
TOTAL 42 - 322
Înlocuind în relaţia de mai sus se obţine:
3227 67
42
'
i i
i
i
i
x n
x , %n
Interpretare
Rata medie a şomajului în judeţele din România în anul 2010 este de 7,67%.
73
b. Modul (Mo)
Pentru aflarea modului în cazul unei variabile continue, trebuie parcurse următoarele
etape:
se află frecvenţa maximă, nimax;
în dreptul acestei frecvenţe maxime, se citeşte intervalul modal (xi-1, xi);
în acest interval, modul se află prin interpolare, după relaţia:
21
11i dxMo
, unde:
xi-1, reprezintă limita inferioară a intervalului modal;
d este mărimea intervalului modal, d= xi - xi-1;
1 este diferenţa dintre frecvenţa intervalului modal şi frecvenţa intervalului anterior:
1imaxi1 nn ;
2 este diferenţa dintre frecvenţa intervalului modal şi frecvenţa intervalului următor:
1imaxi1 nn .
Exemplu
Distribuţia judeţelor României după rata şomajului (%) înregistrată în anul 2010, este
prezentată în tabelul de mai jos:
Tabelul 3.6. Distribuţia judeţelor României după rata şomajului ( %)
din anul 2010
xi-1-xi
(%)
ni
2-4 3
4-6 6
6-8 12
8-10 16
10-12 5
TOTAL 42
Se cere să se calculeze valoarea modului.
Rezolvare
Etapele aflării modului sunt:
se află frecvenţa maximă, nimax=16;
în dreptul acestei frecvenţe maxime se citeşte intervalul modal (8-10);
în acest interval, modul se află prin interpolare, după relaţia:
21
11i dxMo
, unde:
xi-1 =8;
d= xi - xi-1 =10-8=2 ;
1 1 16 12 4imax in n ;
1 1 16 5 11imax in n .
Înlocuind în relaţia de mai sus, se obţine:
74
16 128 2 8 53
16 12 16 5
( )Mo ,
( ) ( )
%
Interpretare
Cele mai multe judeţe din România au avut, în anul 2010, o rată a şomajului de 8,53%.
c. Mediana (Me)
Aflarea medianei presupune parcurgerea următoarelor etape:
se calculează unitatea mediană:
1
2
iMe i
n
U
;
se calculează frecvenţele absolute cumulate crescător, Ni↓;
se află prima valoare Ni↓≥UMe
;
în dreptul primei valori Ni↓≥UMe
, se citeşte intervalul median: (xi-1, xi);
în acest interval, mediana se află prin interpolare după relaţia:
i
1iMe
1in
NUdxMe
, unde:
xi-1, reprezintă limita inferioară a intervalului median;
d este mărimea intervalului median, d= xi - xi-1;
1iN este frecvenţa absolută cumulată corespunzătoare intervalului anterior intervalului median;
ni este frecvenţa absolută corespunzătoare intervalului median.
Exemplu
Distribuţia judeţelor României după rata şomajului (%) înregistrată în anul 2010, este
prezentată în tabelul de mai jos:
Tabelul 3.7. Distribuţia judeţelor României după rata şomajului ( %)
din anul 2010
xi-1-xi
(%)
ni
2-4 3
4-6 6
6-8 12
8-10 16
10-12 5
TOTAL 42
Se cere să se calculeze mediana.
Rezolvare
Etape pentru aflarea medianei:
se calculează unitatea mediană: 42 1
21 52 2
iMe i
n
U ,
;
se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în
tabelul de mai jos:
75
Tabelul 3.8. Frecvenţele absolute cumulate crescător xi-1-xi ni iN
2-4 3 3
4-6 6 9
6-8 12 21
8-10 16 37
10-12 5 42
TOTAL 42 -
prima valoare Ni↓=37 UMe
=21,5;
în dreptul acestei valori, se citeşte intervalul median: (8-10);
în acest interval, mediana se află prin interpolare după relaţia:
i
1iMe
1in
NUdxMe
, unde:
xi-1=8;
d= xi - xi-1=10-8=2;
1 21iN ;
ni = 16.
Înlocuind în relaţia de mai sus, se obţine: 21 5 21
8 2 8 12516
,Me ,
%.
Interpretare
Jumătate din judeţele României au înregistrat în anul 2010 o rată a şomajului de până la
8,125% şi jumătate din judeţele României au înregistrat o rată a şomajului de peste 8,125%.
d. Generalizarea medianei: quantilele
1. Quartilele
Quartila unu (Q1)
Aflarea quartilei unu presupune parcurgerea următoarelor etape:
se calculează unitatea quartilică unu: 4
n
U ii
Q1
;
se calculează frecvenţele absolute cumulate crescător, Ni↓;
se află prima valoare Ni↓≥UQ1;
în dreptul primei valori Ni↓≥UQ1, se citeşte intervalul quartilic unu: (xi-1, xi);
în acest interval, quartila unu se află prin interpolare după relaţia:
1
1
Q
1iQ
1i1n
NUdxQ
, unde:
xi-1, reprezintă limita inferioară a intervalului quartilic unu;
d este mărimea intervalului quartilic unu, d= xi - xi-1;
1iN este frecvenţa absolută cumulată corespunzătoare intervalului anterior intervalului
quartilic unu;
nQ1 este frecvenţa absolută corespunzătoare intervalului quartilic unu.
Quartila doi (Q2)
76
După cum am arătat în cazul variabilelor discrete, quartila doi este egală cu mediana,
Q2=Me.
Quartila trei (Q3)
Aflarea quartilei trei presupune parcurgerea următoarelor etape:
se calculează unitatea quartilică trei: 3
3 1
4
i
Q i
n
U
;
se calculează frecvenţele absolute cumulate crescător, Ni↓;
se află prima valoare Ni↓≥UQ3;
în dreptul primei valori Ni↓≥UQ1 se citeşte intervalul quartilic trei: (xi-1, xi);
în acest interval, quartila trei se află prin interpolare după relaţia:
3
3
Q
1iQ
1i3n
NUdxQ
, unde:
xi-1, reprezintă limita inferioară a intervalului quartilic trei;
d este mărimea intervalului quartilic trei, d= xi - xi-1;
1iN este frecvenţa absolută cumulată corespunzătoare intervalului anterior intervalului
quartilic trei;
nQ3 este frecvenţa absolută corespunzătoare intervalului quartilic trei.
Exemplu
Distribuţia judeţelor României după rata şomajului (%) înregistrată în anul 2010, este
prezentată în tabelul de mai jos:
Tabelul 3.9. Distribuţia judeţelor României după rata şomajului ( %)
din anul 2010
xi-1-xi
(%)
ni
2-4 3
4-6 6
6-8 12
8-10 16
10-12 5
TOTAL 42
Se cere să se calculeze quartila unu şi quartila trei.
Rezolvare
Quartila unu
Etape pentru aflarea quartilei unu:
se calculează unitatea quartilică unu: 1
143
10 754 4
iQ i
n
U ,
;
se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în
tabelul de mai jos:
77
Tabelul 3.10. Distribuţia judeţelor României după rata şomajului (%) din anul 2010 xi-1-xi ni iN
2-4 3 3
4-6 6 9
6-8 12 21
8-10 16 37
10-12 5 42
TOTAL 42 -
prima valoare Ni↓=21 ≥UQ1=10,75;
în dreptul acestei valori se citeşte intervalul quartilic unu: (6-8);
în acest interval, quartila unu se află prin interpolare după relaţia:
1
1
Q
1iQ
1i1n
NUdxQ
, unde:
xi-1=6;
d= xi - xi-1=8-6=2;
1 9iN ;
ni = 12.
Înlocuind în relaţia de mai sus, se obţine: 1
10 75 96 2 6 29
12
,Q ,
%
Interpretare
25% din judeţele României au avut în anul 2010 o rată a şomajului de până la 6,29%, iar
75% au avut o rată a şomajului de peste 6,29 %.
Quartila trei
se calculează unitatea quartilică trei: 3
3 13 43
32 254 4
i
Q i
n
U ,
;
prima valoare Ni↓=37 ≥UQ1=32,25;
în dreptul acestei valori se citeşte intervalul quartilic trei: (8-10);
în acest interval, quartila trei se află prin interpolare după relaţia:
3
3
Q
1iQ
1i3n
NUdxQ
, unde:
xi-1=8;
d= xi - xi-1=10-8=2;
1 21iN ;
ni = 16.
Înlocuind în relaţia de mai sus, se obţine: 3
32 25 218 2 9 41
16
,Q ,
%.
Interpretare
75% din judeţele României au valori ale ratei şomajului de până la 9,41%, iar 25% din
judeţe au valori ale ratei şomajului de peste 9,41%.
78
3.2.2. Indicatori ai dispersiei
Principalii indicatori ai dispersiei sunt:
1. Amplitudinea de variaţie
Amplitudinea de variaţie măsoară distanţa dintre nivelul maxim şi nivelul minim al unei
variabile. Se calculează pe baza relaţiei:
minmax xxA .
2. Varianţa
Varianţa se calculează pe baza relaţiei:
ii
i2
i
'i
2
n
n)xx(
s . Varianţa nu are unitate de măsură şi nu se interpretează.
3. Abaterea medie pătratică (abaterea standard)
Abaterea medie pătratică se calculează pe baza relaţiei:
ii
i2
i
'i
2
n
n)xx(
ss . Abaterea medie pătratică reprezintă variaţia medie a
valorilor individuale ale variabilei X de la nivelul mediu, în sens pozitiv şi negativ.
4. Coeficientul de variaţie
Coeficientul de variaţie se calculează după relaţia:
100x
sv .
Exemplu
Distribuţia judeţelor României după rata şomajului (%) din anul 2010, este prezentată în
tabelul de mai jos:
Tabelul 3.11. Distribuţia judeţelor României după rata şomajului ( %)
din anul 2010
xi-1-xi
(%)
ni
2-4 3
4-6 6
6-8 12
8-10 16
10-12 5
TOTAL 42
Se cere să se calculeze abaterea standard şi coeficientul de variaţie.
Rezolvare
Abaterea standard
79
Abaterea standard se calculează pe baza relaţiei:
ii
i2
i
'i
2
n
n)xx(
ss .
Pentru această distribuţie, media aritmetică este 7 67x , %.
Elementele de calcul ale abaterii standard sunt prezentate în tabelul de mai jos:
Tabelul 3.12. Elemente de calcul ale abaterii standard xi-1-xi ni '
ix xx'i
2'i )xx( i
2'i n)xx(
2-4 3 3 -4,67 21,81 65,43
4-6 6 5 -2,67 7,13 42,78
6-8 12 7 -0,67 0,45 5,4
8-10 16 9 1,33 1,77 28,32
10-12 5 11 3,33 11,09 55,45
TOTAL 42 - - - 197,38
Înlocuind în relaţia de mai sus se obţine: 2
2 197 382 17
42
'
i i
i
i
i
( x x ) n,
s s ,n
%.
Interpretare
Ratele şomajului ale judeţelor României din anul 2010, variază, în medie, de la nivelul
mediu al ratelor şomajului cu ± 2,17%
Coeficientul de variaţie
Coeficientul de variaţie se calculează după relaţia:
2 17100 100 28 29
7 67
s ,v , %
x , .
Interpretare
Valoarea coeficientului de variaţie arată că distribuţia judeţelor României după rata
şomajului din anul 2010 este o distribuţie relativ omogenă, caracterizată printr-o dispersie relativ
mică (v<50%). Media este reprezentativă pentru această distribuţie.
3.2.3. Indicatori ai formei unei distribuţii
Asimetria
Indicatorii asimetriei se calculează, în cazul unei variabile continue, astfel:
1. Coeficientul de asimetrie Pearson
Coeficientul de asimetrie Pearson se calculează pe baza relaţiei:
32
23
1
, unde:
80
ii
i3
i
'i
3n
n)xx(
reprezintă momentul centrat de ordinul 3, unde: 2
xxx i1i'
i
;
2
ii
i2
i
'i
2 sn
n)xx(
reprezintă momentul centrat de ordinul 2, adică varianţa.
Acest indicator este întotdeauna pozitiv. Sensul asimetriei este dat de semnul lui µ3.
Atunci când µ3>0, distribuţia este asimetrică la dreapta. Atunci când µ3<0, distribuţia este
asimetrică la stânga.
2. Coeficientul de asimetrie Fisher
Coeficientul de asimetrie Fisher se calculează pe baza relaţiei:
3
31
s
.
Interpretarea valorii acestui coeficient este similară coeficientului de asimetrie Pearson.
Boltirea
Indicatorii boltirii se calculează după relaţiile
1. Coeficientul de boltire Pearson
Coeficientul de boltire Pearson se calculează pe baza relaţiei:
4
4
22
42
s
, unde:
ii
i4
i
'i
4n
n)xx(
reprezintă momentul centrat de ordinul 4.
O valoare a coeficientului de boltire Pearson 32 arată o distribuţie mezocurtică. O
valoare 32 arată o distribuţie leptocurtică iar o valoare 32 arată o distribuţie platicurtică.
2. Coeficientul de boltire Fisher
Coeficientul de boltire Fisher se calculează pe baza relaţiei:
322 .
O valoare a coeficientului de boltire Fisher 02 arată o distribuţie mezocurtică. O
valoare 02 arată o distribuţie leptocurtică iar o valoare 02 arată o distribuţie platicurtică.
Exemplu
Distribuţia judeţelor României după rata şomajului (%), este prezentată în tabelul de mai
jos:
Tabelul 3.13. Distribuţia judeţelor României după rata şomajului ( %)
din anul 2010
81
xi-1-xi
(%)
ni
2-4 3
4-6 6
6-8 12
8-10 16
10-12 5
TOTAL 42
Se cere să se calculeze coeficientul de asimetrie Pearson şi coeficientul de boltire Pearson.
Rezolvare
Coeficientul de asimetrie Pearson se calculează pe baza relaţiei:
32
23
1
, unde:
ii
i3
i
'i
3n
n)xx(
; 2
ii
i2
i
'i
2 sn
n)xx(
.
Elementele de calcul ale momentelor centrate de ordinul doi şi trei sunt prezentate în
tabelul de mai jos:
Tabelul 3.14. Elemente de calcul ale momentelor centrate de ordinul doi şi trei xi-1-xi ni '
ix xx'i
2'i )xx( i
2'i n)xx(
3'i )xx( i
3'i n)xx(
2-4 3 3 -4,67 21,81 65,43 -101,85 -305,55
4-6 6 5 -2,67 7,13 42,78 -19,03 -114,18
6-8 12 7 -0,67 0,45 5,4 -0,3 -3,6
8-10 16 9 1,33 1,77 28,32 2,35 37,6
10-12 5 11 3,33 11,09 55,45 36,93 184,65
TOTAL 42 - - - 197,38 - -201,08
Înlocuind în relaţiile de mai sus, se obţine:
3
201 084 788
42
,,
;
2
197 384 699
42
,, .
Coeficientul de asimetrie Pearson este:
2
1 3
4 7880 22
4 699
, 22,924,
, 103,757
.
Interpretare
Valoarea coeficientului de asimetrie Pearson arată că distribuţia dată prezintă o asimetrie
( 01 ) la stânga (µ3<0).
Coeficientul de asimetrie Fisher este:
3
1 33 3
4 788 4 7880 46
2 1684 699
, ,,
s ,,
.
82
Valoarea coeficientului de asimetrie Fisher arată, de asemenea, că distribuţia dată prezintă
o asimetrie la stânga.
Coeficientul de boltire Pearson
4
4
22
42
s
, unde:
ii
i4
i
'i
4n
n)xx(
.
Elementele de calcul ale momentului centrat de ordinul patru sunt prezentate în tabelul de
mai jos:
Tabelul 3.15. Elemente de calcul ale momentului centrat de ordinul patru xi-1-xi ni '
ix xx'i
4'i )xx( i
4'i n)xx(
2-4 3 3 -4,67 475,63 1426,89
4-6 6 5 -2,67 50,82 304,92
6-8 12 7 -0,67 0,2 2,4
8-10 16 9 1,33 3,13 50,08
10-12 5 11 3,33 122,96 614,8
TOTAL 42 - - - 2399,09
Înlocuind în relaţiile de mai sus, se obţine:
4
2399 09
42
,57,12 .
Coeficientul de boltire Pearson este: 2 2
57 122 59
4 699
,,
, .
Interpretare
Valoarea coeficientului de boltire Pearson arată că distribuţia dată este o distribuţie
platicurtică ( 32 ).
3.3 Aplicaţie în SPSS
Se consideră distribuţia judeţelor României după rata şomajului (%), în anul 2010,
prezentată în tabelul 3.16.
Folosind programul informatic SPSS (Statistical Package for Social Sciences), se cere să
se determine şi să se interpreteze mărimile medii, quartila 1 şi quartila 3, decila 1 şi decila 9,
indicatorii dispersiei şi indicatorii formei unei distribuţii.
83
Tabelul 3.16. Distribuţia judeţelor României după rata şomajului, în anul 2010
Rezolvare
Valorile indicatorilor descriptivi sunt prezentate în tabelul 3.17.
Tabelul 3.17. Indicatorii statisticii descriptive, obţinuţi cu ajutorul programului SPSS
84
Valorile indicatorilor sunt:
- media aritmetică (Mean) este 7.8927%;
- mediana (Median) este 8.1%;
- modul (Mode) este 5.8%;
- abaterea standard (Std. Deviation) este 1.96652%;
- varianţa (Variance) este 3.867;
- coeficientul de asimetrie Fisher (Skewness) este -0.459;
- coeficientul de boltire Fisher (Kurtosis) este 0.196;
- amplitudinea variaţiei (Range) este 9.1%;
- decila 1 (Percentile 10) este 5.32%;
- quartila 1 (Percentile 25) este 6.4%;
- quartila 3 (Percentile 75) este 9.35%;
- decila 9 (Percentile 90) este 10.34%.
Interpretare
Media aritmetică arată că, în medie, un judeţ are o rată a şomajului de 7.8927%.
Mediana arată că 50% dintre judeţe au o rată a şomajului mai mică de 8.1%, inclusiv, iar
50% dintre judeţe au rata şomajului mai mare de 8.1%, inclusiv.
Modul arată că cel mai frecvent, judeţele au o rată a şomajului de 5.8%.
Abaterea standard arată că, în medie, rata şomajului unui judeţ se abate de la rata medie a
şomajului cu 1.96652%.
Coeficientul de asimetrie Fisher arată că distribuţia este asimetrică la stânga.
Coeficientul de boltire Fisher arată că distribuţia este leptocurtică.
Amplitudinea variaţiei arată că diferenţa maximă dintre ratele şomajului a două judeţe este
de 9.1%.
Decila 1 arată că 10% dintre judeţe au rata şomajului mai mică de 5.32% inclusiv, iar 90%
dintre judeţe au rata şomajului mai mare de 5.32%, inclusiv.
Quartila 1 arată că 25% dintre judeţe au au rata şomajului mai mică de 6.4% inclusiv, iar
75% dintre judeţe au rata şomajului mai mare de 6.4%, inclusiv.
Quartila 3 arată că 75% dintre judeţe au rata şomajului mai mică de 9.35% inclusiv, iar
25% dintre judeţe au rata şomajului mai mare de 9.35%, inclusiv.
Decila 9 arată că 90% dintre judeţe au rata şomajului mai mică de 10.34% inclusiv, iar
10% dintre judeţe au rata şomajului mai mare de 10.34%, inclusiv
85
Teste1
1) Histograma este:
a) specifică seriilor continue
b) o medie specială
c) o suprafaţă
2) Pentru rezultatele din tabelul de mai jos sunt valabile răspunsurile: Statistics
Rata somajului
N Valid 41
Mean 7.8927
Median 8.1000
Mode 5.80
Std. Deviation 1.96652
Variance 3.867
Skewness -.459
Kurtosis .196
Range 9.10
Percentiles 10 5.3200
25 6.4000
75 9.3500
90 10.3400
a) distribuţia este asimetrică la stânga
b) media este reprezentativă
c) jumătate dintre unităţi au valoarea sub 6,4
3) Pentru un eşantion de angajaţi repartizaţi după variabila salariul anual ($) s-au obţinut
rezultatele din tabelul de mai jos.
Statistics
Current Salary
474
0
$34,000.00
$28,000.00
$30,500
$17,000.000
$24,000.00
$28,000.00
$37,000.00
Valid
Missing
N
Mean
Median
Mode
Std. Deviation
25
50
75
Percentiles
Sunt valabile interpretările :
a) repartiţia angajaţilor înregistrează o asimetrie la dreapta
b) repartiţia angajaţilor înregistrează o asimetrie la stânga
c) epartiţia angajaţilor este simetrică
1 Răspunsuri: 1- a,c; 2 – a,b; 3 - a; 4 – b; 5 – c.
86
4) Pentru repartiţia de mai jos, quartila 1 are valoarea: xi-1-xi ni
0- 10 20
10-20 40
20-30 35
30-40 15
40-50 10
TOTAL 120
a) 10
b) 12,5
c) 25
5) Pentru repartiţia de mai jos, modul are valoarea: xi-1-xi ni
0- 10 5
10-20 10
20-30 20
30-40 15
40-50 10
TOTAL 60
a) 20,5
b) 30
c) 36,67
87
US 4. ANALIZA STATISTICĂ A UNEI SERII CALITATIVE
Cuprins
4.1 Analiza grafică
4.2 Analiza numerică
4.3 Aplicaţie în SPSS
Obiective
- prezentarea tipurilor de grafice specifice unei serii calitative
- definirea indicatorilor descriptivi, a proprietăţilor, a modului de calcul şi a interpretării acestora
- realizarea de exemple cu date reale
- prezentarea modului de analiză gafică şi numerică a unei serii categoriale în SPSS
Competenţe
- însuşirea principalelor metode de analiză grafică şi numerică a unei serii calitative
- dezvoltarea abilităţilor practice de prelucrare şi interpretare a datelor statistice sistematizate într-
o serie calitative
- dezvoltarea capacităţii de utilizare a softului statistic pentru prelucrarea automată a datelor
- capacitatea de a realiza o sinteză a informaţiei statistice, având la dispoziţie rezultatele analizei
grafice şi numerice
Termen mediu: 4 h
Bibliografie
1. Andrei, T. şi Stancu, S., Statistică - teorie şi aplicaţii , Editura All, Bucureşti, 1995
2. Isaic-Maniu, Al.; Grădinaru, A.; Voineagu, V.; Mitruţ, C. - Statistică teoretică şi economică,
Editura Tehnică, Chişinău, 1994.
3. Jaba, E., Statistica, Ediţia a treia, Editura Economica, Bucureşti, 2002
4. Jaba, E., Pintilescu, C., Statistică. Teste grilă şi probleme, Editura Sedcom Libris, Iaşi, 2005.
5. Lecaillon, J.; Labrousse, C., Statistique descriptive, Editura Cujas, Paris, 1988
6. Mills, Fr.G., Statistical Methods, 3rd
ed., Henry Holt, New York, 1955.
7. McNabb, D., Research methods in public administration and nonprofit management :
quantitative and qualitative approaches, Armonk, M.E. Sharpe, 2002
8. Yule, U.G.; Kendall, M.C. - Introducere în teoria statisticii, Editura Ştiinţifică, Bucureşti, 1969.
9. Wonnacott, T.H., Wonnacott, R.J., Statistique, Economica, Paris, 1991.
88
4.1. Analiza grafică
O distribuţie statistică după o variabilă categorială nominală sau ordinală poate fi
reprezentată grafic folosind diagrame de structură: cercul de structură, dreptunghiul de structură
etc.
Alura acestor grafice este prezentată în figurile de mai jos:
65,0%
35,0%
Feminin
Masculin
Sexul_persoanei
Figura 24. Cercul de structură
FemininMasculin
Sexul_persoanei
70,0%
60,0%
50,0%
40,0%
30,0%
20,0%
10,0%
0,0%
Perc
en
t
65,0%
35,0%
Figura 25. Dreptunghiul de structură
4.2. Analiza numerică
4.2.1. Mărimi relative
Pentru o distribuţie după o variabilă categorială nominală se pot calcula frecvenţele
relative, respectiv ponderea unităţilor din fiecare categorie în volumul total al colectivităţii, după
relaţia:
100n
n100
n
nf i
ii
ii
.
89
Exemplu
Distribuţia studenţilor dintr-o grupă pe sexe, la 1 ianuarie 2009, se prezintă astfel:
Tabelul 4.1 Distribuţia studenţilor dintr-o grupă
pe sexe, la 1 ianuarie 2009
Sexul persoanei Nr. studenţi
Masculin 7
Feminin 13
TOTAL 20
Se cere să se calculeze frecvenţele relative.
Rezolvare
Frecvenţele relative se calculează după relaţia:
100n
n100
n
nf i
ii
ii
.
Pentru exemplul dat, avem:
%3510020
7100
n
nf
ii
11
; %65100
20
13100
n
nf
ii
22
.
Interpretare
Ponderea persoanelor de sex masculin este de 35%, iar ponderea persoanelor de sex
feminin este de 65%.
4.2.2 Mărimi medii
În cazul unei distribuţii după o variabilă categorială nominală singura mărime medie care
poate fi calculată este modul. Modul arată categoria variabilei X cea mai frecvent observată,
respectiv cea care corespunde frecvenţei maxime.
În cazul unei distribuţii după o variabilă categorială ordinală, mărimile medii care pot fi
calculate sunt modul şi mediana.
Exemple
Distribuţia salariaţilor dintr-o regiune pe sexe, la 1 ianuarie 2009 se prezintă astfel:
Tabelul 4.2 Distribuţia salariaţilor dintr-o regiune
pe sexe, la 1 ianuarie 2009 Sexul persoanei Nr. studenţi
1-Masculin 700
2-Feminin 130
TOTAL 830
Se cere să se afle valoarea modului.
Rezolvare
Pentru aflarea modului, se observă că nimax=700. Categoria care corespunde acestei
frecvenţe maxime este xi=1-Masculin.
90
Interpretare
Cele mai multe persoane din colectivitatea observată sunt de sex masculin.
2. Distribuţia salariaţilor unei firme după nivelul de studii (Primar, Gimnazial, Liceal,
Superior) se prezintă astfel:
Tabelul 4.3 Distribuţia salariaţilor unei firme
după nivelul de studii Nivel de studii Nr. persoane
Primar 10
Gimnazial 25
Liceal 15
Superior 50
TOTAL 100
Se cere să se calculeze valorile modului şi medianei.
Rezolvare
Modul
Pentru identificarea modului, se află nimax=50. Categoria care corespunde acestei frecvenţe
maxime este xi=Superior.
Interpretare
Cele mai multe persoane din colectivitatea observată au studii superioare.
Mediana
Pentru aflarea medianei, se află 502
100
2
n
U ii
Me
. Se calculează frecvenţele
absolute cumulate crescător, prezentate în tabelul de mai jos:
Tabelul 4.4 Frecvenţele absolute cumulate crescător Nivel de studii Nr. persoane Ni↓
Primar 10 10
Gimnazial 25 35
Liceal 15 50
Superior 50 100
TOTAL 100 -
Prima valoare Ni↓=50 ≥UMe
=50. Mediana este reprezentată de categoria Liceal.
Interpretare
Jumătate din numărul total al persoanelor sunt cu studii primare, gimnaziale şi liceale, iar
jumătate sunt cu studii superioare.
91
4.3. Aplicaţie în SPSS
Se consideră distribuţia medaliilor obţinute de România la Jocurile Olimpice după
categoria medaliei, în perioada 1924-2012.
Cu ajutorul programului SPSS, se cere să se determine şi să se interpreteze frecvenţele
relative, modul şi mediana.
Rezolvare
Distribuţia medaliilor olimpice şi frecvenţele relative sunt prezentate în tabelul 4.6, iar
indicatorii medii sunt prezentaţi în tabelul 4.7.
Tabelul 4.5. Distribuţia medaliilor olimpice ale României după categoria medaliei,
pentru perioada 1924-2012
Interpretare
Frecvenţele relative (coloana Percent şi Valid Percent) arată că 29% dintre medaliile
olimpice obţinute de România sunt de aur, 31,4% sunt de argint, iar 39.9% sunt de bronz.
Pentru a permite programului SPSS să calculeze mărimile medii, fiecărei categorii i s-a
atribuit câte un cod, astfel:
- pentru aur s-a atribuit codul 1;
- pentru argint s-a atribuit codul 2;
- pentru bronz s-a atribuit codul 3.
Rezultatul este prezentat în tabelul 4.7.
Tabelul 4.6. Mărimile medii, obţinute cu ajutorul programului SPSS
Interpretare
Mediana este categoria cu codul 2, adică argint. 50% dintre medalii sunt cel mult de
argint, inclusiv, iar 50% din medaliile obţinute sunt cel puţin de argint, inclusiv.
Modul este categoria cu codul 3, adică bronz. Cele mai multe medalii olimpice sunt de
bronz.
92
Teste1
1) Sunt nominale următoarele variabile:
a) genul persoanelor, starea civilă, domiciliul
b) numărul de membri ai unei gospodării, numărul de angajaţi ai unei firme
c) salariul lunar, speranţa de viaţă, vârsta
2) Pentru un eşantion de persoane repartizate după variabila X (opţiunea de vot pentru un candidat
la funcţia de preşedinte), s-au obţinut rezultatele din tabelul de mai jos.
opţiunea in
Da 350
Nu 150
Total 500
Este corect rezultatul:
a) în medie, 75% din alegători votează pentru candidatul considerat
b) în medie, la 100 de alegători 70 votează pentru candidatul considerat
c) în medie, 25% dintre alegători votează împotriva candidatului considerat
3) Dacă pentru un candidat au votat 10% pentru şi 90% împotrivă, atunci:
a) populaţia este omogenă
b) abaterea standard este de 9,4%
c) populaţia este asimetrică la dreapta
4) Dacă într-o clasă sunt 10 studenţi de la real, 15 de la uman şi 5 de la vocaţional, atunci se poate
spune că
a) putem construi o repartiţie după o variabilă nominală
b) în medie, dintr-o sută de studenţi, 30% sunt de la real
c) valoarea dominantă este “uman”
d) valoarea medie este “real”
1 Răspunsuri: 1 – a; 2 – b; 3 – a,b; 4 – a,b,c
93
PARTEA A DOUA – STATISTICĂ INFERENŢIALĂ
US 5. NOŢIUNI FUNDAMENTALE
Cuprins
5.1. Probabilităţi. Variabile aleatoare. Distribuţii probabiliste
5.2. Selecţie. Eşantion. Variabile aleatoare de selecţie
5.3. Parametri, estimatori, estimaţii. Distribuţii de selecţie
5.4. Statistici frecvent utilizate în cercetările prin sondaj
Obiective
- definirea conceptelor fundamentale specifice statisticii inferenţiale
- prezentarea proprietăţilor instrumentelor utilizate
- prezentarea de exemple şi exerciţii pentru aprofundarea
Competenţe
- însuşirea noţiunilor fundamentale ale statisticii inferenţiale
- înţelegerea diferenţelor între parametri, estimatori şi estimaţii
- capacitatea de a distinge între metodele descriptive şi cele inferenţiale
Termen mediu: 2 h
Bibliografie
1. Andrei, T. şi Stancu, S., Statistică - teorie şi aplicaţii , Editura All, Bucureşti, 1995
2. Biji, M.; Biji, El., Statistica teoretică, Editura Didactică şi Pedagogică, Bucureşti, 1979
3. Jaba, E., Statistica, Ediţia a treia, Editura Economica, Bucureşti, 2002
4. Jemna, D.V., Econometrie, Editura Sedcom Libris, Iaşi, 2009
5. Mills, Fr.G., Statistical Methods, 3rd
ed., Henry Holt, New York, 1955.
6. Yule, U.G.; Kendall, M.C. - Introducere în teoria statisticii, Editura Ştiinţifică, Bucureşti, 1969.
7. Wonnacott, T.H., Wonnacott, R.J., Statistique, Economica, Paris, 1991.
94
Inferenţa statistică are ca obiectiv cunoaşterea unei populaţii în mod indirect, prin
prelucrarea datelor la nivelul unui eşantion reprezentativ extras din aceasta, după o metodă care
asigură proprietatea de reprezentativitate (aşa cum este metoda extragerii aleatoare). Inferenţa
statistică presupune estimarea parametrilor unei populaţii şi testarea ipotezelor statistice.
5.1. Probabilităţi. Variabile aleatoare. Distribuţii probabiliste
A. Probabilităţi
Pentru definirea conceptului de probabilitate este important să se prezinte noţiunile de
experienţă aleatoare, eveniment elementar, mulţimea evenimentelor posibile, eveniment aleator.
Experienţa aleatoare - o acţiune sau un proces care conduce la un ansamblu de rezultate
posibile, fiecare rezultat fiind supus întâmplării, adică neputând fi anticipat.
Evenimentul elementar - rezultatul posibil al experienţei aleatoare, este notat cu .
Mulţimea evenimentelor elementare este notată cu şi se mai numeşte mulţimea
evenimentelor posibile.
Exemplu
Un exemplu clasic de experienţă aleatoare este aruncarea unui zar. Evenimentul elementar
este apariţia unei feţe, în total, existând şase evenimente elementare, }6,5,4,3,2,1{Ω .
Evenimentul aleator - un eveniment definit printr-o proprietate, care poate fi îndeplinită
sau nu în urma realizării experienţei aleatoare.
Exemplu
În cazul aruncării zarului, un eveniment aleator îl constituie apariţia unei feţe cu număr
par. Submulţimea care corespunde acestei proprietăţi este A = {2, 4, 6}.
Evenimentele favorabile - evenimentele care compun submulţimea evenimentelor
elementare care îndeplinesc proprietatea de definire a evenimentului aleator. Mulţimea acestor
evenimente se numeşte mulţimea evenimentelor favorabile.
Definiţii ale probabilităţii
a. Definiţia clasică a probabilităţii (Bernoulli şi Laplace)
Probabilitatea ca un eveniment să se realizeze reprezintă raportul dintre numărul de
evenimente elementare favorabile realizării evenimentului şi numărul evenimentelor egal posibile.
n
m
card
Acardp
)(
)(
unde m este numărul cazurilor favorabile şi n este numărul cazurilor posibile, unde
nm0 , ceea ce implică 1p0 .
Valoarea p=0 corespunde imposibilităţii realizării evenimentului sau evenimentul
imposibil, iar valoarea p=1 corespunde evenimentului cert sau sigur.
Exemplu
În cazul aruncării zarului, probabilitatea de apariţie a unei feţe cu număr par este:
5,06
3
)(
)(
card
Acardp .
95
b. Definiţia probabilităţii bazată pe frecvenţă
Probabilitatea este definită ca un caz limită al frecvenţei, atunci când numărul de
experienţe tinde la infinit.
n
mp
n lim , unde m este numărul efectiv de realizări ale unui eveniment dintr-un număr n
de experienţe realizate, adică este frecvenţa relativă de apariţie a unui eveniment.
Exemplu
Să presupunem că am aruncat un zar de 10 ori, iar faţa cu numărul 6 a apărut de 3 ori.
Deci frecvenţa relativă este 0,3. Dacă mărim numărul de aruncări foarte mult (teoretic la infinit),
atunci frecvenţa de apariţie tinde către valoarea 1/6, care este tocmai probabilitatea de apariţie a
feţei cu numărul 6 la aruncarea unui zar.
Definiţia axiomatică
Consideră că probabilitatea este o aplicaţie, o funcţie care asociază fiecărui eveniment
aleator un număr real care măsoară posibilitatea ca evenimentul să apară prin realizarea
experienţei aleatoare.
Axiome:
- 0 A)) A, P((
- 1)P(Ω
- P(B)P(A)B) P(AΦ, atunci B) A,B, A( sau
n
i
ii
n
ijii )P(A)A P(j, atunciiΦ, pentru A}, A,n,i) {A(
11
1
BA - A şi B sunt incompatibile (exemplu, la aruncarea unui zar, o faţă pară şi o
faţă impară)
Proprietăţi
- -P(A))A) A, P(( c 1
- 0)P(Φ
- 10 P(A)) A, (
- B)P(B)-P(AP(A)B) P(A) A, B, (
Exemplu
A este evenimentul să apară o faţă cu număr par, iar B să apară o faţă cu număr mai mare
decât 3. Să se verifice proprietăţile.
B. Variabile aleatoare
O experienţă aleatoare este descrisă prin mulţimea evenimentelor elementare
,...},...,{ 21 n .
Variabila aleatoare este o aplicaţie sau o funcţie care asociază fiecărui eveniment
elementar o măsură, un număr real: R:X , RxX iii )( , adică
X este o funcţie definită pe , cu valori în mulţimea numerelor reale R.
Exemplu
96
Un exemplu de variabilă aleatoare este cea asociată experienţei aleatoare a aruncării pe o
masă a două zaruri. În acest caz, }6,1j,i ),j,i{( , iar funcţia care se poate asocia
experienţei este aceea a atribuirii unui număr real fiecărui eveniment elementar egal cu suma
punctelor obţinute la fiecare aruncare. Deci,
6,1 i,jj, pentrui)(r X(i,j), iaω .
Mulţimea valorilor variabilei aleatoare este:
Rxxcu },x,...x,x{)(X jin21
Se poate vorbi despre probabilitatea ca variabila aleatoare X să ia o anumită valoare,
adică:
}n,1i ,x)(X ,{P)xXP()A(Pp iiii .
Tipuri de variabile aleatoare – discrete şi continue
În general, o variabilă aleatoare discretă ia valori distincte pe o mulţime a valorilor sale I,
care este o mulţime cel mult numărabilă.
Variabila aleatoare discretă este definită prin: Iii
i
p
xX
: .
Variabilele aleatoare continue sunt acele variabile ale căror mulţime a valorilor este un
interval mărginit sau nemărginit. Aceste variabile sunt definite cu ajutorul unei funcţii f(x), care se
numeşte funcţie densitate de repartiţie.
Funcţia densitate de repartiţie are următoarele proprietăţi:
- 0)( , )( xfRx
-
1)( dxxf ;
Distribuţia unei variabile aleatoare. Funcţia de repartiţie
Distribuţia sau legea de probabilitate a unei variabile aleatoare este dată prin funcţia sa de
probabilitate care poate lua diferite forme, în funcţie de tipul variabilei.
Pe baza funcţiei de probabilitate a unei variabile aleatoare, se determină funcţia sa de
repartiţie. În general, funcţia de repartiţie este definită prin relaţia:
RxxXPxF )( ),()( .
Funcţia de repartiţie are următoarele proprietăţi:
- 1)(0 , )( xFRx ;
- F(b)b, F(a)R, a) a,b( ;
-
x
xF 1)(lim ;
-
x
xF 0)(lim ;
)x(F)0x(F ,Rx )( .
Dacă a < b, se poate demonstra următorul rezultat:
RxaFbFbXaP )( ),()() ( .
Pentru variabila discretă, funcţia de repartiţie este
}xx{
i
i
p)x(F .
Pentru cea continuă,
x
RxdttfxF )( , )()( .
97
Caracteristici numerice ale unei variabile aleatoare
Media unei variabile aleatoare
Notam )X(M .
Dacă variabila X este discretă, atunci: i
Ii
i pxXM
)( ,
iar dacă variabila X este o variabilă continuă, dxxfxXMR
)()( .
Dispersia sau varianţa unei variabile aleatoare
Prin definiţie, dispersia unei variabile aleatoare este dată de relaţia:
)X(M)X(M)]X(MX[M)X(V 222 ,
unde M(X2) reprezintă media variabilei XXX 2 .
Notam V(X) = 2 .
Abaterea medie pătratică a unei variabile aleatoare
Numită şi abatere standard, abaterea medie pătratică se obţine prin relaţia: )X(V ,
adică reprezintă rădăcina pătrată a dispersiei.
C. Distribuţii probabiliste utilizate în statistică
1. Distribuţii discrete
a. Distribuţia Bernoulli - X ~ B(p).
Este dată printr-un tablou de forma:
pq
10:X , unde )1X(Pp , )0X(Pq ;
p+q=1.
Parametrii acestei repartiţii sunt:
M(X) = p;
V(X) = pq.
b. Distribuţia binomială – X~ B(n, p)
Repartiţia binomială se obţine prin generalizarea repartiţiei Bernoulli. Prin însumarea unui
număr de n variabile aleatoare Bernoulli identic repartizate, se obţine o variabilă binomială.
Repartiţia binomială, simbolizată este dată printr-un tablou de forma:
n,0k
knkk
n qpC
k:X
,
unde p + q = 1, iar k reprezintă numărul de realizări ale evenimentului favorabil, în
condiţiile repetării de n ori a experienţei Bernoulli.
Parametrii repartiţiei binomiale se determină uşor, dacă se consideră că o variabilă
binomială este suma a n variabile Bernoulli, Xi ~ B(p).
Variabila binomială se obţine astfel:
n
1i
iXX . Pentru această variabilă, au loc relaţiile:
M(X) = np;
V(X) = npq.
98
2. Distribuţii continue
a. Distribuţia normală generalizată
Repartiţia normală generalizată se simbolizează ),(N 2 , unde şi 2 sunt parametrii
acestei repartiţii: )X(M , respectiv )X(V2 .
Funcţia densitate de repartiţie, în cazul unei repartiţii normale generalizate, este dată de
relaţia:
2
2
2
)x(
e2
1)x(f
.
b. Distribuţia normală standard
Variabila normală standard se obţine dintr-o variabilă normală generalizată prin procedeul
de standardizare:
XZ
O variabilă aleatoare repartizată după o lege normală standard, simbolizată N(0,1), are o
funcţie densitate de repartiţie dată de relaţia:
2
z2
e2
1)z(f
, Rz .
Parametrii repartiţiei normale standard sunt:
M(Z) = 0;
V(Z) = 1.
Pentru interese practice, de calcul al unor probabilităţi, se utilizează funcţia lui Laplace,
definită pe baza repartiţiei normale standard. Funcţia lui Laplace este definită de relaţia:
dte2
1)z(
z
0
2
t 2
,
iar valorile acestei funcţii se găsesc tabelate.
Funcţia de repartiţie devine: )z(2
1)z(F
Pe baza funcţiei lui Laplace, se poate determina, de exemplu, probabilitatea ca variabila
aleatoare normală standard să ia valori într-un interval simetric de tipul (-a; a). Această
probabilitate este:
a
a
dt)t(f)a(2)a()a()a(F)a(F)aZa(P .
Exemplu
P(-1 < Z < 1) = 2 (1) = 0,682,
P(Z < 1) = F(1) = 1/2 + (1) = 0,5 + 0,341 = 0,841.
Observaţie
Relaţia dintre repartiţia normală standard şi cea generalizată se poate observa uşor atât prin
relaţia dintre cele două tipuri de variabile, cât şi prin relaţia existentă între funcţiile de repartiţie
specifice. Astfel, de exemplu, se poate calcula probabilitatea:
99
)a
()b
()a
(F)b
(F)bXa(P
.
Exemplu
Pentru o variabilă X ~ N(10,4), să se calculeze probabilitatea P(8 < X < 12) .
P(8 < X < 12) = )2
108()
2
1012(
= (1) - (-1) = (1) + (1) = 2(1) = 0,682.
b. Distribuţia chi-pătrat
O variabilă aleatoare repartizată după o lege chi-pătrat, simbolizată ),n(2 .
Dacă considerăm n variabile aleatoare identic repartizate după o lege normală standard, Xi
~ N(0,1), n,1i , atunci variabila )n(~XX 2n
1i
2
i
.
Exemplu
Pentru o variabilă X ~ )4(2 , se poate determina constanta a, astfel încât P (X > a) =
0,05. Din tabela chi-pătrat se citeşte valoarea a = 9,48.
c. Distribuţia Student
O variabilă aleatoare repartizată după o lege Student, simbolizată t(n).
Dacă se consideră două variabile aleatoare X~N(0,1) şi Y~ )n(2 , atunci variabila
aleatoare Student se obţine prin relaţia: )n(t~
n
Y
Xt , unde n reprezintă numărul de grade de
libertate, parametrul acestei distribuţii.
Exemplu
Pentru o variabilă aleatoare care urmează o lege de repartiţie Student cu n = 25 grade de
libertate (X ~ t (25)), se cere să se determine valoarea a, astfel încât: P(X > a) = 0,05.
Din tabela Student, pentru o probabilitate de 0,05 şi 25 grade de libertate se citeşte
valoarea a = 1,708.
d. Distribuţia Snedecor-Fisher
O variabilă aleatoare repartizată după o lege Snedecor-Fisher, simbolizată )n,n( 21 .
Dacă se consideră două variabile aleatoare: X~ ),n( 1
2 şi Y~ ),n( 2
2 , atunci o
variabilă repartizată Fisher se obţine prin relaţia:
)n,n(~
n
Y
n
X
F 21
2
1 , unde n1 şi n2 reprezintă grade de libertate, parametrii repartiţiei
Snedecor-Fisher.
Exemplu
Pentru o variabilă X ~ F(5, 3), se poate determina constanta a, astfel încât P(X > a) = 0,01.
Din tabela Fisher citeşte valoarea a = 28,23.
100
5.2. Selecţie. Eşantion. Variabile aleatoare de selecţie
a. Eşantionul statistic
În accepţiunea cea mai largă, eşantionul reprezintă o sub-populaţie sau un sub-ansamblu
extras din populaţia de referinţă după o procedură anume. Condiţia de bază ca o sub-populaţie să
fie un eşantion este reprezentativitatea. Notăm volumul eşantionului cu n.
Un eşantion poate fi definit din punct de vedere statistic pe baza observaţiilor culese şi
înregistrate de la nivelul unei sub-populaţii. Un set de n valori statistice ale variabilei X observate
pentru n unităţi ale populaţiei poartă numele de eşantion: ( n21 x,...,x,x ).
b. Selecţia de volum n. Variabile aleatoare de selecţie. Statistici
Extragerea unui eşantion aleator este o experienţă aleatoare care admite o mulţime de
posibilităţi. Dintr-o populaţie de volum N, se pot extrage k eşantioane de volum n. Numărul k de
eşantioane posibile depinde de modul de extragere a unităţilor:
- după schema urnei cu revenire: nNk ;
- după schema urnei fără revenire: n
NCk .
Dacă se consideră o variabilă X, atunci experienţa aleatoare a extragerii unui eşantion
permite definirea unei structuri matematice care evidenţiază toate valorile posibile ale variabilei,
dar organizate sub formă de eşantioane. Pentru cele k eşantioane aleatoare posibil de extras,
rezultă structura de tip matrice de mai jos, în care fiecare linie este un eşantion posibil de extras:
kn2k1k
n22221
n11211
x....xx
..............................
x....xx
x....xx
Pentru fiecare coloană din matrice se defineşte o variabilă aleatoare (care are ca valori
posibile valorile lui X pentru prima unitate din toate eşantioanele posibil de extras), astfel încât
rezultă structura de tip vector V: (X1, X2, …, Xn), care este un vector aleator.
Variabilele Xi se numesc variabile aleatoare de selecţie şi se poate demonstra că acestea
sunt identic repartizate cu variabila X (au aceeaşi lege de probabilitate) şi sunt independente
stochastic.
O selecţie de volum n este o posibilă realizare a experienţei aleatoare a extragerii unui
eşantion aleator simplu. Considerând variabila X, o selecţie este o realizare posibilă de forma:
v:( n21 x,...,x,x ), adică o valoare posibilă a vectorului V.
Statistici
O statistică este o variabilă aleatoare obţinută ca o combinaţie a variabilelor aleatoare de
selecţie Xi .
Dacă notăm o statistică cu S, aceasta se obţine cu ajutorul unei funcţii g care compune
elementele vectorului V:
S = goV.
101
De exemplu, dacă aplicaţia g este o medie, se obţine statistica iXn
1S , care este o
variabilă aleatoare, ale cărei valori posibile sunt mediile tuturor eşantioanelor de volum n posibil
de extras din populaţia N. O asemenea valoare posibilă a statisticii S este media de eşantion:
ixn
1x .
Distribuţia de selecţie
Ceea ce este foarte important în cazul unei statistici este repartiţia sa probabilistică sau
legea sa de probabilitate. Distribuţia unei statistici se numeşte distribuţie de selecţie şi vizează
toate selecţiile de volum n posibile în experienţa aleatoare a extragerii unui eşantion.
5.3. Parametri, estimatori, estimaţii. Distribuţii de selecţie
Teoria inferenţei statistice aduce în discuţie trei termeni fundamentali: parametrul,
estimatorul şi estimaţia.
a. Parametri
Parametrul reprezintă o valoare fixă şi necunoscută, numită şi valoare reală sau adevărată,
a unei populaţii studiate după o anumită variabilă. Parametrul este definit de valorile variabilei X
de la nivelul tuturor unităţilor populaţiei Dacă notăm cu parametrul, atunci se poate scrie:
),...,,( 21 Nxxxf . De exemplu, o populaţie poate fi descrisă folosind un indicator al tendinţei
centrale, cum ar fi media populaţiei ( ), şi un indicator al dispersiei, cum ar fi abaterea medie
pătratică ( ).
b. Estimatori
Estimatorul este o statistică, adică o variabilă aleatoare care este determinată de totalitatea
eşantioanelor posibile de volum dat (n) care se pot extrage din populaţia de referinţă. Estimatorul,
în expresia sa analitică, este definit ca o funcţie a variabilelor de selecţie Xi , i=1,n. Dacă notăm
estimatorul cu ̂ , atunci )X,...,X,X(gˆn21 .
Estimatorul este instrumentul principal care permite estimarea (aproximarea cu o valoare
cunoscută, calculată) unui parametru (valoarea necunoscută). Un parametru este estimat prin
intermediul unui estimator, cu ajutorul unei estimaţii.
c. Estimaţii
Estimaţia este o valoare realizată dintre valorile posibile ale estimatorului. O estimaţie se
obţine la nivelul unui eşantion extras, pe baza datelor culese, şi este o funcţie a valorilor de sondaj
xi , i=1,n. Astfel: )x,...,x,x(gˆ̂
n21 .
De regulă, există o diferenţă între estimaţie şi parametru, care reprezintă o eroare de
estimare. Această eroare poate fi măsurată cu ajutorul proprietăţilor estimatorilor.
d. Proprietăţile estimatorilor
Estimarea statistică se realizează în baza unor proprietăţi ale estimatorilor: nedeplasare,
convergenţă în probabilitate, eficienţă, convergenţă în repartiţie.
102
Pentru definirea acestor proprietăţi este important să se pornească de la o măsură a erorii
de estimare a unui estimator, care se numeşte eroarea medie pătratică:
22 ])ˆ(M[)ˆ(V)ˆ(M .
În relaţia de mai sus, )ˆ(V este dispersia sau varianţa estimatorului (o măsură a gradului
de împrăştiere a valorilor sale posibile faţă de media lor sau media estimatorului) şi
)ˆ(M)(B , care reprezintă deplasarea sau biais-ul estimatorului.
O bună estimare statistică impune ca eroarea de estimare de mai sus să fie minimă (ea este
practic zero dacă estimaţia este identică cu parametrul), adică o dispersie minimă şi un biais
minim.
Nedeplasarea
Un estimator se numeşte nedeplasat sau bine centrat (fără biais) dacă media sa este egală
cu parametrul: )ˆ(M sau 0)(B .
Convergenţa în probabilitate
Această proprietate impune o condiţie de volum al eşantionului: dacă acesta este suficient
de mare, atunci orice valoare posibilă a estimatorului (orice estimaţie) converge către parametru.
Această proprietate se poate scrie astfel:
p
Nnn )ˆ( sau 1)ˆ,nn,n,0(P n .
Această proprietate este o expresie a legii numerelor mari.
Eficienţa
Dintre doi estimatori posibili pentru un parametru, estimatorul cu varianţa cea mai mică se
numeşte un estimator mai eficient decât celălalt. Estimatorul cu varianţa minimă este un estimator
eficient.
Convergenţa în repartiţie (teorema limită centrală)
Această proprietate impune o condiţie de volum pentru estimatorul transformat prin
operaţia de standardizare: )ˆ(V
)ˆ(Mˆ~ˆ
. Dacă volumul eşantionului creşte peste o anumită
limită, atunci variabila aleatoare obţinută prin standardizarea estimatorului urmează o lege de
repartiţie normală standard:
)1,0(N~Z)ˆ(V
)ˆ(Mˆrep
Nnn
nn
5.4. Statistici frecvent utilizate în cercetările prin sondaj
Considerăm o variabilă X la nivelul unei populaţii de volum N. De asemenea, notăm cu
)X(M şi )X(V2 , parametrii populaţiei.
103
Media de selecţie
Pentru estimarea parametrului medie ixN
1 , se utilizează estimatorul numit medie
de selecţie: iXn
1̂ , obţinut ca o medie aritmetică a variabilelor aleatoare de selecţie Xi.
O valoare posibilă a estimatorului este media de sondaj ixn
1x .
Utilizând proprietăţile mediei, precum şi ale variabilelor aleatoare de selecţie (au aceeaşi
parametri ca şi variabila X), se poate demonstra că:
)ˆ(M , adică estimatorul este nedeplasat;
n
)ˆ(V2
şi că estimatorul este eficient;
p
Nnn )ˆ( , adică estimatorul este convergent
Pentru n suficient de mare, se poate aprecia că
)1,0(N~
n
ˆ
)ˆ(V
)ˆ(MˆZ
.
Dispersia de selecţie
Pentru estimarea dispersiei, 2
i
2 )x(N
1 se utilizează estimatorul
2
i
2 )ˆX(n
1ˆ , numit dispersie de selecţie.
O valoare posibilă a acestui estimator este dispersia de sondaj 2
i
2 )xx(n
1s
Se poate demonstra că pentru acest estimator are loc:
22
22
n
1n
n)ˆ(M
.
Cu alte cuvinte, dispersia de selecţie este n estimator deplasat.
Dispersia de selecţie modificată
Ca o corecţie la estimatorul precedent, se construieşte dispersia de selecţie modificată:
2
i
2 )ˆX(1n
1'ˆ
sau
22 ˆ1n
n'ˆ
.
O valoare posibilă a acestui estimator este dispersia de sondaj modificată
2
i
2 )xx(1n
1's
.
Se poate uşor demonstra că 22 )'ˆ(M , adică este un estimator nedeplasat pentru
dispersie.
Proporţia de selecţie
La nivelul populaţiei totale, pe baza unei proprietăţi sau condiţii A, se poate defini o
variabilă alternativă de forma:
1
10:X . Parametrul reprezintă proporţia sau ponderea
104
unităţilor din populaţie care îndeplinesc condiţia A: N
M , unde M este numărul unităţilor din
populaţie care îndeplinesc condiţia A.
Deoarece acest parametru este tocmai media variabilei alternative, estimatorul său este
construit după acelaşi tipar cu media de selecţie.
Astfel, iXn
1̂ , unde Xi au aceeaşi lege de repartiţie cu X. Acest estimator poartă
numele de proporţie de selecţie, iar o valoare posibilă a sa este o proporţie de eşantion:
n
mw , unde m este numărul unităţilor din eşantion care îndeplinesc condiţia A.
Proporţia de selecţie are aceleaşi proprietăţi cu media de selecţie.
)ˆ(M , este nedeplasat;
n
)1()ˆ(V
, este eficient;
p
Nnn )ˆ( , este convergent
Pentru n suficient de mare, se poate aprecia că
)1,0(N~
n
)1(
ˆZ
.
Tabel sintetizator
Parametru Estimator Estimaţie
Media
ixN
1
Media de selecţie
iXn
1̂
Media de eşantion
ixn
1x
Dispersia
2
i
2 )x(N
1
Dispersia de selecţie modificată
2
i
2 )ˆX(1n
1'ˆ
Dispersia de eşantion modificată
2
i
2 )xx(1n
1's
Abaterea standard
'̂ s’
Proporţia
N
M
Proporţia de selecţie
iXn
1̂
Proporţia de eşantion
n
mw
Diferenţa dintre două medii
21
21ˆˆ
21 xx
105
Teste1
1) O probabilitate se determină clasic ca raport între numărul de evenimente favorabile realizării
unui eveniment şi:
a) numărul evenimentelor aleatoare
b) infinit
c) numărul evenimentelor posibile
d) unu
2) Distribuţia normală standard se caracterizează prin parametrii:
a) medie zero şi varianţă unu
b) medie μ şi varianţă σ2
c) medie p şi varianţă pq
3) Într-o cercetare prin sondaj, eşantionul trebuie să respecte condiţia de:
a) omogenitate
b) varianţă minimă
c) reprezentativitate
4) Parametrul reprezintă
a) o valoare fixă şi necunoscută la nivelul unei populaţii
b) o statistică
c) o variabilă cunoscută f(x)
5) Distribuţia Snedecor-Fisher are ca parametri:
a) k grade de libertate
b) două grade de libertate
c) media zero şi varianţa unu
d) n grade de libertate
6) Estimatorul reprezintă
a) o valoare fixă şi cunoscută la nivelul unei populaţii
b) o valoare de forma )x,...,x,x(fˆ
N21
c) o variabilă aleatoare
7) Estimatorul admite
a) o medie
b) o lege de distribuţie
c) un set de valori posibile
d) o valoare fixă cunoscută
8) Sunt discrete distribuţiile
a) Student
b) Bernoulli
c) Binomială
d) Chi-pătrat
1 Răspunsuri: 1 – c; 2 – a; 3 – c; 4 – a; 5 – b; 6 – c; 7 – a,b,c; 8 – b,c; 9 – c; 10 – c,d.
106
9) Estimaţia este
a) o valoare fixă şi cunoscută la nivelul unei populaţii
b) o statistică
c) o valoare calculată pe baza datelor de sondaj
d) o variabilă realizată a estimatorului
10) Distribuţia binomială se obţine
a) prin standardizare
b) ca raport între două variabile Chi-pătrat
c) prin generalizarea distribuţiei Bernoulli
d) prin însumarea a n variabile Bernoulli
107
US 6. ESTIMAREA PARAMETRILOR UNEI POPULAŢII
Cuprins
6.1 Estimarea punctuală
6.2 Estimarea prin interval de încredere
Obiective
- definirea termenilor
- definirea metodelor de estimare punctuală şi prin interval de încredere
- prezentarea demersului estimării pentru diferiţi parametri
- realizarea de aplicaţii pentru aprofundarea cunoştinţelor
Competenţe
- însuşirea noţiunilor şi a demersului procedeului de estimare statistică
- înţelegerea diferenţei dintre estimarea punctuală şi prin interval de încredere
- dobândirea de abilităţi practice de utilizare a metodei estimării pentru diferite situaţii reale
- însuşirea demersului estimării cu ajutorul softului statistic specializat
Termen mediu: 2 h
Bibliografie
1. Andrei, T. şi Stancu, S., Statistică - teorie şi aplicaţii , Editura All, Bucureşti, 1995
2. Biji, M.; Biji, El., Statistica teoretică, Editura Didactică şi Pedagogică, Bucureşti, 1979
3. Jaba, E., Statistica, Ediţia a treia, Editura Economica, Bucureşti, 2002
4. Jemna, D.V., Econometrie, Editura Sedcom Libris, Iaşi, 2009
5. Mills, Fr.G., Statistical Methods, 3rd
ed., Henry Holt, New York, 1955.
6. Yule, U.G.; Kendall, M.C. - Introducere în teoria statisticii, Editura Ştiinţifică, Bucureşti, 1969.
7. Wonnacott, T.H., Wonnacott, R.J., Statistique, Economica, Paris, 1991.
108
Estimarea reprezintă procedeul de determinare a unui parametru al unei populaţii (µ, σ2, π)
prin prelucrarea datelor înregistrate la nivelul unui eşantion.
Estimarea se poate realiza:
1. punctual: presupune aflarea unei valori posibile a estimatorului parametrului;
2. prin interval de încredere (IC): presupune aflarea limitelor de încredere ale unui interval
care acoperă valoarea parametrului cu o anumită probabilitate.
6.1. Estimarea punctuală
A estima punctual un parametru presupune a calcula o estimaţie la nivelul unui
eşantion, ca o valoare realizată a unui estimator ̂ convenabil ales, care respectă proprietăţile de
nedeplasare şi convergenţă.
Cele două proprietăţi ale estimatorului asigură condiţiile de calitate care permit utilizarea
unei valori punctuale calculate (estimaţia) pentru a aprecia valoarea necunoscută de la nivelul
populaţiei (parametrul).
a. Estimarea punctuală a mediei
Estimarea punctuală a mediei unei populaţii presupune aflarea unei valori posibile a
estimatorului ̂ , media de selecţie, care este un estimator nedeplasat şi convergent pentru
parametrul . Media de sondaj, x , este o valoare realizată dintre valorile posibile ale
estimatorului ̂ , adică este o estimaţie punctuală a mediei populaţiei.
Exemplu
Din totalul judeţelor României a fost extras aleatoriu un eşantion de 10 judeţe, care au fost
observate după rata şomajului (%) înregistrată în anul 2011. Valorile înregistrate la nivelul
eşantionului sunt: 5.9, 8.4, 7.4, 7.1, 6.1, 6.4, 8.8, 8, 7.8, 7. Să se estimeze punctual rata medie a
şomajului la nivelul României.
Rezolvare
Media calculată la nivelul eşantionului este:
29.710
78.788.84.61.61.74.74.89.5x
%.
Interpretare: La nivelul României, se poate estima că rata medie a şomajului este de
7,29%.
b. Estimarea punctuală a proporţiei
Estimarea punctuală a proporţiei la nivelul unei populaţii presupune aflarea unei valori
posibile a estimatorului ̂ , proporţia de selecţie, care este un estimator nedeplasat şi convergent
pentru parametrul . La nivelul eşantionului, proporţia calculată (w) este o estimaţie punctuală a
parametrului proporţiei.
Exemplu
În urma realizării unui sondaj la nivelul unui eşantion format din 1000 locuitori ai unei
localităţi, la întrebarea „Aţi vizionat cel puţin un spectacol de teatru în ultima lună?”, 260 de
109
persoane au răspuns afirmativ. Să se estimeze punctual proporţia persoanelor care răspuns
afirmativ la întrebare, la nivelul întregii populaţii.
Rezolvare
Proporţia persoanelor care au răspuns afirmativ la întrebare, calculată la nivelul
eşantionului, este: %261001000
260
n
mw .
Interpretare: La nivelul întregii populaţii, se poate estima că 26% dintre persoane au
vizionat cel puţin un spectacol de teatru în ultima lună.
6.2. Estimarea prin interval de încredere
A estima prin interval de încredere un parametru presupune a identifica două variabile
aleatoare, Li şi Ls care, pentru o anumită probabilitate )1( , numită nivel de încredere, respectă
condiţia:
)1()LL(P si , unde )1,0( .
Estimarea prin interval de încredere se bazează pe estimatori nedeplasaţi şi convergenţi,
cărora li se aplică Teorema limită centrală.
1. Estimarea prin interval de încredere a mediei
Există două situaţii:
a. Se cunoaşte parametrul
Se utilizează estimatorul iXn
1̂ , căruia i se aplică TLC, adică, pentru un n suficient
de mare, are loc:
)1,0(N~
n
ˆZ
Pentru o probabilitate cunoscută )1( , pentru repartiţia normală standard, se poate
identifica o valoare 2/z care respectă proprietatea:
)z(2)1()zZz(P 2/2/2/
Valoarea 2/z se citeşte din tabelul lui Laplace pe baza relaţiei 2
)1()z( 2/
.
Înlocuind relaţia lui Z în cea de mai sus, rezultă:
)1()z
n
ˆz(P 2/2/
După o serie de calcule elementare, rezultă:
)1()n
zˆn
zˆ(P 2/2/
.
110
Ultima relaţie respectă definiţia intervalului de încredere şi ne permite identificarea celor
două variabile aleatoare care reprezintă limitele intervalului de încredere pentru medie:
n
zˆL,n
zˆL 2/s2/i
La nivelul unui eşantion extras, se calculează un interval estimat pentru parametrul medie,
pe baza estimaţie sale punctuale, media de eşantion. Rezultă intervalul:
)n
zx,n
zx( 2/2/
Interpretare
Cu o probabilitate )1( , parametru medie „este acoperit” de intervalul
)n
zx,n
zx( 2/2/
Observaţie
Dacă se modifică nivelul de încredere se modifică şi mărimea intervalului (se modifică
valoarea 2/z ).
Mărimea intervalului de încredere depinde de două componente: 2/z , care depinde de
probabilitatea cu care estimăm şi n
, care este abaterea standard a estimatorului şi depinde de
gradul de omogenitate al populaţiei şi mărimea eşantionului.
Această mărime a intervalului se numeşte eroare maxim admisibilă: n
z 2/
.
Exemplu
Pentru a estima profitul mediu (milioane lei) obţinut de firmele mici şi mijlocii dintr-un
judeţ în anul 2012, s-a extras aleatoriu un eşantion de 75 de firme, pentru care s-au înregistrat
profiturile anuale. La nivelul eşantionului s-a obţinut lei.mil5.7x , iar dintr-o cercetare locală
anterioară se cunoaşte că .lei.mil3.1 Pentru un risc asumat de 5%, să se estimeze prin
interval de încredere profitul mediu obţinut de firmele mici şi mijlocii în 2012.
Rezolvare
Intervalul de încredere este definit prin:
)n
zx,n
zx( 2/2/
.
Pentru un risc de 5% (sau α = 0,05), din tabelul Laplace se citeşte valoarea zα/2=1,96,
corespunzătoare lui 475.02
05.01
2
)1()z( 2/
. Prin urmare, limitele intervalului de
încredere se calculează astfel:
)75
3.196.15.7,
75
3.196.15.7( = 79.7,21.7)29.05.7,29.05.7( milioane lei.
111
Interpretare: Cu o încredere de 95% se poate afirma că profitul mediu obţinut de firmele
mici şi mijlocii în 2012 este acoperit de intervalul (7.21, 7.79) milioane lei.
b. Nu se cunoaşte parametrul
În acest caz, se utilizează estimatorul '̂ pentru parametrul abatere standard, iar variabila
Z devine o variabilă student: )1n(t~
n
'ˆ
ˆt
.
Pentru un nivel de încredere )1( , se utilizează proprietăţile repartiţiei Student şi se
obţine:
)1()ttt(P 2/2/ , iar valoarea 2/t se citeşte din tabelul Student pentru
2/)tt(P 2/ .
Rezultă intervalul de încredere: n
'ˆtˆL,
n
'ˆtˆL 2/s2/i
.
Pentru un eşantion extras, se obţine intervalul calculat:
)n
'stx,
n
'stx( 2/2/
Exemplu
Din totalul judeţelor României a fost extras aleatoriu un eşantion de 10 judeţe, care au fost
observate după rata şomajului (%)în anul 2011. Valorile înregistrate sunt: 5.9, 8.4, 7.4, 7.1, 6.1,
6.4, 8.8, 8, 7.8, 7. La nivelul eşantionului s-au obţinut %29.7x şi %97.0's . Să se estimeze
prin interval de încredere rata medie a şomajului la nivelul României, pentru un risc asumat de
5%.
Rezolvare
Intervalul de încredere este definit prin:
)n
'stx,
n
'stx( 2/2/ .
Pentru un risc de 5%, din tabelul Student se citeşte valoarea tα/2,n-1= t0.025,9=2,262. Prin
urmare, limitele intervalului de încredere se calculează astfel:
)10
97.0262.229.7,
10
97.0262.229.7( = 98.7,6.6)69.029.7,69.029.7( %.
Folosind programul SPSS se obţin, în urma estimării, rezultatele prezentate în tabelul de
mai jos.
Tabelul 6.1 Estimarea punctuală şi prin interval de încredere a mediei populaţiei
Descriptives
7.2900 .30820
6.5928
7.9872
Mean
Lower Bound
Upper Bound
95% Confidence
Interval for Mean
Rata somajului
Statistic Std. Error
Mean reprezintă media aritmetică calculată la nivelul eşantionului, şi este de 7.29%.
112
Cele două limite ale intervalului de încredere sunt Lower Bound (Limita inferioară), egală
cu 6.59 6.6, şi Upper Bound (Limita superioară), egală cu 7.98.
Interpretare: Cu o încredere de 95% se poate afirma că rata medie a şomajuluila nivelul
României în 2012 este acoperită de intervalul (6.6, 7.98)%.
2. Estimarea prin interval de încredere a proporţiei
Şi în acest caz există 2 situaţii.
a. Se cunoaşte dispersia variabilei alternative 2
Intervalul este de forma n
zˆL,n
zˆL 2/s2/i
, iar intervalul calculat este:
n
zw,n
zw 2/2/
Exemplu
În urma realizării unui sondaj la nivelul firmelor dintr-un judeţ s-a înregistrat, pentru un
eşantion de 88 de firme, dacă acestea au facut sponsorizări în anul trecut. La nivelul eşantionului
s-a obţinut că proporţia firmelor care au facut sponsorizări este de 31%. Dintr-o cercetare
anterioară se cunoaşte că σπ = 2.4%. Pentru α = 0,05, să se estimeze, prin interval de încredere,
proporţia firmelor care au acordat sponsorizări anul trecut, la nivelul întregii populaţii.
Rezolvare
Intervalul de încredere este definit prin:
)n
zw,n
zw( 2/2/
.
Pentru un risc de 5%, din tabelul Laplace se citeşte valoarea zα/2=1,96. Prin urmare,
limitele intervalului de încredere se calculează astfel:
)88
024.096.131.0,
88
024.096.131.0( = 313.0,307.0)003.031.0,003.031.0( .
Interpretare: Cu o încredere de 95% se poate afirma că proporţia firmelor care au acordat
sponsorizări anul trecut este acoperită de intervalul (0.307, 0.313) sau (30.7, 31.3)%.
b. Nu se cunoaşte dispersia variabilei alternative 2
Intervalul este de forma n
'ˆtˆL,
n
'ˆtˆL 2/s2/i
, unde )ˆ1(ˆ'ˆ
iar intervalul calculat este: n
stw,
n
stw
'
2/
'
2/
, unde )w1(w's
Exemplu
În urma realizării unui sondaj la nivelul unui eşantion format din 1000 locuitori ai unei
localităţi, la întrebarea „Aţi vizionat cel puţin un spectacol de teatru în ultima lună?”, 26% dintre
persoane au răspuns afirmativ. Pentru α = 0,05, să se estimeze pri interval de încredere proporţia
persoanelor care răspuns afirmativ la întrebare, la nivelul întregii populaţii.
113
Rezolvare
Intervalul de încredere este definit prin:
. n
stw,
n
stw
'
2/
'
2/
Pentru un risc de 5%, din tabelul Student se citeşte valoarea tα/2,n-1= t0.025,999=1,96.
Dispersia corectată, la nivelul eşantionului, este:
43.0)26.01(26.0)w1(w's
Prin urmare, limitele intervalului de încredere se calculează astfel:
)1000
43.096.126.0,
1000
43.096.126.0( = 28.0,24.0)02.026.0,02.026.0( .
Interpretare: Cu o încredere de 95% se poate afirma că proporţia persoanelor care au
vizionat cel puţin un spectacol de teatu luna trecută este acoperită de intervalul (0.24, 0.28) sau
(24, 28)%.
c. Estimarea volumului eşantionului
În cazul unui sondaj de opinie electoral, se utilizează ca variabilă de bază o variabilă
alternativă
1
10:X , iar parametrul este proporţia de voturi pentru un candidat.
În practică, de regulă se fixează probabilitatea sau nivelul de încredere cu care dorim să
garantăm rezultatul (de regulă la 0,95) şi eroarea maxim admisibilă (de exemplu de %3 ).
Având aceste date, se poate estima volumul eşantionului care estimează parametrul în
condiţiile stabilite.
Se utilizează relaţia erorii maxim admisibile: n
z 2/
. Din această relaţie se obţine
volumul eşantionului
2
22
2/zn
.
În relaţia de mai sus, se poate afla uşor valoarea 2/z din tabelul lui Laplace cunoscând
nivelul de încredere fixat. Parametrul 2
, care exprimă gradul de omogenitate al populaţiei, nu se
cunoaşte, însă se poate utiliza valoarea lui maximă, care este egală cu 0,25.
Exemplu
Pentru o probabilitate de 0,95 şi o eroarea maxim admisibilă de %3 , se calculează
volumul eşantionului. Ce se întâmplă dacă se utilizează o eroare de %2 ?
Rezolvare
Pentru o probabilitate de 0.95 se citeşte, tabelul Laplace, valoarea zα/2=1,96.
Pentru o eroare maximă admisibilă de %3 , volumul eşantionului este:
106766,10660009.0
25.084.3
03.0
25.096.1zn
2
2
2
22
2/
unităţi.
Pentru o eroare maximă admisibilă de %2 , volumul eşantionului este:
114
24000004.0
25.084.3
02.0
25.096.1zn
2
2
2
22
2/
unităţi.
Prin urmare, între eroarea maximă admisibilă şi volumul eşantionului există o legătură
inversă. Dacă dorim să avem o eroare maximă adminisbilă mai mică, trebuie să mărim volumul
eşantionului.
115
Teste1
1) A estima punctual înseamnă
a) a calcula o valoare la nivel de eşantion pe baza unui estimator
b) a găsi un punct cât mai aproape de parametru
c) a calcula probabilitatea cu care se obţine o estimaţie
2) Pentru un eşantion de angajaţi repartizaţi după variabila salariul anual ($) s-au obţinut
rezultatele din tabelul de mai jos.
Statistics
Current Salary
474
0
$34,000.00
$785.000
Valid
Missing
N
Mean
Std. Error of Mean
Intervalul de încredere pentru media populaţiei totale, pentru un nivel de încredere de 95% este:
a) (30000 ; 38000)
b) (32461,4 ; 35538,6)
c) (25400,5 ; 35600,5)
3) Eroarea de estimare a unei proporţii depinde de:
a) gradul de omogenitate a populaţiei
b) volumul eşantionului
c) nivelul de încredere stabilit
4) În urma unui test realizat asupra unui eşantion de 100 de studenţi, a rezultat că 65 dintre
aceştia au promovat examenul. Cu un nivel de încredere de 95% , intervalul de încredere al
proporţiei studenţilor promovaţi la nivelul populaţiei totale este:
a) (0,50; 0,75)
b) (0,64; 0,66)
c) (0,56; 0,74)
5) Într-un sondaj aleator simplu de 400 studenţi, pentru variabila nota la un test, s-a obţinut o
valoare medie de 8,25 şi o abatere standard de eşantion modificată egală cu 1,8. Intervalul de
încredere pentru parametrul medie, cu o probabilitate de 0,95, este
a) (7,5260 - 9,3424)
b) (8,1280 - 9,2020)
c) (8,0736 - 8,4264)
6) Eroarea maximă admisibilă este
a) direct proporţională cu volumul eşantionului
b) invers proporţională cu media eşantionului
c) egală cu 5%
7) Pentru a asigura condiţiile de calitate necesare estimării punctuale ale unui parametru,
estimatorul parametrului trebuie
1 Răspunsuri: 1 – a; 2 – b; 3 –a,b,c; 4- c; 5 – c, 6 – a, 7 – b.
116
a) să aibă media zero
b) să fie nedeplasat şi convergent
c) să aibă varianţă maximă
117
US 7. TESTAREA IPOTEZELOR STATISTICE
Cuprins
7.1 Etapele procesului testării statistice
7.2 Testarea ipotezelor privind un parametru
Obiective
- definirea noţiunilor
- prezentarea demersului testării statistice
- aplicarea demersului testării pentru parametrii medie, proporţie şi diferenţa a două medii
- realizarea de aplicaţii cu date reale
Competenţe
- însuşirea noţiunilor şi a demersului procedeului de testare statistică
- înţelegerea diferenţei dintre estimare şi testare
- dobândirea de abilităţi practice de utilizare a metodei testării pentru diferite situaţii reale
- însuşirea demersului testării cu ajutorul softului statistic specializat
Termen mediu: 2 h
Bibliografie
1. Andrei, T. şi Stancu, S., Statistică - teorie şi aplicaţii , Editura All, Bucureşti, 1995
2. Biji, M.; Biji, El., Statistica teoretică, Editura Didactică şi Pedagogică, Bucureşti, 1979
3. Jaba, E., Statistica, Ediţia a treia, Editura Economica, Bucureşti, 2002
4. Jemna, D.V., Econometrie, Editura Sedcom Libris, Iaşi, 2009
5. Mills, Fr.G., Statistical Methods, 3rd
ed., Henry Holt, New York, 1955.
6. Yule, U.G.; Kendall, M.C. - Introducere în teoria statisticii, Editura Ştiinţifică, Bucureşti,
1969.
7. Wonnacott, T.H., Wonnacott, R.J., Statistique, Economica, Paris, 1991.
118
Testarea ipotezelor statistice este un procedeu prin care se testează semnificaţia egalităţii
dintre valoarea unui parametru şi o valoare de referinţă sau dintre doi parametri (două medii ale
populaţiei sau două proporţii de la nivelul unor populaţii).
7.1. Etapele procesului testării statistice
Etapele procesului testării unei ipoteze statistice sunt:
1. formularea ipotezelor (ipoteza nulă şi ipoteza alternativă);
2. alegerea pragului de semnificaţie sau a limitei erorii de speţa întâi (eroarea de a respinge
ipoteza nulă în condiţiile în care aceasta este adevărată);
3. alegerea statisticii test adecvate, care, în condiţiile acceptării ipotezei nule, are o lege de
repartiţie specificată;
4. determinarea unei valori teoretice a testului, în funcţie de legea de repartiţie şi de pragul de
semnificaţie ales;
5. calcularea unei valori a statisticii test pe baza datelor de la nivelul unui eşantion;
6. aplicarea regulii de decizie de acceptare sau de respingere a ipotezei nule (care în esenţă
constă în compararea valorii calculate a testului cu cea teoretică).
1. Formularea ipotezelor
O ipoteză este o presupunere cu privire la un parametru sau la legea de distribuţie a unei
variabile. În procesul testării, se formulează două ipoteze:
Ipoteza nulă, H0 : se presupune egalitatea unui parametru cu o valoare fixă sau se face o
precizare cu privire la legea de repartiţie a unei variabile.
Ipoteza alternativă, H1: este opusul ipotezei nule.
În funcţie de modul de formulare a ipotezelor, se pot construi mai multe tipuri de teste:
Test bilateral:
Test unilateral dreapta:
Test unilateral stânga:
2. Erori de testare şi alegerea pragului de semnificaţie
Decizia testului se ia cu o anumită probabilitate de eroare, care poate fi:
eroare de tip I (eroare de primă speţă - reprezintă probabilitatea de a respinge
ipoteza nulă atunci când aceasta este adevărată)
eroare de tip II (eroare de a doua speţă)
Erorile sunt evaluate cu ajutorul a două funcţii de probabilitate.
Pragul de semnificaţie reprezintă o limită fixată a erorii de tip I. Se notează cu şi se
fixează de cercetător în procesul de testare.
3. Alegerea testului şi a statisticii
01
00
:H
:H
01
00
:H
:H
01
00
:H
:H
119
Există două categorii de teste statistice: teste parametrice şi teste neparametrice.
Testului statistic se alege în funcţie de parametrul testat, de informaţiile disponibile,
metoda de sondaj etc. În funcţie de testul ales, se precizează statistica utilizată, împreună cu
proprietăţile acesteia, în special legea de repartiţie.
4. Determinarea unei valori teoretice a statisticii test utilizate Î, această etapă a testării, se acceptă faptul că ipoteza nulă este adevărată. În aceste
condiţii, cunoscând pragul de semnificaţie şi legea de distribuţie a statisticii, se citeşte o valoare
teoretică corespunzătoare din tabelul probabilistic. Pe baza valorii (valorilor) teoretice se stabilesc
regiunile de acceptare şi respingere a ipotezei nule.
De exemplu, pentru un test student bilateral, cele două regiuni sunt la dreapta, respectiv la
stânga valorilor teoretice din tabel, conform figurii de mai jos.
Figura 26. Regiunile de respingere şi de acceptare a ipotezei H0
5. Calcularea unei valori a statisticii test
La nivelul unui eşantion, se calculează o estimaţie a statisticii test, care se numeşte
valoarea calculată a testului.
6. Regula de decizie
Regula de decizie cu privire la acceptarea sau respingerea ipotezei nule se poate lua în
două moduri:
- prin compararea valorii calculate a testului cu valoarea teoretică: se verifică poziţia valorii
calculate a testului în funcţie de una din cele două regiuni stabilite în etapa 4
- prin compararea semnificaţiei testului cu pragul de semnificaţie.
Probabilitatea calculată a primit numele de semnificaţie a testului şi este notată cu p-value sau Sig.
De exemplu, pentru un test Student, aceasta este asociată valorii calculate a testului şi este dată de
relaţia: )tt(PtSig calc . În acest caz, regula de decizie este următoarea:
- dacă Sigt , se acceptă ipoteza nulă;
- dacă Sigt , se respinge ipoteza nulă, cu probabilitatea (1-).
7.2. Testarea ipotezelor privind un parametru
Testarea ipotezelor cu privire la un parametru are ca obiectiv testarea egalităţii dintre
media unei populaţii sau proporţia la nivelul unei populaţii faţă de valori de referinţă, cunoscute.
0 1n;
2
t
1n;
2
t
120
A. Testarea mediei unei populaţii
Ca şi în cazul estimării, există două cazuri: se cunoaşte sau nu parametrul dispersie.
a. Se cunoaşte parametrul - Testul Z
1. Formularea ipotezelor
00 :H
01 :H
2. Alegerea pragului de semnificaţie
De regulă, se ia valoarea 0,05 (în SPSS, aceasta este valoarea implicită, dar poate fi
modificată de utilizator).
3. Alegerea statisticii test
n
ˆZ
4. Determinarea valorii teoretice a testului
Dacă se acceptă ipoteza nulă, statistica test este:
)1,0(N~
n
ˆZ 0
Pentru o probabilitate cunoscută , pentru repartiţia normală standard, se poate identifica
o valoare 2/z care respectă proprietatea:
)z(2)1()zZz(P 2/2/2/
Valoarea 2/z se citeşte din tabelul lui Lplace pe baza relaţiei 2
)1()z( 2/
.
HH
H
-z
1
0
1-
z
1
Z
Figura 27. Regiunea de respingere şi de acceptare a ipotezei H0
în cazul unui test Z bilateral
Observaţie
121
Reprezentarea regiunilor de respingere şi de acceptare a ipotezei H0 pentru un test
unilateral dreapta este realizată în figura de mai jos:
Figura 28. Regiunea de respingere şi de acceptare a ipotezei H0
în cazul unui test Z unilateral la dreapta
5. Determinarea valorii calculate a testului
La nivelul unui eşantion se obţine o estimaţie a statisticii test:
n
xz 0
calc
6. Luarea deciziei
Regula de decizie, pe baza valorii calculate a testului, este următoarea:
- dacă ]z,z[z22
calc , se acceptă ipoteza H0;
- dacă nu se realizează această condiţie, se respinge ipoteza nulă, cu probabilitatea (1-).
Dacă se ţine cont de semnificaţia testului, regula de decizie este următoarea:
- dacă tSig , se acceptă ipoteza nulă.
- dacă tSig , se respinge H0.
Exemplu
Din totalul firmelor mici şi mijlocii dintr-un judeţ în anul 2012, s-a extras aleatoriu un
eşantion de 75 de firme, pentru care s-au înregistrat profiturile anuale (milioane lei). La nivelul
eşantionului s-a obţinut lei.mil5.7x , iar dintr-o cercetare locală anterioară se cunoaşte că
.lei.mil3.1 Pentru un risc asumat de 5%, să se testeze dacă există diferenţe semnificative
între profitul mediu anual din 2012 şi cel din 2011, de 6.2 milioane lei.
Rezolvare
1. Formularea ipotezelor statistice
00 :H
01 :H
2. Alegerea pragului de semnificaţie a testului
.05,0
122
3. Alegerea statisticii test
Se foloseşte statistica test Z:
n
ˆZ 0
.
4. Determinarea valorii teoretice a testului
Se citeşte din tabelul Laplace pentru un risc 05,0 : .96,1z 2/
5. Determinarea valorii calculate a testului
Pe baza datelor de la nivelul eşantionului, se obţine: 66.875/3.1
2.65.7zcalculat
.
6. Luarea deciziei
Regula de decizie, pe baza valorii calculate a testului, este următoarea:
- dacă ]z,z[z22
calc , se acceptă ipoteza H0;
- dacă nu se realizează această condiţie, se respinge ipoteza nulă, cu probabilitatea (1-).
7. Interpretare
]96.1,96.1[66.8zcalculat , se respinge ipoteza Ho. Se poate garanta cu o
probabilitate de 0,95 că există diferenţe semnificative între profitul mediu anual din 2012 )( şi
profitul mediu obţinut în 2011 )( 0 .
b. Nu se cunoaşte parametrul - Testul t
În acest caz se utilizează testul Student, de forma:
n
'ˆ
ˆt
.
În condiţiile acceptării ipotezei nule, testul devine
n
'ˆ
ˆt 0
şi urmează o lege Student
cu (n-1) grade de libertate.
Pentru o probabilitate cunoscută şi pentru (n-1) grade de libertate, din tabelul Student
se citeşte o valoare 2/t care respectă proprietatea:
)1()ttt(P 2/2/ .
Valoarea calculată a testului este:
n
's
xt 0calc
.
Decizia se ia în mod analog cu situaţia testului Z.
Exemplu
Din totalul judeţelor României a fost extras aleatoriu un eşantion de 10 judeţe, care au fost
observate după rata şomajului (%) în anul 2011. Valorile înregistrate sunt: 5.9, 8.4, 7.4, 7.1, 6.1,
6.4, 8.8, 8, 7.8, 7. La nivelul eşantionului s-au obţinut %29.7x şi %97.0's . Să se testeze dacă
123
există diferenţe semnificative între rata medie a şomajului din 2011 şi rata medie a şomajului din
2010, de 7.4%, pentru un risc asumat de 5%.
Rezolvare
1. Formularea ipotezelor statistice
00 :H
01 :H
2. Alegerea pragului de semnificaţie a testului
.05,0
3. Alegerea statisticii test
Se foloseşte statistica test t:
n
'ˆ
ˆt 0
.
4. Determinarea valorii teoretice a testului
Se citeşte din tabelul Student pentru un risc 05,0 : .262.2tt 9,025.01n,2/
5. Determinarea valorii calculate a testului
Pe baza datelor obţinute la nivelul eşantionului, se obţine: 35.010/97.0
4.729.7tcalculat
.
6. Luarea deciziei
Regula de decizie, pe baza valorii calculate a testului, este următoarea:
- dacă ]t,t[t22
calc , se acceptă ipoteza H0;
- dacă nu se realizează această condiţie, se respinge ipoteza nulă, cu probabilitatea (1-).
7. Interpretare
]262.2,262.2[35.0tcalculat , se acceptă ipoteza Ho. Se poate garanta cu o
probabilitate de 0,95 că nu există diferenţe semnificative între rata medie a şomajului din 2011 la
nivelul României )( şi rata medie a şomajului din 2010 )( 0 .
Rezultatele acestei testări, obţinute cu ajutorul programului SPSS, sunt prezentate în
tabelul de mai jos.
Tabelul 7.1 Rezultatele testării unei medii cu o valoare cunoscută
One-Sample Test
-.357 9 .729 -.11000 -.8072 .5872Rata somajului
t df Sig. (2-tailed)
Mean
Difference Lower Upper
95% Confidence
Interval of the
Difference
Test Value = 7.4
124
Regula de decizie
SPSS permite luarea deciziei pe baza valorilor Sig. şi , după următoarea regulă de
decizie:
dacă tSig , atunci se respinge ipoteza H0;
dacă tSig , atunci se acceptă ipoteza H0.
Interpretare
05.0729.0.Sig , se acceptă ipoteza Ho. Se poate garanta cu o probabilitate de
95% că rata medie a şomajului în anul 2011 la nivelul României nu diferă semnificativ de rata
medie a şomajului din 2010.
B. Testarea proporţiei unei populaţii
Demersul testării este acelaşi cu al mediei li presupune cele două cazuri.
a. Se cunoaşte parametrul - Testul Z
1. Formularea ipotezelor
00 :H
01 :H
2. Alegerea pragului de semnificaţie
De regulă, se ia valoarea 0,05 (în SPSS, aceasta este valoarea implicită, dar poate fi
modificată de utilizator).
3. Alegerea statisticii test
n
ˆZ
4. Determinarea valorii teoretice a testului
Dacă se acceptă ipoteza nulă, statistica test este:
)1,0(N~
n
ˆZ 0
Pentru o probabilitate cunoscută , pentru repartiţia normală standard, se poate identifica
o valoare 2/z care respectă proprietatea:
)z(2)1()zZz(P 2/2/2/
5. Determinarea valorii calculate a testului
La nivelul unui eşantion se obţine o estimaţie a statisticii test:
n
wz 0
calc
125
6. Luarea deciziei
Regula de decizie, pe baza valorii calculate a testului, este următoarea:
- dacă ]z,z[z22
calc , se acceptă ipoteza H0;
- dacă nu se realizează această condiţie, se respinge ipoteza nulă, cu probabilitatea (1-).
Dacă se ţine cont de semnificaţia testului, regula de decizie este următoarea:
- dacă tSig , se acceptă ipoteza nulă.
- dacă tSig , se respinge H0.
Exemplu
În urma realizării unui sondaj la nivelul firmelor dintr-un judeţ s-a înregistrat, pentru un
eşantion de 88 de firme, dacă acestea au facut sponsorizări în anul 2011. La nivelul eşantionului s-
a obţinut că proporţia firmelor care au facut sponsorizări este de 31%. Dintr-o cercetare anterioară
se cunoaşte că σπ = 2.4%. Pentru α = 0,05, să se testeze dacă există diferenţe semnificative între
ponderea înregistrată în 2011 şi cea din 2010, de 28%.
Rezolvare
1. Formularea ipotezelor statistice
00 :H
01 :H
2. Alegerea pragului de semnificaţie a testului
.05,0
3. Alegerea statisticii test
Se foloseşte statistica test Z:
n
ˆZ 0
.
4. Determinarea valorii teoretice a testului
Se citeşte din tabelul Laplace pentru un risc 05,0 : .96.1z 2/
5. Determinarea valorii calculate a testului
Pe baza datelor obţinute la nivelul eşantionului, se obţine: 1288/024.0
28.031.0zcalculat
.
6. Luarea deciziei
- dacă ]z,z[z22
calc , se acceptă ipoteza H0;
- dacă nu se realizează această condiţie, se respinge ipoteza nulă, cu probabilitatea (1-).
7. Interpretare
96.1,96.112zcalculat , se respinge ipoteza Ho. Se poate garanta cu o probabilitate de
0,95 că există diferenţe semnificative între ponderea firmelor care au acordat sponsorizări în 2011
şi cea din 2010.
126
b. Nu se cunoaşte parametrul - Testul t
În acest caz se utilizează testul Student, de forma:
n
'ˆ
ˆt
.
În condiţiile acceptării ipotezei nule, testul devine
n
'ˆ
ˆt 0
şi urmează o lege Student cu
(n-1) grade de libertate.
Pentru o probabilitate cunoscută şi pentru (n-1) grade de libertate, din tabelul Student
se citeşte o valoare 2/t care respectă proprietatea:
)1()ttt(P 2/2/ .
Valoarea calculată a testului este:
n
's
wt 0
calc
, unde )w1(w's .
Decizia se ia în mod analog cu situaţia testului Z.
Exemplu
În urma realizării unui sondaj la nivelul unui eşantion format din 1000 locuitori ai unei
localităţi, la întrebarea „Aţi vizionat cel puţin un spectacol de teatru în ultima lună?”, 26% dintre
persoane au răspuns afirmativ. Pentru α = 0,05, să se testeze dacă există diferenţe semnificative
între ponderea persoanelor care au răspuns afirmativ la întrebare şi ponderea de 30%, înregistrată
la sfârşitul stagiunii trecute.
Rezolvare
1. Formularea ipotezelor statistice
00 :H
01 :H
2. Alegerea pragului de semnificaţie a testului
.05,0
3. Alegerea statisticii test
Se foloseşte statistica test t:
n
'ˆ
ˆt 0
.
4. Determinarea valorii teoretice a testului
Se citeşte din tabelul Student pentru un risc 05,0 : .96.1tt 999,025.01n,2/
5. Determinarea valorii calculate a testului
Pe baza datelor de la nivelul eşantionului, se obţine:
07.31000/26.0126.0
30.026.0tcalculat
.
127
6. Luarea deciziei
Regula de decizie, pe baza valorii calculate a testului, este următoarea:
- dacă ]t,t[t22
calc , se acceptă ipoteza H0;
- dacă nu se realizează această condiţie, se respinge ipoteza nulă, cu probabilitatea (1-).
7. Interpretare
]96.1,96.1[07.3tcalculat , se respinge ipoteza Ho. Se poate garanta cu o
probabilitate de 0,95 că există diferenţe semnificative între ponderea persoanelor care au răspuns
afirmativ la întrebare şi ponderea înregistrată la sfârşitul stagiunii trecute.
C. Testarea egalităţii a două medii
Testarea diferenţei a două medii urmează aceeaşi logică cu testarea unei medii, deoarece
diferenţa a doi parametri poate fi tratată ca un singur parametru.
Ipotezele formulate în acest caz sunt:
211
210
:H
:H
sau
0:H
0:H
211
210
În funcţie de informaţia disponibilă cu privire la parametrii 2
1 şi 2
2 , se pot identifica
patru situaţii.
a. Dispersiile sunt diferite şi sunt cunoscute
În acest caz, se utilizează un test Z de form1a:
2
2
2
1
2
1
2121
nn
)()ˆˆ(Z
.
Valoarea calculată a testului este:
2
2
2
1
2
1
21calc
nn
xxZ
.
Exemplu
Din totalul studenţilor anului II din două centre universitare, A şi B, s-au extras două eşantioane,
de volume n1 = 80 studenţi şi n2 = 100 studenţi. Studenţii au fost observaţi după media anului I de
studii, şi s-au obţinut rezultatele: 2.8x1 puncte şi 9.7x2 puncte. Se cunoaşte că 7.12
1 şi
2.12
2 . Pentru un risc asumat 05,0 , să se testeze dacă există diferenţe semnificative între
mediile obţinute la nivelul tuturor studenţilor din cele două centre universitare.
Rezolvare
1. Formularea ipotezelor statistice
211
210
:H
:H
2. Alegerea pragului de semnificaţie a testului
128
.05,0
3. Alegerea statisticii test
Se foloseşte statistica test Z:
2
2
2
1
2
1
2121
nn
)()ˆˆ(Z
.
4. Determinarea valorii teoretice a testului
Se citeşte din tabelul Laplace pentru un risc 05,0 : .96.1z 2/
5. Determinarea valorii calculate a testului
Pe baza datelor de la nivelul eşantionului, se obţine: 66.1
100
2.1
80
7.1
9.72.8zcalculat
.
6. Luarea deciziei
- dacă 2
calc zz , se acceptă ipoteza H0;
- dacă 2
calc zz , se respinge ipoteza H0, cu probabilitatea (1-).
7. Interpretare
96.1z66.1z 2/calc , se acceptă ipoteza Ho. Se poate garanta cu o probabilitate de
0,95 că nu există diferenţe semnificative între mediile anuale ale studenţilor din cele două centre
universitare.
b. Dispersiile sunt diferite şi nu se cunosc
În acest caz, se utilizează un test Student de forma:
2
2
2
1
2
1
2121
n
'ˆ
n
'ˆ
)()ˆˆ(t
.
Valoarea calculată a testului este:
2
2
2
1
2
1
21calc
n
's
n
's
xxt
.
Exemplu
Pentru a analiza preţurile practicate de un producător de ciment şi de principalul său
competitor, din totalul punctelor de vânzare ale celor două companii au fost extrase două
eşantioane de volume n1 = 20 puncte de vânzare şi n2 = 17 puncte de vânzare. S-au înregistrat
preţurile la ciment (lei) din punctele de vânzare şi s-au obţinut, la nivelul eşantioanelor, 28x1
lei, 33x2 lei, 3's 2
1 şi 7's 2
2 . Să se testeze dacă există diferenţe semnificative între preţurile
medii practicate de cei doi producători, la nivelul tuturor punctelor de vânzare. Se consideră
.05,0
Rezolvare
1. Formularea ipotezelor statistice
129
211
210
:H
:H
2. Alegerea pragului de semnificaţie a testului
.05,0
3. Alegerea statisticii test
Se foloseşte statistica test t:
2
2
2
1
2
1
2121
n
'ˆ
n
'ˆ
)()ˆˆ(t
.
4. Determinarea valorii teoretice a testului
Se citeşte din tabelul Student pentru un risc 05,0 : 96.1tt 35,025.02nn,2/ 21 .
5. Determinarea valorii calculate a testului
Pe baza datelor de la nivelul eşantionului, se obţine: 67.6
17
7
20
3
3328tcalculat
.
6. Luarea deciziei
- dacă 2
calc tt , se acceptă ipoteza H0;
- dacă 2
calc tt , se respinge ipoteza H0, cu probabilitatea (1-).
7. Interpretare
96.1t67.6t 2/calc , se respinge ipoteza Ho. Se poate garanta cu o probabilitate de
0,95 că există diferenţe semnificative între preţurile medii practicate de cei doi producători de
ciment.
c. Dispersiile sunt egale şi se cunosc
În acest caz, se utilizează un test Z de forma:
21
2121
n
1
n
1
)()ˆˆ(Z
Valoarea calculată a testului este:
21
21calc
n
1
n
1
xxZ
.
d. Dispersiile sunt egale şi nu se cunosc
În acest caz, se utilizează un test Student de forma:
21
2121
n
1
n
1'ˆ
)()ˆˆ(t
, unde
130
2nn
'ˆ)1n('ˆ)1n('ˆ
21
2
22
2
112
.
Valoarea calculată a testului este:
21
21calc
n
1
n
1's
xxt
, unde
2nn
's)1n('s)1n('s
21
2
22
2
112
.
Exemplu
Pentru a analiza veniturile persoanelor dintr-o regiune pe sexe, din populaţia regiunii s-au
extras, din fiecare gen, două eşantioane, de volume n1 = 850 persoane de sex feminin şi n2 = 750
persoane de sex masculin. S-au înregistrat veniturile anuale ale persoanelor ( mii lei) şi s-au
obţinut, la nivelul eşantioanelor, 18x1 mii lei, 27x2 mii lei. Se cunoaşte că 7.4's's 2
2
2
1 .
Să se testeze dacă există diferenţe semnificative între veniturile persoanelor pe sexe, la nivelul
întregii regiuni. Se consideră .05,0
Rezolvare
1. Formularea ipotezelor statistice
211
210
:H
:H
2. Alegerea pragului de semnificaţie a testului
.05,0
3. Alegera statisticii test
Se foloseşte statistica test t:
21
2121
n
1
n
1'ˆ
)()ˆˆ(t
.
4. Determinarea valorii teoretice a testului
Se citeşte din tabelul Student pentru un risc 05,0 : 96.1tt 1598,025.02nn,2/ 21 .
5. Determinarea valorii calculate a testului
Pe baza datelor de la nivelul eşantionului, se obţine:
7.41598
7.47497.4849
2nn
's)1n('s)1n('s
21
2
22
2
112
13.39
750
1
850
17.4
2718tcalculat
.
6. Luarea deciziei
- dacă 2
calc tt , se acceptă ipoteza H0;
- dacă 2
calc tt , se respinge ipoteza H0, cu probabilitatea (1-).
131
7. Interpretare
96.1t13.39t 2/calc , se respinge ipoteza Ho. Se poate garanta cu o probabilitate de
0,95 că există diferenţe semnificative între veniturile persoanelor pe sexe, la nivelul regiunii.
132
Teste1
1) Pentru un eşantion de 100 salariaţi repartizaţi după nivelul venitului lunar, s-au obţinut
rezultatele: lei300's;lei1500x . Cu un risc de 5%, se consideră că între venitul mediu al
salariaţilor populaţiei totale şi nivelul mediu de referinţă lei18000 :
a) nu există diferenţe semnificative
b) există diferenţe semnificative
c) nu există nici o legătură
2) Pentru un eşantion de angajaţi repartizaţi după variabila salariul anual ($) s-au obţinut
rezultatele din tabelul de mai jos.
Statistics
Current Salary
474
0
$34,000.00
$785.000
Valid
Missing
N
Mean
Std. Error of Mean
Pentru un nivel de încredere de 95%, valoarea calculată a testului şi decizia de a accepta ipoteza
că salariul mediu a unui angajat nu diferă semnificativ de 33000$ sunt:
a) tcalc =1,27 şi se acceptă ipoteza nulă
b) tcalc =1,27 şi se respinge ipoteza nulă, cu o încredere de 95%
c) tcalc =2,27 şi se respinge ipoteza nulă, cu o încredere de 95%
3)Decizia de a accepta sau a respinge o ipoteză nulă se ia prin compararea:
a) valorii calculate a testului cu o valoare teoretică a acestuia
b) estimaţiei cu parametrul
c) erorii limită cu pragul de semnificaţie
4) Într-un test statistic se acceptă ipoteza nulă dacă:
a) tcalc = tα
b) tcalc>tα
c) tcalc aparţine intervalului (-tα/2 ; tα/2)
5) Într-un sondaj electoral, un candidat a obţinut un procent de voturi estimat egal cu 52%. Ştiind
că volumul eşantionului este de 400 persoane, iar probabilitatea este de 0,95, atunci candidatul
a) câştigă
b) pierde
c) nu se poate decide
6) Testarea este un procedeu statistic care presupune
a) verificarea semnificaţiei diferenţelor dintre parametri
b) aflarea unei valori posibile a unui parametru
c) calcularea erorii maxime admisibile
1 Răspunsuri: 1 –b; 2 – a; 3 – a,b; 4 – c; 5 – b; 6 – a, 7 – c.