Bazele Statisticii Bb

1

UNIVERSITATEA „ALEXANDRU IOAN CUZA” IAŞI

FACULTATEA DE ECONOMIE ŞI ADMINISTRAREA

AFACERILOR

CARMEN PINTILESCU

DĂNUŢ JEMNA

DANIELAVIORICĂ

VIORICA CHIRILĂ

BAZELE STATISTICII

Suport de curs – I.D.

- 2013 – 2014 -

3

CUPRINS

Introducere ...................................................................................................... ... 2

Partea întâi – Metode de analiză statistică descriptivă

US1 Noţiuni Fundamentale ............................................................................ ... 4

1.1 Date statistice 5

1.2 Variabile statistice 5

1.3 Unităţi statistice 8

1.4 Distribuţii statistice 8

US2 Analiza unei serii statistice discrete .................................. ..................... ... 15

2.1 Analiza grafică 16

2.2 Analiza numerică. Indicatori ai statisticii descriptive 25

2.3 Aplicaţie în SPSS 62

US3 Analiza unei serii statistice continue ..................................................... ... 67


3.2 Analiza numerică. Indicatori ai statisticii descriptive 71


US4 Analiza unei serii statistice calitative .................................................... ... 87


4.2 Analiza numerică 88


Partea a doua – Metode de analiză statistică inferenţială

US5 Noţiuni fundamentale ............................................................................. ... 93

5.1 Probabilităţi. Variabile aleatoare. Distribuţii probabiliste 94

5.2 Selecţie. Eşantion. Variabile aleatoare de selecţie 100

5.2 Parametri,estimatori, estimaţii. Distribuţii de selecţie ............. 101

5.3 Statistici frecvent utilizate în cercetările prin sondaj 102

US6 Estimarea parametrilor unei populaţii ................................................. ... 107

6.1 Estimarea punctuală 108

6.2 Estimarea prin interval de încredere 109

US7 Testarea ipotezelor statistice .................................................................. ... 117

7.1 Etapele procesului testării statistice 118

7.2 Testarea ipotezelor privind un parametru 119

Anexe ............................................................................................................... ... 133

Bibliografie ..................................................................................................... ... 135

4

PARTEA ÎNTÂI – METODE DE ANALIZĂ STATISTICĂ DESCRIPTIVĂ

US 1. NOŢIUNI FUNDAMENTALE

Cuprins

1.1 Date statistice

1.2 Variabile statistice

1.3 Unităţi statistice

1.4 Distribuţii statistice

Obiective

- definirea conceptelor fundamentale specifice statisticii;

- prezentarea de exemple pentru fiecare concept;

- familiarizarea studenţilor cu sursele de date statistice oficiale.

Competenţe

- însuşirea noţiunilor fundamentale necesare utilizării metodelor statistice de prelucrare a datelor;

- înţelegerea diferenţei dintre metodele descriptive şi cele inferenţiale;

- dobândirea competenţelor practice de accesare şi interogare a bazelor de date statistice oficiale.

Termen mediu: 2 h

Bibliografie

1. Andrei, T. şi Stancu, S., Statistică - teorie şi aplicaţii , Editura All, Bucureşti, 1995

2. Jaba, E., Statistica, Ediţia a treia, Editura Economica, Bucureşti, 2002

3. McNabb, D., Research methods in public administration and nonprofit management:

quantitative and qualitative approaches, Armonk, M.E. Sharpe, 2002

4. Mcneill, P., Research methods, London, Routledge, 2005

5. Rosental, C. and C. Frémontier-Murphy, Introduction aux méthodes quantitatives en sciences

humaines et sociales, Paris, Dunod, 2001

6. Wonnacott, T.H., Wonnacott, R.J., Statistique, Economica, Paris, 1991.

5

Cursul de Bazele statisticii impune studiul unor noţiuni fundamentale, cum ar fi: datele

statistice, variabilele statistice, distribuţiile statistice.

1.1. Date statistice. Metode statistice

În sensul cel mai larg, datele statistice reprezintă rezultatul activităţii desfăşurate de

instituţia de statistică, cercetători sau de firme specializate care îşi publică rezultatele în rapoarte

sau lucrări de cercetare, care apoi sunt diseminate publicuui interesat. Asemenea rezultate apar în

tabele sau sub formă grafică, pot lua o formă numerică sau nenumerică. În sens restrâns, datele

statistice se referă strict la procesul de măsurare a realităţii economice şi sociale. Procesul de

sintetizare, prelucrare şi analiză se traduce apoi în rezultate sintetice, în informaţii care au deja un

conţinut cognitiv datorat interpretării şi corelării rezultatelor.

Specificul datelor statistice este acela că ele se referă la populaţii statistice, adică la

colectivităţi reale de unităţi bine delimitate formate din obiecte, persoane, fapte, evenimente,

procese din lumea reală. Acestea se obţin ca urmare a unui proces de observare directă, adică se

obţin prin măsurarea realităţii acolo unde ea se manifestă. În general, populaţiile statistice respectă

o condiţie de volum adică sunt “suficient de numeroase”, pentru a respecta o serie de legi ale

statisticii, astfel încât rezultatele să fie consistente.

Pentru explorarea tipurilor de date statistice oferite de sursele oficiale, studenţii vor

parcurge paginile Institutului Naţional de Statistică (www.insse.ro) şi ale EUROSTAT

(www.ec.europa.eu/eurostat).

Metodele statistice de prelucrare a datelor sunt metode de cercetare care au la bază datele

statistice. Este vorba despre un set de instrumente care permit “exploatarea” datelor statistice

pentru a obţine o informaţie sub forma indicatorilor statistici sau a unor rezultate mai elaborate

cum ar fi estimaţiile sau modelele care explică dependenţa dintre fenomene.

La nivelul acestui curs, studenţii sunt introduşi în cunoaşterea şi aplicarea a două categorii

de metode statistice de bază: metode statistice descriptive şi inferenţiale.

Metodele descriptive se referă la obţinerea informaţiei cantitative cu ajutorul unor

indicatori statistici care sintetizează informaţia de la nivelul tuturor unităţilor statistice analizate.

Această informaţie se referă la întreaga populaţie sau colectivitate analizată şi se prezintă sub

formă grafică, tabelară şi a indicatorilor descriptivi.

Metodele inferenţiale au la bază ideea culegerii datelor, a prelucrării şi analizei acestora de

la nivelul unui eşantion reprezentativ extras din populaţiie după un procedeu ştiinţific

corespunzător. Rezultatele obţinute la nivelul eşantionului sunt apoi extrapolate la nivelul

populaţiei totale, în condiţii de calitate specificate. Obiectivul principal al accestor metode este

estimarea unor parametri şi testarea unor ipoteze care privesc realitatea analizată.

1.2. Variabile statistice

1.2.1. Definiţie şi notaţii

Variabila statistică este o caracteristică, o însuşire a unor unităţi statistice, care

înregistrează o anumită valoare, pentru fiecare unitate statistică observată.

Exemple

- dacă se consideră ansamblul firmelor din judeţul Iaşi care desfăşoară activitate de

producţie, variabilele statistice care pot reprezenta un interes pentru cercetarea statistică sunt:

valoarea vânzărilor, numărul de salariaţi, cifra de afaceri, mărimea firmei etc.

http://www.insse.ro/

http://www.ec.europa.eu/eurostat

6

- dacă se consideră ansamblul studenţilor unei serii, variabilele statistice care pot fi supuse

analizei statistice sunt: vârsta studenţilor, sexul persoanei, nota obţinută la un examen, etc.

O variabilă statistică este notată cu X. Valorile sau variantele variabilei X se notează cu xi.

Din punct de vedere formal, avem: m,1icu),x(:X i .

1.2.2. Clasificarea variabilelor statistice

Variabilele statistice pot fi clasificate după mai multe criterii:

1. După modul de exprimare, distingem:

- variabile cantitative sau numerice sunt acele variabile pentru care valorile sunt

exprimate numeric.

Exemple: vârsta persoanelor, câştigul salarial, înălţimea etc.

- variabile calitative, nenumerice sau categoriale sunt acele variabile pentru care

valorile sunt exprimate prin cuvinte.

Exemple: sexul persoanei (masculin şi feminin), starea civilă (celibatar, căsătorit, văduv,

divorţat), mediul de rezidenţă (urban, rural) etc.

Pentru analiza statistică, valorilor variabilei categoriale li se atribuie un cod numeric.

Variabilele calitative pot fi nominale sau ordinale.

Variabilele nominale sunt acele variabile pentru care ordinea acordării codurilor nu are un

sens.

Exemple: pentru variabila X: Sexul persoanei, se pot acorda codurile 1 pentru varianta

Masculin şi 2 pentru varianta Feminin, fără să se poată stabili o relaţie de ordine între aceste două

valori.

Un caz particular al variabilelor nominale este reprezentat de variabilele alternative sau

dummy. În acest caz, valorile acordate categoriilor acestor variabile sunt, de regulă, 1 (pentru

unităţile care posedă o anumită caracteristică) şi 0 (pentru celelalte unităţi statistice).

De exemplu, într-un studiu cu privire la nivelul de dezvoltare economică a ţărilor Uniunii

Europene (UE), apreciat prin PIB/locuitor, se poatre crea o variabilă dummy cu două valori: 1-

pentru ţările UE care erau înainte de extinderea Uniunii în Europa Centrală şi de Est, şi 0 pentru

celelalte ţări. Analiza statistică poate, în acest caz, evidenţia diferenţele de dezvoltare economică

existente între aceste două grupe de ţări.

Variabilele ordinale sunt acele variabile în care există o relaţie de ordine între unităţile din

categoriile variabilei. Ordinea acordării codurilor diferitelor categorii ale variabilei X are, în acest

caz, un sens.

Exemple: pentru variabila X: Preferinţa pentru un produs, cu variantele Foarte bun, Bun,

Nici bun-nici rău, Foarte rău, Rău, ordinea acordării codurilor are un sens. Valorile variabilei X

sunt 1- Foarte bun, 2- Bun, 3- Nici bun-nici rău, 4 - Foarte rău, 5-Rău.

2. După modul de manifestare a variaţiei lor, distingem:

- variabile discrete sunt acele variabile care nu pot lua decât valori finite din domeniul

de valori al variabilei.

Exemple: variabilele Numărul de angajaţi, Numărul de şomeri, Numărul de copii pe

familie etc.

- variabile continue sunt acele variabile care pot lua o infinitate de valori din domeniul

de valori al variabilei.

7

Exemple: variabilele Înălţimea, Greutatea, Viteza etc.

1.2.3. Scale de măsură

În vederea măsurării unei variabile pentru o unitate statistică, valorilor unei variabile li se

atribuie coduri sau numere. Scala este reprezentată de aceste coduri sau numere atribuite valorilor

variabilei X.

În statistică se folosesc patru tipuri de scale:

a) scale pentru măsurarea variabilelor calitative: scala nominală şi scala ordinală;

b) scale pentru măsurarea variabilelor cantitative: scala interval şi scala raport.

a) Scale pentru măsurarea variabilelor calitative

Scala nominală este o scală care presupune atribuirea de coduri variantelor unei variabile

calitative nominale. Aceste coduri nu au decât rolul de a realiza o separare a unităţilor statistice pe

clase sau grupe. Ordinea acordării acestor coduri nu are un sens. Pe această scală de măsurare, nu

este posibilă realizarea operaţiilor de adunare, scădere etc.

Exemplu

- pentru variabila Sexul persoanei, codurile care se atribuie valorilor acestei variabile

sunt, de exemplu, 1 - pentru unităţile statistice de sex masculin, 2- pentru unităţile

statistice de sex feminin. Ordinea acordării acestor coduri nu are un sens, ceea ce

înseamnă că se poate atribui codul 1 - pentru unităţile statistice de sex feminin şi codul

2- pentru unităţile statistice de sex masculin. Pentru această variabilă statistică,

singurele operaţii care pot fi realizate privesc doar frecvenţele sau numărul de unităţi

statistice. De exemplu, poate fi identificată categoria care are frecvenţa cea mai mare,

însă nu poate fi calculată media aritmetică, deoarece valorile codurilor sunt arbitrare.

Scala ordinală este o scală care presupune atribuirea de coduri variantelor unei variabile

calitative ordinale. Scala ordinală introduce relaţia de ordine între valorile acestor coduri. Pe

această scală de măsurare, este posibilă realizarea operaţiilor specifice variabilelor nominale, dar

şi a operaţiilor care au la bază relaţia de ordine.

Exemplu

- pentru variabila Nivelul de educaţie cu variantele Studii primare, Studii gimnaziale,

Studii liceale, Studii superioare, codurile care se atribuie valorilor acestei variabile

sunt, de exemplu, 1 - Studii primare, 2 - Studii gimnaziale, 3 - Studii liceale, 4 - Studii

superioare. Ordinea acordării acestor coduri are, în acest caz, un sens. Pentru această

variabilă statistică, poate fi identificată categoria care are frecvenţa cea mai mare, dar

şi numărul de unităţi care au studii primare, gimnaziale şi liceale.

b) Scale pentru măsurarea variabilelor cantitative

Scala interval este o scală care se foloseşte pentru o variabilă cantitativă. Diferenţa dintre

două valori are, în acest caz, un sens. Scala interval se caracterizează printr-o valoare zero, fixată,

însă, arbitrar: valoarea zero nu arată absenţa unui fenomen, ci doar trecerea de la o stare la alte.

De aceea, raportul dintre două valori nu are sens în cazul scalei interval.

Exemplu

8

Dacă se consideră temperatura exprimată în grade Celsius, diferenţa dintre valorile 200 şi

100 are aceeaşi semnificaţie ca diferenţa dintre valorile 30

0 şi 20

0. Temperatura de 20

0 de grade,

de exemplu, nu arată însă faptul că aceasta este o temperatură de două ori mai mare decât

temperatura de 100. De aceea, raportul dintre două valori în cazul scalei interval nu are sens.

Scala raport este folosită pentru variabilele numerice şi are ca proprietate faptul că

posedă un zero absolut. Valoarea zero arată, în acest caz, absenţa unui fenomen. În cazul acestei

scale sunt posibile toate operaţiile aritmetice.

Exemplu

Dacă se consideră greutatea unor persoane, diferenţa şi raportul dintre două valori au un

sens. O greutate de 50 kg este de două ori mai mare decât greutatea de 25 de kg. Valoarea zero

arată absenţa greutăţii pentru unitatea respectivă.

1.3. Unităţi statistice

Unităţile statistice sunt elementele componente ale unei populaţii statistice sau ale unui

eşantion. Suma unităţilor statistice formează volumul populaţiei, notat cu N, sau a eşantionului,

notat cu n.

1.4. Distribuţii statistice

Plecând de la un şir de valori ale unei variabile X înregistrate pentru un ansamblu format

din n unităţi, se poate realiza o grupare a acestor valori, prin construirea unei distribuţii de

frecvenţă.

O distribuţie sau o serie statistică presupune ordonarea valorilor variabilei X şi

determinarea frecvenţei de apariţie, a numărului de unităţi pentru fiecare valoare xi a variabilei.

Frecvenţa de apariţie este notată cu ni.

1.4.1. Distribuţii statistice pentru variabile cantitative discrete

Distribuţia statistică pentru o variabilă discretă presupune realizarea unei grupări a

valorilor variabilei X pe variante de variaţie şi determinarea frecvenţei de apariţie a fiecărei

variante xi. Forma de prezentare a unei distribuţii statistice pentru o variabilă discretă este

prezentată în tabelul de mai jos:

Tabelul 1.1. Forma generală a unei distribuţii

pentru o variabilă discretă

xi ni

x1 n1

x2 n2

xi ni

xm nm

TOTAL i

inn

Exemplu

Pentru cele 42 judeţe ale României (inclusiv municipiul Bucureşti), rata şomajului este

prezentată în tabelul de mai jos. Se cere să se formeze distribuţia de frecvenţă.

9

Tabelul 1.2. Rata şomajului în judeţele României, în anul 2010 Judeţul Rata şomajului

(%)

Judeţul Rata şomajului

(%)

Judeţul Rata şomajului

(%)

Alba 10,0 Constanţa 5,8 Mureş 8,0

Arad 5,2 Covasna 10,0 Neamţ 7,7

Argeş 7,6 Dâmboviţa 8,5 Olt 8,2

Bacău 7,8 Dolj 9,8 Prahova 8,6

Bihor 5,9 Galaţi 10,4 Satu-Mare 6,1

Bistriţa-Năsăud 6,4 Giurgiu 8,4 Sălaj 8,4

Botoşani 6,4 Gorj 10,1 Sibiu 5,8

Braşov 7,2 Harghita 8,8 Suceava 7,3

Brăila 8,7 Hunedoara 8,5 Teleorman 10,9

Municipiul

Bucureşti 2,3 Ialomiţa 9,9 Timiş 3,7

Buzău 9,7 Iaşi 7,0 Tulcea 8,1

Caraş-Severin 9,0 Ilfov 2,7 Vâlcea 7,7

Călăraşi 8,8 Maramureş 6,0 Vaslui 11,8

Cluj 4,9 Mehedinţi 10,5 Vrancea 7,4

Sursa: Anuarul Statistic al României, anul 2011, www.insse.ro, accesat pe 1 noiembrie 2012.

Rezolvare

Variabila statistică X este reprezentată de Rata şomajului, iar variantele variabilei X sunt

valorile xi prezentate în tabelul 1.2.

Pentru formarea distribuţiei de frecvenţă, se ordonează valorile variabilei X în sens

crescător şi se determină frecvenţa de apariţie (numărul de judeţe care înregistrează aceeaşi

valoare a ratei şomajului), ni, a fiecărei variante xi. Rezultatele sunt prezentate în tabelul de mai

jos:


10

Tabelul 1.3. Distribuţia judeţelor României după rata şomajului în anul 2010

Rata şomajului

xi

Frecvenţa de apariţie

ni

2,3 1

2,7 1

3,7 1

4,9 1

5,2 1

5,8 2

5,9 1

6,0 1

6,1 1

6,4 2

7,0 1

7,2 1

7,3 1

7,4 1

7,6 1

7,7 2

7,8 1

8,0 1

8,1 1

8,2 1

8,4 2

8,5 2

8,6 1

8,7 1

8,8 2

9,0 1

9,7 1

9,8 1

9,9 1

10,0 2

10,1 1

10,4 1

10,5 1

10,9 1

11,8 1

TOTAL 42

1.4.2. Distribuţii statistice pentru variabile cantitative continue

Pentru construirea unei distribuţii statistice după o variabilă continuă, de regulă, se

definesc intervale de variaţie (xi-1, xi). Considerând cazul intervalelor egale de variaţie, pentru

formarea distribuţiei de frecvenţă se parcurg următoarele etape:

se calculează mărimea intervalelor de grupare, după relaţia:

11

k

xx

k

Al minmax , unde:

A este amplitudinea de variaţie a variabilei X, adică diferenţa dintre nivelul maxim şi

nivelul minim al variabilei: A=xmax-xmin;

k este numărul de grupe în care se grupează datele.

Dacă se obţine un număr zecimal, mărimea intervalului de grupare se rotunjeşte

întotdeauna în plus.

se formează intervalele de grupare;

se determină frecvenţa de apariţie, ni, corespunzătoare fiecărui interval de variaţie.

Forma de prezentare a unei distribuţii statistice pentru o variabilă continuă este realizată în

tabelul de mai jos:


pentru o variabilă continuă

xi-1-xi ni

xo-x1 n1

x1-x2 n2

xi-1-xi ni

xm-1-xm nm

TOTAL i

inn

Observaţie

În cazul variabilelor discrete care prezintă un număr mare de valori, pentru o prezentare

sintetică a distribuţiei unităţilor statistice, se realizează, de regulă, gruparea acestora pe intervale

de variaţie.

Exemplu

În tabelul 1.2. este prezentată distribuţia de frecvenţă a judeţelor României după rata

şomajului înregistrată în anul 2010. Se cere să se formeze distribuţia de frecvenţă pe intervale de

variaţie egale, considerând 5 intervale de grupare.

Rezolvare

Variabila statistică X este reprezentată de Rata şomajului.

Pentru formarea distribuţiei de frecvenţă pe intervale de variaţie egale, se parcurg

următoarele etape:

se calculează mărimea intervalelor de grupare, după relaţia:

11 8 2 31 9

5

max minx xA , ,l ,

k k

. Mărimea intervalelor de variaţie este 1 9 2l , .

se formează intervalele de grupare. Primul interval de variaţie este intervalul (2-4), al

doilea interval este (4-6), etc.

se determină frecvenţa de apariţie corespunzătoare fiecărui interval de variaţie.

Rezultatele centralizării datelor sunt prezentate în tabelul de mai jos:

12

Tabelul 1.5. Distribuţia judeţelor României

după rata şomajului ( %), în anul 2010

xi-1-xi

(%)

ni

2-4 3

4-6 6

6-8 12

8-10 16

10-12 5

TOTAL 42 *Notă: Limita superioară a fiecărui interval este inclusă în intervalul respectiv.

Observaţie

Pentru gruparea datelor pe intervale de variaţie, există mai multe variante posibile. Dacă

limita superioară a unui interval coincide cu limita inferioară a altui interval, se precizează printr-

o notă unde a fost inclusă acea valoare. În exemplul de mai sus, judeţele cu rata şomajului egală

cu 4, 6, 8,10 şi 12 au fost incluse în intervalele în care aceste valori sunt limite superioare.

1.4.3. Distribuţii statistice pentru variabile calitative

Distribuţia statistică pentru o variabilă calitativă presupune prezentarea categoriilor

variabilei X şi determinarea frecvenţei de apariţie a fiecărei variante.

Forma de prezentare a unei distribuţii statistice pentru o variabilă calitativă este prezentată

în tabelul de mai jos:


pentru o variabilă categorială

xi ni

x1 n1

x2 n2

xm nm

TOTAL i

inn

Exemplu

Pentru ansamblul judeţelor României se înregistrează regiunea de dezvoltare (Nord-Vest,

Centru, Nord-Est, Sud-Est, Sud, Bucureşti-Ilfov, Sud-Vest, Vest) şi se obţin rezultatele din tabelul

de mai jos. Se cere să se formeze distribuţia de frecvenţă.

13

Tabelul 1.7. Distribuţia judeţelor din România după regiunea de dezvoltare Judeţul Regiunea de

dezvoltare

Judeţul Regiunea de

dezvoltare

Judeţul Regiunea de

dezvoltare

Alba Centru Constanţa Sud- Est Mureş Centru

Arad Vest Covasna Centru Neamţ Nord - Est

Argeş Sud Dâmboviţa Sud Olt Sud-Vest

Bacău Nord - Est Dolj Sud-Vest Prahova Sud

Bihor Nord - Vest Galaţi Sud- Est Satu-Mare Nord - Vest

Bistriţa-Năsăud Nord - Vest Giurgiu Sud Sălaj Nord - Vest

Botoşani Nord - Est Gorj Sud-Vest Sibiu Centru

Braşov Centru Harghita Centru Suceava Nord - Est

Brăila Sud- Est Hunedoara Vest Teleorman Sud

Municipiul

Bucureşti Bucureşti-Ilfov Ialomiţa Sud Timiş Vest

Buzău Sud- Est Iaşi Nord - Est Tulcea Sud- Est

Caraş-Severin Vest Ilfov Bucureşti-Ilfov Vâlcea Sud-Vest

Călăraşi Sud Maramureş Nord - Vest Vaslui Nord - Est

Cluj Nord - Vest Mehedinţi Sud-Vest Vrancea Sud- Est

Sursa: Anuarul Statistic al României, anul 2011, www.insse.ro, accesat pe 1 noiembrie 2012

Rezolvare

Variabila statistică X este reprezentată de Regiunea de dezvoltare, variabilă calitativă

nominală, iar variantele variabilei X sunt xi: Nord-Vest, Centru, Nord-Est, Sud-Est, Sud,

Bucureşti-Ilfov, Sud-Vest, Vest.

Rezultatele grupării datelor sunt prezentate în tabelul de mai jos:

Tabelul 1.8. Distribuţia judeţelor României pe regiuni de dezvoltare

xi ni

Nord-Vest 6

Centru 6

Nord-Est 6

Sud-Est 6

Sud 7

Bucureşti-Ilfov 2

Sud-Vest 5

Vest 4

TOTAL 42


14

Teste1

1) Variabila alternativă:

a) admite alternative în procesul de măsurare

b) ia doar două valori posibile

c) poate fi numerică şi categorială

2) Un exemplu de variabilă continuă este:

a) vârsta

b) numărul de copaci într-un parc

c) genul persoanei

3) Distribuţia din tabelul de mai jos se referă la o variabilă:

xi-1-xi ni

5-9 20

9-13 3

13-17 2

17-21 3

21-25 2

TOTAL 30

a) discretă

b) continuă

c) numerică

d) alternativă

4) Se cunoaşte că într-o şcoală sunt 210 elevi de gen masculin şi 300 de gen feminin. Au loc

răspunsurile:

a) valoarea 210 este o frecvenţă relativă pentru cei de gen masculin

b) informaţiile disponibile permit construirea unei distribuţii după o variabilă alternativă

c) variabila analizată este calitativă

5) Pentru distribuţia din tabelul de mai jos sunt valabile enunţurile:

xi ni

2 20

4 30

6 20

8 10

TOTAL 80

a) variabila distribuită este discretă

b) populaţia are 30 de unităţi

c) valoarea 10 este o frecvenţă absolută

d) variabila are patru valori distincte

1 Răspunsuri: 1 – b,c; 2 – a; 3 – b,c; 4 – b,c; 5 – a,c,d.

15

US 2. ANALIZA UNEI SERII STATISTICE DISCRETE

Cuprins

2.1 Analiza grafică

2.2 Analiza numerică. Indicatori ai statisticii descriptive

2.3 Aplicaţie în SPSS

Obiective

- prezentarea tipurilor de frecvenţe utilizate în analiza uunei serii discrete

- prezentarea tipurilor de grafice specifice unei serii discrete

- definirea indicatorilor descriptivi, a proprietăţilor, a modului de calcul şi a interpretării acestora

- realizarea de exemple cu date reale

- prezentarea modului de analiză gafică şi numerică a unei serii discrete în SPSS

Competenţe

- însuşirea principalelor metode de analiză grafică şi numerică a unei serii discrete

- dezvoltarea abilităţilor practice de prelucrare şi interpretare a datelor statistice sistematizate într-

o serie discretă

- dezvoltarea capacităţii de utilizare a softului statistic pentru prelucrarea automată a datelor

- capacitatea de a realiza o sinteză a informaţiei statistice, având la dispoziţie rezultatele analizei

grafice şi numerice

Termen mediu: 4 h

Bibliografie



3. Jaba, E., Pintilescu, C., Statistică. Teste grilă şi probleme, Editura Sedcom Libris, Iaşi, 2005.

4. Jaba, E., Grama, A., Analiza statistică cu SPSS sub Windows, Ed. Polirom, Iaşi, 2004

5. Lecaillon, J.; Labrousse, C., Statistique descriptive, Editura Cujas, Paris, 1988

6. Mills, Fr.G., Statistical Methods, 3rd

ed., Henry Holt, New York, 1955.

7. McNabb, D., Research methods in public administration and nonprofit management :


8. Rosental, C. and C. Frémontier-Murphy, Introduction aux méthodes quantitatives en sciences

humaines et sociales, Paris, Dunod, 2001

9. Yule, U.G.; Kendall, M.C. - Introducere în teoria statisticii, Editura Ştiinţifică, Bucureşti, 1969.


16

Analiza unei serii statistice discrete se realizează cu ajutorul metodelor grafice şi

numerice. În continuare prezentăm câteva coordonate ale acestor tipuri de analiză.


Pentru reprezentarea grafică a unei serii după o variabilă discretă se folosesc următoarele

diagrame: poligonul frecvenţelor, curba frecvenţelor sau curba frecvenţelor cumulate. Indicatorii

numerici prin care poate fi caracterizată o serie statistică după o variabilă discretă pot fi grupaţi în

indicatori ai tendinţei centrale (mărimi medii), indicatori ai dispersiei, indicatori ai asimetriei şi

boltirii.

2.1.1. Frecvenţe absolute cumulate crescător (Ni↓ ) sau descrescător (Ni↑ )

Frecvenţele absolute cumulate crescător (Ni↓) sau descrescător (Ni↑) exprimă numărul de

unităţi statistice cumulate “până la” sau “peste” un anumit nivel al variabilei, adică valori ≤ xi,

respectiv ≥ xi.

Relaţiile de calcul sunt:

i

1hhi1ii nnNN , respectiv

m

ihhi1ii nnNN .

2.1.2. Frecvenţe relative cumulate crescător (Fi↓) sau descrescător (Fi↑)

Frecvenţele relative cumulate crescător (Fi↓) sau descrescător (Fi↑) exprimă ponderea

unităţilor statistice cumulate “până la” sau “peste” un anumit nivel al caracteristicii, adică valori ≤

xi , respectiv ≥ xi.

Relaţiile de calcul sunt:

i

1hhi1ii ffFF , respectiv

m

ihhi1ii ffFF , unde fi reprezintă frecvenţele relative.

Frecvenţele relative, fi , exprimă ponderea unităţilor ni în volumul total al unităţilor

observate, n, şi se calculează după relaţiile:

n

n

n

nf i

ii

ii

, atunci când frecvenţele sunt exprimate sub formă de coeficient. În acest

caz, .1fi

i

100n

n100

n

nf i

ii

ii

, atunci când frecvenţele sunt exprimate sub formă de procente

(%). În acest caz, %.100fi

i

Exemplu

Distribuţia judeţelor din România care au pensiuni turistice la 31 iulie 2010 (exclusiv

judeţul Braşov şi judeţul Prahova) se prezintă astfel:

17

Tabelul 2.1. Distribuţia judeţelor din România

după numărul de pensiuni turistice la 31 iulie 2010

Pensiuni

turistice

Nr. judeţe

1 1

2 2

3 1

4 7

5 3

6 2

9 1

10 1

14 2

18 1

22 2

23 1

29 3

40 1

42 1

46 3

47 1

49 1

61 1

62 1

TOTAL 36

Sursa: Anuarul Statistic al României, anul 2011, www.insse.ro, accesat pe 1 noiembrie 2012.

Se cere să se calculeze frecvenţele absolute şi relative cumulate crescător sau descrescător.

Rezolvare

Frecvenţe absolute cumulate crescător( Ni↓)

Frecvenţele absolute cumulate crescător se calculează după relaţia:

i

1hhi1ii nnNN .

Pentru exemplul dat, avem:

1 1 1N n ;

2 1 2 1 2 3N N n ;

3 2 3 3 1 4N N n etc.

Celelalte rezultate sunt prezentate în tabelul de mai jos:


18

Tabelul 2.2. Frecvenţele absolute cumulate crescător

Pensiuni

turistice

Nr. judeţe iN

1 1 1

2 2 3

3 1 4

4 7 11

5 3 14

6 2 16

9 1 17

10 1 18

14 2 20

18 1 21

22 2 23

23 1 24

29 3 27

40 1 28

42 1 29

46 3 32

47 1 33

49 1 34

61 1 35

62 1 36

TOTAL 36 -

Interpretare

Numărul judeţelor din România care au o pensiune turistică este egal cu unu. Numărul

judeţelor care au cel mult două pensiuni turistice este egal cu 3. Numărul judeţelor care au cel

mult 3 pensiuni turistice este egal cu 4. În mod similar, se interpretează celelalte rezultate.

Observaţie

În calculul frecvenţelor absolute cumulate crescător, ultima valoare Ni↓ este întotdeauna

egală cu volumul total al eşantionului observat. În exemplul dat, avem N20↓=n=36.

Frecvenţe absolute cumulate descrescător ( iN )

Frecvenţele absolute cumulate descrescător se calculează după relaţia:

m

ihhi1ii nnNN .


2192019 nNN ;

;312181918 nNN


19

Tabelul 2.3. Frecvenţele absolute cumulate descrescător

Pensiuni

turistice

Nr. judeţe iN

1 1 36

2 2 35

3 1 33

4 7 32

5 3 25

6 2 22

9 1 20

10 1 19

14 2 18

18 1 16

22 2 15

23 1 13

29 3 12

40 1 9

42 1 8

46 3 7

47 1 4

49 1 3

61 1 2

62 1 1

TOTAL 36 -

Interpretare

Numărul judeţelor din România care au 62 pensiuni turistice este egal cu unu. Numărul

judeţelor care au peste 61 pensiuni turistice este egal cu 2. Numărul judeţelor care au peste 49

pensiuni turistice este egal cu 3. În mod similar, se interpretează celelalte rezultate.

Frecvenţe relative (fi)

Frecvenţele relative se calculează după relaţia:

100n

n100

n

nf i

ii

ii

.


%76,4100210

10100

n

nf

ii

11

; %90,11100

210

25100

n

nf

ii

22

etc.


20

Tabelul 2.4. Frecvenţele relative

Pensiuni

turistice

Nr. judeţe fi (%)

1 1 2,78

2 2 5,55

3 1 2,78

4 7 19,44

5 3 8,33

6 2 5,55

9 1 2,78

10 1 2,78

14 2 5,56

18 1 2,78

22 2 5,55

23 1 2,78

29 3 8,33

40 1 2,78

42 1 2,78

46 3 8,33

47 1 2,78

49 1 2,78

61 1 2,78

62 1 2,78

TOTAL 36 100

Interpretare

Ponderea judeţelor din România care au o pensiune turistică este de 2,78% din numărul

total de judeţe care au pensiuni turistice. Ponderea judeţelor care au 2 pensiuni turistice este de

5,55%, iar ponderea judeţelor care au 3 pensiuni turistice este de 2,78%. În mod similar, se

interpretează celelalte rezultate.

Frecvenţe relative cumulate crescător ( iF )

Frecvenţele relative cumulate crescător se calculează după relaţia:

i

1hhi1ii ffFF .


1 1 2 78F f , % ;

2 1 2 2 78 5 55 8 33F F f , , , %;

%11,1178,233,8223 fFF , etc.


21

Tabelul 2.5. Frecvenţele relative cumulate crescător

Pensiuni

turistice

Nr. judeţe fi (%) iF (%)

1 1 2,78 2,78

2 2 5,55 8,33

3 1 2,78 11,11

4 7 19,44 30,55

5 3 8,33 38,88

6 2 5,55 44,43

9 1 2,78 47,21

10 1 2,78 49,99

14 2 5,56 55,55

18 1 2,78 58,33

22 2 5,55 63,88

23 1 2,78 66,66

29 3 8,33 74,99

40 1 2,78 77,77

42 1 2,78 80,55

46 3 8,33 88,88

47 1 2,78 91,66

49 1 2,78 94,44

61 1 2,78 97,22

62 1 2,78 100

TOTAL 36 100 -

Interpretare

Ponderea judeţelor din România care au o pensiune turistică este de 2,78%. Ponderea

judeţelor care au cel mult 2 pensiuni turistice este de 8,33%. Ponderea judeţelor care au cel mult 3

pensiuni turistice este de 11,11%. În mod similar, se interpretează celelalte rezultate.

Frecvenţe relative cumulate descrescător ( iF )

Frecvenţele relative cumulate descrescător se calculează după relaţiile:

m

ihhi1ii ffFF .


20 21 20 2 78F F f , %; ;

19 20 19 2 78 2 78 5 56F F f , , , %;

18 19 18 5 56 2 78 8 34F F f , , , % etc.


22

Tabelul 2.6. Frecvenţele relative cumulate crescător

Pensiuni

turistice

Nr. judeţe fi (%) iF (%)

1 1 2,78 100

2 2 5,55 97,22

3 1 2,78 91,67

4 7 19,44 88,89

5 3 8,33 69,45

6 2 5,55 61,12

9 1 2,78 55,57

10 1 2,78 52,79

14 2 5,56 50,01

18 1 2,78 44,45

22 2 5,55 41,67

23 1 2,78 36,12

29 3 8,33 33,34

40 1 2,78 25,01

42 1 2,78 22,23

46 3 8,33 19,45

47 1 2,78 11,12

49 1 2,78 8,34

61 1 2,78 5,56

62 1 2,78 2,78

TOTAL 36 100 -

Interpretare

Ponderea judeţelor din România care au 62 pensiuni turistice este de 2,78%. Ponderea

judeţelor care au peste 61 pensiuni turistice este de 5,56%. Ponderea judeţelor care au peste 49

pensiuni turistice este de 8,34%. În mod similar, se interpretează celelalte rezultate.

2.1.3. Tipuri de grafice

O distribuţie statistică după o variabilă numerică discretă poate fi reprezentată grafic

folosind poligonul frecvenţelor, curba frecvenţelor şi curba frecvenţelor cumulate.

Poligonul frecvenţelor

Construirea poligonului frecvenţelor presupune găsirea locului geometric al punctelor Ai

de coordonate (xi , ni) sau (xi , fi) şi unirea acestora prin segmente de dreaptă. Poligonul

frecvenţelor aproximează forma unei distribuţii.

Alura poligonului frecvenţelor este reprezentată în figura de mai jos:

23

Figura 1. Poligonul frecvenţelor

Curba frecvenţelor

Construirea curbei frecvenţelor presupune ajustarea printr-o linie curbă, continuă a

poligonului frecvenţelor. Curba frecvenţelor aproximează mai bine forma de distribuţie a

colectivităţii după variabila considerată.

Alura curbei frecvenţelor este reprezentată în figura de mai jos:

Figura 2. Curba frecvenţelor

Curba frecvenţelor pentru distribuţia dată se compară cu forma curbei frecvenţelor pentru

o distribuţie normală, cunoscută sub denumirea de Clopotul lui Gauss. Această curbă este o curbă

simetrică faţă de nivelul mediu: jumătate din unităţi au valori mai mici decât nivelul mediu, iar

jumătate au valori mai mari.

În urma prelucrării datelor la nivelul unui eşantion, pot fi obţinute următoarele forme ale

distribuţiei unităţilor:

24

Figura 3. Curbă asimetrică la dreapta

Figura 4. Curbă asimetrică la stânga

În exemplele prezentate în Figura 3 şi Figura 4 se observă o concentrare a frecvenţelor ni

spre valorile mici (Figura 3), respectiv spre valorile mari ale variabilei X (Figura 4).

Curba frecvenţelor cumulate

Construirea curbei frecvenţelor cumulate presupune reprezentarea grafică a funcţiei de

repartiţie a frecvenţelor unei variabile: F(Xxi).

Alura curbei frecvenţelor cumulate crescător este reprezentată în figura de mai jos:

Figura 5. Curba frecvenţelor cumulate crescător

25

Alura curbei frecvenţelor cumulate desccrescător este reprezentată în figura de mai jos:

Figura 6. Curba frecvenţelor cumulate descrescător

2.2. Analiza numerică. Indicatori ai statisticii descriptive

Cei mai importanţi indicatori ai statisticii descriptive pot fi grupaţi în indicatori ai tendinţei

centrale, indicatori ai dispersiei, indicatori ai asimetriei şi boltirii.

2.2.1. Indicatori ai tendinţei centrale (mărimi medii)

Indicatorii tendinţei centrale sunt indicatori prin care pot fi caracterizate în mod sintetic

unităţile statistice observate după o variabilă X. Principalele mărimi medii folosite în

caracterizarea unei serii statistice sunt media aritmetică, modul şi mediana.

a. Media aritmetică )x(

Media aritmetică pentru o serie statistică după o variabilă discretă se calculează după

relaţiile:

n

x

x ii

, pentru o serie simplă de valori;

ii

iii

n

nx

x , pentru o serie cu frecvenţe ni.

Principalele proprietăţi ale mediei aritmetice sunt:

1. Media aritmetică se înscrie în intervalul de variaţie al variabilei X:

maxmin xxx .

2. Pentru o serie cu frecvenţe, media aritmetică este plasată între valorile extreme, oscilând în

jurul valorii cu frecvenţa dominantă.

Media este considerată în statistică un punct de echilibru, similar centrului de greutate în

fizică. Dacă o serie nu prezintă o asimetrie pronunţată, atunci media va fi în apropierea valorii cu

frecvenţa cea mai mare.

26

3. Media este o mărime normală, adică suma abaterilor valorilor individuale ale unei variabile X

de la media lor este egală cu zero:

0)xx(i

i , pentru o serie simplă de valori;

0n)xx( ii

i , pentru o serie cu frecvenţe.

Exemple

1. Vânzările unei firme (mil. Lei) înregistrate timp de cinci zile sunt: 10, 9, 8 7, 7. Se cere

să se calculeze media aritmetică.

Rezolvare

Media aritmetică pentru o serie simplă de valori se calculează după relaţia:

n

x

x ii

.

Pentru exemplul dat, obţinem:

2,85

778910

n

x

x ii

mil. Lei.

Interpretare

Nivelul mediu al vânzărilor zilnice ale firmei este de 8,2 mil. Lei.

2. Distribuţia judeţelor din România care au pensiuni turistice la 31 iulie 2010 (exclusiv


27



Pensiuni

turistice

Nr. judeţe

1 1

2 2

3 1

4 7

5 3

6 2

9 1

10 1

14 2

18 1

22 2

23 1

29 3

40 1

42 1

46 3

47 1

49 1

61 1

62 1

TOTAL 36

Se cere să se calculeze media aritmetică.

Rezolvare

Media aritmetică pentru o serie statistică cu frecvenţe se calculează după relaţia

ii

iii

n

nx

x .

Elementele pentru calculul mediei aritmetice sunt prezentate în tabelul de mai jos:

28

Tabelul 2.8. Elemente pentru calculul mediei aritmetice

Pensiuni

turistice

Nr. judeţe ii nx

1 1 1

2 2 4

3 1 3

4 7 28

5 3 15

6 2 12

9 1 9

10 1 10

14 2 28

18 1 18

22 2 44

23 1 23

29 3 87

40 1 40

42 1 42

46 3 138

47 1 47

49 1 49

61 1 61

62 1 62

TOTAL i

in 36 i

ii nx 721

Înlocuind în relaţia de mai sus, se obţine :

72120 03

36

i i

i

i

i

x n

x ,n

.

Interpretare

Numărul mediu de pensiuni turistice este de 20,03~20 pensiuni/judeţ.

b. Modul (Mo)

Modul este valoarea variabilei cea mai frecvent observată într-o distribuţie, adică valoarea

xi care corespunde frecvenţei maxime (nimax).

Aflarea modului presupune identificarea valorii xi corespunzătoare frecvenţei maxime

(nimax).

Exemple

1. Vânzările unei firme A (mil. Lei) înregistrate timp de cinci zile sunt: 10, 9, 8 7, 7. Se

cere să se afle modul.

Rezolvare

Pentru aflarea modului, trebuie identificată valoarea xi corespunzătoare frecvenţei maxime

(nimax). Frecvenţa maximă este nimax=2, iar valoarea xi corespunzătoare este xi=7. Pentru seria

dată, modul este: Mo=7 mil. Lei.

29

Interpretare

Valoarea vânzărilor cea mai frecvent înregistrată de firma A este de 7 mil. Lei pe zi.

2. Vânzările unei firme A (mil. Lei) înregistrate timp de cinci zile sunt: 10, 8, 8 7, 7. Se

cere să se afle valoarea modului.

Rezolvare

Pentru aflarea modului, trebuie identificată valoarea xi corespunzătoare frecvenţei maxime

(nimax). Frecvenţa maximă este nimax=2, iar valorile xi corespunzătoare sunt xi=7 şi xi=8. Seria dată

este o serie bimodală, valorile modului fiind de 7 mil. Lei şi de 8 mil. Lei.

Interpretare

Valorile vânzărilor cele mai frecvente sunt de 7 mil. Lei şi de 8 mil. Lei pe zi .

3. Distribuţia judeţelor din România care au pensiuni turistice la 31 iulie 2010 (exclusiv




Pensiuni

turistice

Nr. judeţe

1 1

2 2

3 1

Mo=4 7

5 3

6 2

9 1

10 1

14 2

18 1

22 2

23 1

29 3

40 1

42 1

46 3

47 1

49 1

61 1

62 1

TOTAL 36

Se cere să se calculeze modul.

Rezolvare

Pentru aflarea modului, se află frecvenţa maximă: nimax=7. Valoarea xi care corespunde

acestei frecvenţe maxime este xi=4. Pentru seria dată, modul este: Mo=4.

30

Interpretare

Cele mai multe judeţe din România au avut la 31 iulie 2010 un număr de 4 pensiuni

turistice.

c. Mediana (Me)

Mediana reprezintă acea valoare a variabilei care împarte seria ordonată crescător în două

părţi egale: jumătate din unităţi au valori mai mici decât mediana, iar jumătate au valori mai mari

decât mediana.

Aflarea medianei se realizează diferit în funcţie de tipul seriei:

1. Pentru o serie simplă:

cu număr par de termeni, mediana este reprezentată de media aritmetică simplă a celor doi

termeni centrali ai seriei ordonate crescător.

Exemplu

Se consideră seria reprezentată de valorile 10, 9, 11, 6, 7, 8. Pentru aflarea medianei, şirul

valorilor se ordonează în sens crescător: 6, 7, 8, 9, 10, 11. Mediana este reprezentată de media

aritmetică simplă a celor doi termeni centrali ai seriei ordonate crescător, respectiv

5,82

98Me

.

cu număr impar de termeni, mediana este reprezentată de termenul central al seriei

ordonate crescător.

Exemplu

Se consideră seria reprezentată de valorile 10, 9, 11, 6, 7. Pentru aflarea medianei, şirul

valorilor se ordonează în sens crescător: 6, 7, 9, 10, 11. Mediana este reprezentată de termenul

central al seriei ordonate crescător, respectiv 9Me .

2. Pentru o serie cu frecvenţe după o variabilă discretă

Aflarea medianei presupune parcurgerea următoarelor etape:

se calculează unitatea mediană: 2

1n

U ii

Me

.

se calculează frecvenţele absolute cumulate crescător, Ni↓;

se află prima valoare Ni↓≥UMe

;

valoarea xi corespunzătoare acestei frecvenţe Ni↓≥UMe

este mediana.

Exemplu



31



Pensiuni

turistice

Nr. judeţe

1 1

2 2

3 1

4 7

5 3

6 2

9 1

10 1

14 2

18 1

22 2

23 1

29 3

40 1

42 1

46 3

47 1

49 1

61 1

62 1

TOTAL 36

Se cere să se calculeze mediana.

Rezolvare

Etape pentru aflarea medianei:

se calculează unitatea mediană:

137

18 52 2

iMe i

n

U ,

;

se calculează frecvenţele absolute cumulate crescător, Ni↓. Acestea sunt prezentate în

tabelul de mai jos:

32


Pensiuni

turistice

Nr. judeţe iN

1 1 1

2 2 3

3 1 4

4 7 11

5 3 14

6 2 16

9 1 17

10 1 18

Me=14 2 20

18 1 21

22 2 23

23 1 24

29 3 27

40 1 28

42 1 29

46 3 32

47 1 33

49 1 34

61 1 35

62 1 36

TOTAL 36 -


. Pentru exemplul dat, 20 18 5Me

iN U , .

valoarea xi corespunzătoare primei frecvenţe Ni↓≥UMe

este mediana. Pentru exemplul dat,

Me=14.

Interpretare

Jumătate din numărul total al judeţelor din România au până la 14 pensiuni turistice,

inclusiv, iar jumătate au peste 14 pensiuni turistice, inclusiv.

Observaţie

Locul medianei într-o distribuţie depinde de forma acesteia. Doar în cazul unei distribuţii

simetrice mediana este termenul central al seriei.

Exemplu

Se consideră distribuţiile a două serii, prezentate în tabelele de mai jos:

Seria I xi ni

1 20

2 40

3 20

4 15

5 5

TOTAL 100

33

Seria II xi ni

1 10

2 20

3 40

4 20

5 10

TOTAL 100

Să se afle şi să se compare valorile medianei pentru cele două distribuţii.

Rezolvare

Pentru seria I, aflarea medianei presupune parcurgerea următoarelor etape:

se calculează unitatea mediană: 5,502

101

2

1

i

i

Me

n

U ;


tabelul de mai jos:


pentru seria I xi ni iN

1 20 20

Me=2 40 60

3 20 80

4 15 95

5 5 100

TOTAL 100 -

prima valoare Ni↓≥UMe

este .50U60N Mei

valoarea xi corespunzătoare frecvenţei Ni↓≥UMe

este Me=2.

Pentru seria II se obţin următoarele rezultate:


pentru seria II xi ni iN

1 10 10

2 20 30

Me=3 40 70

4 20 90

5 10 100

TOTAL 100 -

În acest caz, valoarea medianei este Me=3.

34

Se observă că poziţia medianei pentru cele două distribuţii diferă, deşi volumul

colectivităţii este acelaşi, n=100. Seria I este o serie asimetrică, spre deosebire de seria II care este

o distribuţie simetrică. În acest ultim caz, mediana este reprezentată de termenul central al seriei.

d. Relaţii între cele trei mărimi medii fundamentale

Relaţia dintre cele trei mărimi medii fundamentale evidenţiază forma unei distribuţii:

atunci când MeMox , distribuţia este simetrică;

Figura 7. Distribuţie simetrică

atunci când MoMex , distribuţia este asimetrică la dreapta;

Figura 8. Distribuţie asimetrică la dreapta

atunci când MoMex , distribuţia este asimetrică la stânga.

35

Figura 9. Distribuţie asimetrică la stânga

e. Comparaţii între cele trei mărimi medii fundamentale

Interpretarea valorilor obţinute pentru cele trei mărimi medii fundamentale poate releva

aspecte importante privind unităţile statistice din distribuţia analizată.

De exemplu, să considerăm că în urma prelucrării datelor privind salariul lunar (lei)

obţinut de către salariaţii unei firme, s-au obţinut următoarele rezultate:

lei800Me;lei700Mo;lei1500x .

Aceste valori arată că salariul mediu obţinut de salariaţii firmei este de 1500 lei/lună, însă

cei mai mulţi salariaţi câştigă 700 lei/lună, iar jumătate din numărul total al salariaţilor câştigă

până la 800 lei/lună, iar jumătate câştigă peste 800 lei/lună. Distribuţia salariaţilor firmei

observate este o distribuţie puternic asimetrică la dreapta.

Aceste rezultate pot fi explicate prin diferenţe mari înregistrate între valorile salariului

obţinut de salariaţii din firma considerată. Media aritmetică este o mărime influenţată de valorile

extreme, aberante. De aceea, este deosebit de utilă şi interpretarea celorlalte mărimi medii

fundamentale.

f. Generalizarea medianei: quantilele

Quantilele sunt valori ale caracteristicii care împart volumul unei colectivităţi în r părţi

egale. Cele mai folosite quantile sunt:

1. Quartilele

Quartilele sunt valori ale caracteristicii care împart volumul unei colectivităţi în 4 părţi

egale.

Poziţia celor trei quartile într-o distribuţie simetrică este prezentată în figura de mai jos:

Figura 10. Poziţia quartilelor într-o distribuţie

36

Quartila unu ( Q1)

Aflarea quartilei unu presupune parcurgerea următoarelor etape:

se calculează unitatea quartilică unu: 4

11

i

i

Q

n

U ;


se află prima valoare Ni↓≥UQ1;

valoarea xi corespunzătoare frecvenţei Ni↓≥UQ1 este quartila unu.

Quartila doi ( Q2)

Aflarea quartilei doi presupune parcurgerea următoarelor etape:

se calculează unitatea quartilică doi: Mei

i

i

i

QU

nn

U

2

1

4

)1(22 . Quartila doi

este, deci, mediana.

Quartila trei ( Q3)

Aflarea quartilei trei presupune parcurgerea următoarelor etape:

se calculează unitatea quartilică trei: 4

)1(33

i

iQ

n

U ;



valoarea xi corespunzătoare frecvenţei Ni↓≥UQ3 este quartila trei.

Exemplu



37



Pensiuni

turistice

Nr. judeţe

1 1

2 2

3 1

4 7

5 3

6 2

9 1

10 1

14 2

18 1

22 2

23 1

29 3

40 1

42 1

46 3

47 1

49 1

61 1

62 1

TOTAL 36

Se cere să se calculeze quartila unu şi quartila trei.

Rezolvare

Quartila unu


136 1

9 254 4

iQ i

n

U ,

;


tabelul de mai jos:

38


Pensiuni

turistice

Nr. judeţe iN

1 1 1

2 2 3

3 1 4

Q1=4 7 11

5 3 14

6 2 16

9 1 17

10 1 18

14 2 20

18 1 21

22 2 23

23 1 24

29 3 27

40 1 28

42 1 29

46 3 32

47 1 33

49 1 34

61 1 35

62 1 36

TOTAL 36 -

se află prima valoare Ni↓≥UQ1. Pentru exemplul dat, 111 9 25

Q

iN U , ;

valoarea xi corespunzătoare primei frecvenţe Ni↓≥UMe

este quartila unu. Pentru exemplul

dat, Q1=4.

Interpretare

25% din numărul total de judeţe ale României au cel mult 4 pensiuni turistice, inclusiv, iar

75% au peste 4 pensiuni turistice, inclusiv.

Quartila trei


3 13 37

27 754 4

i

Q i

n

U ,

;


tabelul de mai jos:

39


Pensiuni

turistice

Nr. judeţe iN

1 1 1

2 2 3

3 1 4

4 7 11

5 3 14

6 2 16

9 1 17

10 1 18

14 2 20

18 1 21

22 2 23

23 1 24

29 3 27

Q3=40 1 28

42 1 29

46 3 32

47 1 33

49 1 34

61 1 35

62 1 36

TOTAL 36 -

se află prima valoare Ni↓≥UQ3. Pentru exemplul dat, 328 27 75

Q

iN U , .

valoarea xi corespunzătoare primei frecvenţe Ni↓≥UQ3 este quartila trei. Pentru exemplul

dat, Q3=40.

Interpretare

75% din numărul total al judeţelor din România au până la 40 de pensiuni turistice, iar

25% au peste 40 pensiuni turistice.

2. Decilele

Decilele sunt valori ale caracteristicii care împart volumul unei colectivităţi în 10 părţi

egale. Cele mai importante decile sunt decila unu şi decila nouă.

Decila unu ( D1)

Aflarea decilei unu presupune parcurgerea următoarelor etape:

se calculează unitatea decilică unu: 10

11

i

i

D

n

U ;


se află prima valoare Ni↓≥UD1;

valoarea xi corespunzătoare frecvenţei Ni↓≥UD1 este decila unu.

Decila nouă (D9)

40

Aflarea decilei nouă presupune parcurgerea următoarelor etape:

se calculează unitatea decilică nouă: 10

)1(99

i

iD

n

U ;


se află prima valoare Ni↓≥UD9;

valoarea xi corespunzătoare ifrecvenţei Ni↓≥UD9 este decila nouă.

Exemplu





Pensiuni

turistice

Nr. judeţe

1 1

2 2

3 1

4 7

5 3

6 2

9 1

10 1

14 2

18 1

22 2

23 1

29 3

40 1

42 1

46 3

47 1

49 1

61 1

62 1

TOTAL 36

Se cere să se calculeze decila unu şi decila nouă.

Rezolvare

Decila unu

se calculează unitatea decilică unu: 7,310

37

10

11

i

i

D

n

U ;


tabelul de mai jos:

41


Pensiuni

turistice

Nr. judeţe iN

1 1 1

2 2 3

D1=3 1 4

4 7 11

5 3 14

6 2 16

9 1 17

10 1 18

14 2 20

18 1 21

22 2 23

23 1 24

29 3 27

40 1 28

42 1 29

46 3 32

47 1 33

49 1 34

61 1 35

62 1 36

TOTAL 36 -

se află prima valoare Ni↓≥UD1. Pentru exemplul dat, 14 3 6

D

iN U , .

valoarea xi corespunzătoare primei frecvenţe Ni↓≥UD1 este decila unu. Pentru exemplul

dat, D1=3.

Interpretare

10% din judeţele României au la 31 iulie 2010 numărul de pensiuni turistice de până la 3,

inclusiv, iar 90% au peste 3 pensiuni turistice, inclusiv.

Decila nouă

se calculează unitatea decilică nouă: 9

9 19 37

33 310 10

i

D i

n

U ,

;


tabelul de mai jos:

42


Pensiuni

turistice

Nr. judeţe iN

1 1 1

2 2 3

3 1 4

4 7 11

5 3 14

6 2 16

9 1 17

10 1 18

14 2 20

18 1 21

22 2 23

23 1 24

29 3 27

40 1 28

42 1 29

46 3 32

47 1 33

D9=49 1 34

61 1 35

62 1 36

TOTAL 36 -

se află prima valoare Ni↓≥UD9. Pentru exemplul dat, 934 33 3

D

iN U , .

valoarea xi corespunzătoare primei frecvenţe Ni↓≥UD

9 este decila nouă. Pentru exemplul

dat, D9=49.

Interpretare

90% din judeţele României au la 31 iulie 2010 până la 49 pensiuni turistice, iar 10% au

peste 49 pensiuni turistice.

g. Reprezentarea diagramei „box-and-whiskers” sau „box-plot”

Construirea diagramei „box-and-whiskers” presupune reprezentarea următoarelor valori

ale tendinţei centrale: quartila unu, mediana, quartila trei, decila unu şi decila nouă. Forma

generală a diagramei „box-and-whiskers” este prezentată în figura de mai jos:

43

1

10,009,008,007,006,005,004,00

D1 Q1 Q2 Q3 D9

Figura 11. Diagrama „box-and-whiskers”

Diagrama „box-and-whiskers” este utilă în cercetarea statistică deoarece oferă informaţii

cu privire la indicatorii tendinţei centrale, la forma unei distribuţii, dar şi cu privire la gradul de

dispersie al distribuţiei (fenomen prezentat în capitolul următor). Într-o distribuţie perfect

simetrică, valorile decilei unu şi nouă, respectiv ale quartilei unu şi trei, sunt reprezentate la

aceeaşi distanţă faţă de mediană. Această situaţie este reprezentată în Figura 11.

2.2.2. Indicatori ai dispersiei

Pentru caracterizarea unităţilor unei distribuţii nu este suficientă doar folosirea

indicatorilor tendinţei centrale. Pentru o caracterizare corectă a unei distribuţii trebuie să se ia în

considerare gradul de variaţie a valorilor variabilei X faţă de nivelul mediu. O colectivitate

caracterizată printr-o dispersie mare a valorilor xi ale unei variabile faţă de nivelul mediu este o

colectivitate eterogenă iar media nu este reprezentativă pentru distribuţie.

a. Definirea fenomenului de dispersie

Aprecierea variabilităţii valorilor unei variabile faţă de nivelul mediu se poate realiza prin

aprecierea fenomenului de dispersie. Dispersia exprimă gradul de împrăştiere a valorilor

individuale ale unei variabile faţă de nivelul mediu. Aprecierea fenomenului de dispersie al unei

distribuţii permite identificarea gradului de reprezentativitate a mediei unei distribuţii.

b. Indicatorii dispersiei

Principalii indicatori ai dispersiei sunt:

1. Amplitudinea de variaţie

Amplitudinea de variaţie măsoară distanţa dintre nivelul maxim şi nivelul minim al unei

variabile. Se calculează pe baza relaţiei:

minmax xxA .

Acest indicator permite aprecierea întinderii domeniului de variaţie al variabilei X.

Dezavantajul acestui indicator constă în faptul că nu „pătrunde” în interiorul distribuţiei, respectiv

între cele două valori extreme ale variabilei.

2. Varianţa

Varianţa este media pătratelor abaterilor valorilor xi de la nivelul mediu şi poate fi

calculată pe baza relaţiei:

44

n

)xx(

s

2

ii

2

, pentru o serie simplă;

ii

i2

ii

2

n

n)xx(

s , pentru o serie cu frecvenţe.

Varianţa nu are unitate de măsură şi nu se interpretează.

3. Abaterea medie pătratică (abaterea standard)

Abaterea medie pătratică sau abaterea standard este rădăcina mediei pătratelor abaterilor

valorilor xi de la nivelul mediu şi poate fi calculată pe baza relaţiei:

n

)xx(

ss

2

ii

2

, pentru o serie simplă;

ii

i2

ii

2

n

n)xx(

ss , pentru o serie cu frecvenţe.

Abaterea standard se exprimă în aceeaşi unitate de măsură cu cea a variabilei X. Arată cu

cât variază, în medie, valorile variabilei X de la nivelul mediu, în sens negativ şi pozitiv.

4. Coeficientul de variaţie

Întrucât abaterea standard şi media se exprimă în aceeaşi unitate de măsură cu cea a

variabilei X, aceşti indicatori nu pot fi folosiţi pentru a compara două serii de date care sunt

exprimate în unităţi de măsură diferite. Pentru a înlătura acest inconvenient, se calculează

coeficientul de variaţie, după relaţia:

100x

sv .

Prin evaluarea acestui coeficient se poate aprecia gradul de reprezentativitate a mediei

unei distribuţii. În general, o valoare a coeficientului de variaţie mai mică de 50% arată că media

este reprezentativă.

Exemplu



45



Pensiuni

turistice

Nr. judeţe

1 1

2 2

3 1

4 7

5 3

6 2

9 1

10 1

14 2

18 1

22 2

23 1

29 3

40 1

42 1

46 3

47 1

49 1

61 1

62 1

TOTAL 36

Se cere să se calculeze indicatorii dispersiei.

Rezolvare

Cei mai importanţi indicatori ai dispersiei sunt: amplitudinea de variaţie, varianţa, abaterea

standard şi coeficientul de variaţie.

Amplitudinea de variaţie

Amplitudinea de variaţie se calculează pe baza relaţiei:

62 1 61max minA x x .

Interpretare

Diferenţa dintre nivelul maxim şi nivelul minim al variabilei X este egală cu 61.

Varianţa

Varianţa se calculează pe baza relaţiei:

ii

i2

ii

2

n

n)xx(

s . Pentru această distribuţie, media este 20 03x , .

Elementele de calcul ale varianţei sunt prezentate în tabelul de mai jos:

46

Tabelul 2.21. Elemente de calcul ale varianţei

Pensiuni

turistice

Nr. judeţe xxi 2i )xx( i

2i n)xx(

1 1 -19,03 362,1409 362,1409

2 2 -18,03 325,0809 650,1618

3 1 -17,03 290,0209 290,0209

4 7 -16,03 256,9609 1798,726

5 3 -15,03 225,9009 677,7027

6 2 -14,03 196,8409 393,6818

9 1 -11,03 121,6609 121,6609

10 1 -10,03 100,6009 100,6009

14 2 -6,03 36,3609 72,7218

18 1 -2,03 4,1209 4,1209

22 2 1,97 3,8809 7,7618

23 1 2,97 8,8209 8,8209

29 3 8,97 80,4609 241,3827

40 1 19,97 398,8009 398,8009

42 1 21,97 482,6809 482,6809

46 3 25,97 674,4409 2023,323

47 1 26,97 727,3809 727,3809

49 1 28,97 839,2609 839,2609

61 1 40,97 1678,5409 1678,541

62 1 41,97 1761,4809 1761,481

TOTAL 36 - - 12640,97

Înlocuind în relaţia de mai sus, se obţine: 2

2 12640 97351 138

36

i i

i

i

i

( x x ) n,

s ,n

.

Abaterea standard

Abaterea standard se calculează pe baza relaţiei:

2 351138 18 74s s , , .

Interpretare

Numărul de pensiuni din judeţele României variază, în medie, faţă de nivelul mediu cu

18,74~19 pensiuni, în sens pozitiv şi negativ.

Coeficientul de variaţie

Coeficientul de variaţie se calculează după relaţia:

18 74100 100 93 56

20 03

s ,v , %

x , .

Interpretare

Valoarea coeficientului de variaţie arată că distribuţia judeţelor după numărul de pensiuni

turistice la 31 iulie 2010 nu este o distribuţie omogenă, este caracterizată printr-o dispersie mare

(v>50%). Media nu este reprezentativă pentru această distribuţie.

47

c. Compararea fenomenului de dispersie pentru mai multe distribuţii

Pentru două colectivităţi se înregistrează vârsta persoanelor şi se obţin următoarele

rezultate:

ani2s,ani15x 11 ;

ani2s,ani50x 22 .

Aceste rezultate arată că ambele colectivităţi se caracterizează printr-o dispersie mică a

vârstei persoanelor faţă de vârsta medie. Vârsta medie pentru unităţile din prima colectivitate este,

însă, mult mai mică decât vârsta medie pentru unităţile din cea de-a doua colectivitate. Aceasta

arată că prima colectivitate este formată din persoane foarte tinere, spre deosebire de persoanele

din cea de-a doua colectivitate.

Reprezentarea grafică a două distribuţii caracterizate prin medii diferite şi aceeaşi

dispersie este realizată în figura de mai jos:

Figura 12. Curba frecvenţelor pentru două distribuţii

Reprezentarea grafică a două distribuţii caracterizate prin aceeaşi medie şi dispersii

diferite este realizată în figura de mai jos:

Figura 13. Curba frecvenţelor pentru două distribuţii

d. Abaterea standard şi distribuţia normală

Cunoscând nivelul mediu şi abaterea standard pentru o distribuţie, putem afla care este

proporţia unităţilor care înregistrează valori mai mari, de exemplu, decât ( sx ).

Pentru aceasta, se calculează valori ale unei variabile standardizat Z, cunoscută şi sub

denumirea de scor Zi, după relaţia:

48

s

xxz i

i

. Această mărime arată poziţia unei unităţi faţă de nivelul mediu ( x ), folosind

ca „unitate de măsură” abaterea standard. Variabila Z este o variabilă de medie 0 şi varianţă egală

cu 1.

De exemplu, pentru o distribuţie caracterizată printr-o medie de 100x şi o abatere

standard de 20s , pentru xi=140 putem afla valoarea zi, astfel: 220

100140

iz . Aceasta

arată că unitatea care înregistrează valoarea xi=140 se găseşte la o distanţă faţă de nivelul mediu

egală cu de două ori abaterea standard.

Odată calculată valoarea z, putem afla proporţia unităţilor care înregistrează valori mai

mari decât 140, de exemplu. Aceste valori sunt calculate pentru o distribuţie normală şi sunt

tabelate (Anexa 1).

Tabelul care prezintă aceste rezultate este de forma:

0 0.01 0.05

0

0.1

0.2

1 0,341

1.1 0,375

Pe prima coloană sunt valorile lui z, întregul şi prima zecimală, iar valorile din

următoarele coloane reprezintă a doua zecimală a valorii zi. Valorile din interiorul tabelul arată

proporţia unităţilor care înregistrează valori cuprinse între nivelul mediu şi scorul z corespunzător.

De exemplu, pentru o valoare zi=1,15, se citeşte 0,375. Această valoare arată că

aproximativ 37,5% din unităţile distribuţiei înregistrează valori cuprinse între nivelul mediu şi

valoarea zi=1,15.

În Tabelul Z nu sunt valori negative pentru zi, însă distribuţia normală este o distribuţie

simetrică, deci aria suprafeţei cuprinse între nivelul mediu şi valoarea pozitivă sau negativă a lui Z

este aceeaşi.

Exemple

49

1. Pentru o distribuţie normală de medie, x , şi abatere standard, s, să se afle proporţia

unităţilor care înregistrează valori cuprinse în intervalele ( sx ), ( s2x ) şi ( s3x ).

Rezolvare

Pentru a afla proporţia unităţilor care înregistrează valori cuprinse în intervalul

)sx;sx( , se calculează scorul Z, astfel:

1s

xsx

s

xxz 1

1

1s

xsx

s

xxz 2

2

.

Din tabelul Z se citeşte valoarea care corespunde unui nivel zi=1, şi anume 0,341.

0 0.01 0.05

0

0.1

0.2

1 0,341

1.1 0,375

Această valoare, 0,341, reprezintă aria suprafeţei cuprinse între nivelul mediu şi zi=1.

Proporţia unităţilor care înregistrează valori cuprinse în intervalul )sx;sx( este:

682,0341,02 sau 68,2%.

În mod similar, se obţin valorile zi=±2, pentru limitele intervalului ( s2x ).

50

Din tabelul Z, se citeşte valoarea care corespunde unui nivel zi=2, de 0,477.

0 0.05

0

0.1

0.2

2 0,477

Proporţia unităţilor care înregistrează valori cuprinse în intervalul )s2x;s2x( este:

954,0477,02 sau 95,4%.

Pentru intervalul ( s3x ), se obţin valorile zi=±3:

Pentru zi=±3, se citeşte valoarea corespunzătoare 0,499.

0 0.05

0

51

0.1

0.2

3 0,499

Proporţia unităţilor care înregistrează valori cuprinse în intervalul )s3x;s3x( este:

998,0499,02 sau 99,8%.

Interpretare

Într-o distribuţie normală, în intervalul ( sx ) sunt cuprinse 68,2% din unităţi, în

intervalul ( s2x ) sunt cuprinse 95,4% din unităţi şi în intervalul ( s3x ) sunt cuprinse

99,8% din unităţi.

2. Distribuţia unor studenţi după nota obţinută la un test urmează o lege normală şi se

caracterizează prin următoarele rezultate: 7x şi s=2. Se cere să se afle proporţia studenţilor

care au luat note mai mici decât 6.

Rezolvare

Valoarea Zi care corespunde unei valori xi=6 se calculează astfel:

502

76,

s

xxz i

i

Din tabelul Z se citeşte valoarea care corespunde unui nivel zi=0,5, egală cu 0,191.

0 0.01 0.05

0

0.1

0.2

0,5 0,191

Proporţia studenţilor care au luat note mai mici decât 6 este f=0,5-0,191=0,309 sau 30,9%.

52

Observaţie

Aria suprafeţei reprezentate în figura de mai sus este egală cu unu (după cum am precizat

anterior, suma proporţiilor este egală cu 1 sau 100%). Distribuţia normală este o distribuţie

simetrică, deci proporţia unităţilor care au valori mai mari decât nivelul mediu este de 0,5.

3. Distribuţia unor persoane după vârstă urmează o lege normală şi se caracterizează prin

următoarele rezultate: 30x ani şi s=4 ani. Se cere să se afle proporţia persoanelor care au o

vârstă cuprinsă între 27 ani şi 35 ani.

Rezolvare

Valorile lui Z corespunzătoare lui x1=27 şi x2=35 sunt:

75,04

3027

s

xxz 1

1

25,14

3035

s

xxz 2

2

.

Din tabelul Z se citesc valorile corespunzătoare lui z1=-0,75 şi z2=+1,25, astfel:

0 0.05

0

0.1

0.2

0,7 0,273

1,2 0,394

Proporţia persoanelor care au o vârstă cuprinsă între 27 ani şi 35 ani este:

f=0,273+0,394=0,667 sau 66,7%.

53

4. Pentru o distribuţie normală de medie x , şi abatere standard s, să se afle limitele

intervalului care include 95% din unităţile statistice observate.

Rezolvare

Această problemă poate fi prezentată grafic astfel:

Demersul urmat pentru rezolvarea acestei probleme este invers celui prezentat anterior: se

cunoaşte proporţia (95%) şi trebuie să aflăm valoarea zi care corespunde acestei proporţii.

Pentru a afla valoarea zi, se calculează aria suprafeţei cuprinsă între nivelul mediu şi z, care

este egală cu %5,472

%95 sau 0,475.

Pentru această proporţie egală cu 0,475, se citeşte valoarea zi corespunzătoare, de 1,96.

54

0 0.06

0

0.1

0.2

1,9 0,475

Prin urmare, într-o distribuţie normală, 95% din unităţi au valori cuprinse în intervalul

s96,1x;s96,1x .

Observaţie

În estimarea parametrilor unei populaţii, problematică prezentată în partea a doua,

obiectivul urmărit este de a afla limitele unui interval care acoperă media unei populaţii, în 95%

din cazuri, de exemplu.

2.2.4. Indicatori ai formei unei distribuţii

a. Asimetria

O distribuţie este simetrică dacă valorile frecvenţelor sunt egal dispersate faţă de valoarea

centrală a seriei. Distribuţia normală este exemplul clasic al unei repartiţii simetrice. Graficul

densităţii de repartiţie în cazul unei distribuţii normale are forma unui clopot simetric, cu axa de

simetrie reprezentată de media seriei. O deviere de la forma simetrică a unei distribuţii evidenţiază

fenomenul de asimetrie.

Asimetria poate fi apreciată pe cale grafică prin reprezentarea poligonului şi curbei

frecvenţelor, şi prin reprezentarea diagramei “box-and-whiskers”.

Alura curbei frecvenţelor în cazul unei distribuţii simetrice, a unei distribuţii asimetrice la

dreapta sau la stânga este reprezentată grafic în figurile de mai jos:

55

10,008,006,004,00

Nota

50

40

30

20

10

0

Fre

qu

en

cy

Mean = 7,00Std. Dev. =1,54303N = 190


10,008,006,004,00

Nota

60

50

40

30

20

10

0

Fre

qu

en

cy

Mean = 6,4737Std. Dev. =1,43163N = 190


10,008,006,004,00

Nota

60

50

40

30

20

10

0

Fre

qu

en

cy

Mean = 7,5263Std. Dev. =1,43163N = 190


Alura diagramei “box-and-whiskers” în cazul unei distribuţii simetrice, a unei distribuţii

asimetrice la dreapta sau la stânga este reprezentată grafic în figurile de mai jos:

56

1

10,009,008,007,006,005,004,00


Nota

10,009,008,007,006,005,004,00


Nota

10,009,008,007,006,005,004,00


Cei mai importanţi indicatori ai asimetriei sunt:

57

1. Coeficientul de asimetrie Pearson

Coeficientul de asimetrie Pearson se calculează pe baza relaţiei:

32

23

1

, unde:

ii

i3

ii

3n

n)xx(

reprezintă momentul centrat de ordinul 3;

2

ii

i2

ii

2 sn

n)xx(

reprezintă momentul centrat de ordinul 2, adică varianţa.

Acest indicator este întotdeauna pozitiv. Sensul asimetriei este dat de semnul lui µ3.

Atunci când µ3>0, distribuţia este asimetrică la dreapta. Atunci când µ3<0, distribuţia este

asimetrică la stânga.

2. Coeficientul de asimetrie Fisher

Coeficientul de asimetrie Fisher se calculează pe baza relaţiei:

3

31

s

.

Interpretarea valorii acestui coeficient este similară coeficientului de asimetrie Pearson.

Exemplu





Pensiuni

turistice

Nr. judeţe

1 1

2 2

3 1

4 7

5 3

6 2

9 1

10 1

14 2

18 1

22 2

23 1

29 3

40 1

42 1

46 3

47 1

49 1

61 1

62 1

TOTAL 36

58

Se cere să se calculeze indicatorii asimetriei.

Rezolvare

Indicatorii asimetriei sunt:



32

23

1

.

Elementele de calcul sunt prezentate în tabelul de mai jos:

Tabelul 2.23. Elemente de calcul

Pensiuni

turistice


2i n)xx(

3i )xx( i

3i n)xx(

1 1 -19,03 362,1409 362,1409 -6891,54 -6891,54

2 2 -18,03 325,0809 650,1618 -5861,21 -11722,4

3 1 -17,03 290,0209 290,0209 -4939,06 -4939,06

4 7 -16,03 256,9609 1798,726 -4119,08 -28833,6

5 3 -15,03 225,9009 677,7027 -3395,29 -10185,9

6 2 -14,03 196,8409 393,6818 -2761,68 -5523,36

9 1 -11,03 121,6609 121,6609 -1341,92 -1341,92

10 1 -10,03 100,6009 100,6009 -1009,03 -1009,03

14 2 -6,03 36,3609 72,7218 -219,26 -438,52

18 1 -2,03 4,1209 4,1209 -8,37 -8,37

22 2 1,97 3,8809 7,7618 7,65 15,3

23 1 2,97 8,8209 8,8209 26,2 26,2

29 3 8,97 80,4609 241,3827 721,73 2165,19

40 1 19,97 398,8009 398,8009 7964,05 7964,05

42 1 21,97 482,6809 482,6809 10604,5 10604,5

46 3 25,97 674,4409 2023,323 17515,23 52545,69

47 1 26,97 727,3809 727,3809 19617,46 19617,46

49 1 28,97 839,2609 839,2609 24313,39 24313,39

61 1 40,97 1678,5409 1678,541 68769,82 68769,82

62 1 41,97 1761,4809 1761,481 73929,35 73929,35

TOTAL 36 - - 12640,97 189057,3

Momentele centrate de ordinul doi şi trei sunt: 2

2

12640 97351138

36

i i

i

i

i

( x x ) n,

,n

3

3

189057 35251 59

36

i i

i

i

i

( x x ) n,

,n

Înlocuind în relaţia de mai sus, se obţine: 2 2

31 3 3

2

5251 5920 637

351138

( , ),

,

.

59

Interpretare

Valoarea coeficientului de asimetrie Pearson arată că distribuţia dată se caracterizează

printr-o asimetrie ( 01 ) la dreapta (µ3>0).



3

1 33 3

5251 59 5251 590 798

18 74351 138

, ,,

s ,,

.

b. Boltirea

Boltirea este definită prin compararea distribuţiei statistice cu distribuţia normală din

punctul de vedere al variaţiei variabilei X şi a frecvenţei ni.

Boltirea poate fi apreciată pe cale grafică prin reprezentarea curbei frecvenţelor. Alura

curbei frecvenţelor în cazul unei distribuţii normale (mezocurtice) sau care prezintă un accentuat

fenomen de boltire este reprezentată în figura de mai jos:

Figura 20. Boltirea unei distribuţii

În cazul unei distribuţii leptocurtice, se înregistrează o variaţie mică a valorilor variabilei

X şi o variaţie mare a frecvenţelor absolute, ni. În cazul unei distribuţii platicurtice, se

înregistrează o variaţie mare a variabilei X şi o variaţie mică a frecvenţelor absolute, ni.

Boltirea poate fi apreciată pe cale numerică prin calculul indicatorilor boltirii:

1. Coeficientul de boltire Pearson

Coeficientul de boltire Pearson se calculează pe baza relaţiei:

4

4

22

42

s

, unde:

ii

i4

ii

4n

n)xx(

reprezintă momentul centrat de ordinul 4.

60

O valoare a coeficientului de boltire Pearson 32 arată o distribuţie mezocurtică. O

valoare 32 arată o distribuţie leptocurtică iar o valoare 32 arată o distribuţie platicurtică.

2. Coeficientul de boltire Fisher

Coeficientul de boltire Fisher se calculează pe baza relaţiei:

322 .

O valoare a coeficientului de boltire Fisher 02 arată o distribuţie mezocurtică. O


Exemplu





Pensiuni

turistice

Nr. judeţe

1 1

2 2

3 1

4 7

5 3

6 2

9 1

10 1

14 2

18 1

22 2

23 1

29 3

40 1

42 1

46 3

47 1

49 1

61 1

62 1

TOTAL 36

Se cere să se calculeze indicatorii boltirii.

Rezolvare

Indicatorii boltirii sunt:


4

4

22

42

s

, unde:

61

ii

i4

ii

4n

n)xx(


Elementele de calcul sunt prezentate în tabelul de mai jos:

Tabelul 2.25. Elemente de calcul

Pensiuni

turistice


4i n)xx(

1 1 -19,03 131146,03 131146,03

2 2 -18,03 105677,59 211355,18

3 1 -17,03 84112,12 84112,12

4 7 -16,03 66028,9 462202,3

5 3 -15,03 51031,22 153093,66

6 2 -14,03 38746,34 77492,68

9 1 -11,03 14801,37 14801,37

10 1 -10,03 10120,54 10120,54

14 2 -6,03 1322,12 2644,24

18 1 -2,03 16,98 16,98

22 2 1,97 15,06 30,12

23 1 2,97 77,81 77,81

29 3 8,97 6473,96 19421,88

40 1 19,97 159042,16 159042,16

42 1 21,97 232980,85 232980,85

46 3 25,97 454870,53 1364611,59

47 1 26,97 529082,97 529082,97

49 1 28,97 704358,86 704358,86

61 1 40,97 2817499,55 2817499,55

62 1 41,97 3102814,96 3102814,96

TOTAL 36 - - 10076905,85

Momentul centrat de ordinul patru este: 4

4

10076905 85279914 05

36

i i

i

i

i

( x x ) n,

,n

Înlocuind în relaţia de mai sus, se obţine:

42 2 2

2

279914 052 27

351138

,,

,

.

Interpretare

Valoarea coeficientului de boltire Pearson arată că distribuţia judeţelor după numărul de

pensiuni turistice din 31 iulie 2010 este o distribuţie platicurtică ( 32 ) .


2 2 3 2 27 3 0 73, , .

Interpretare

62

Valoarea coeficientului de boltire Fisher arată că distribuţia judeţelor după numărul de

pensiuni turistice din 31 iulie 2010 este o distribuţie platicurtică ( 02 ).

2.3. Aplicaţie în SPSS

Se consideră distribuţia judeţelor României după numărul de terenuri de sport, în anul

2010, prezentată în tabelul 2.26.

Folosind programul informatic SPSS (Statistical Package for Social Sciences), se cere să

se determine şi să se interpreteze mărimile medii, quartila 1 şi quartila 3, decila 1 şi decila 9,

indicatorii dispersiei şi indicatorii formei unei distribuţii.

Rezolvare

Valorile indicatorilor descriptivi sunt prezentate în tabelul 2.27.

Tabelul 2.26. Indicatorii statisticii descriptive, obţinuţi cu ajutorul programului SPSS

63

Tabelul 2.27. Distribuţia judeţelor României după numărul de terenuri de sport, în anul 2010

Valorile indicatorilor sunt:

- media aritmetică (Mean) este 107.7073 terenuri;

- mediana (Median) este 98 terenuri;

- modul (Mode) este 59 terenuri;

- abaterea standard (Std. Deviation) este 44.55626 terenuri;

- varianţa (Variance) este 1985.262;

- coeficientul de asimetrie Fisher (Skewness) este 0.991;

- coeficientul de boltire Fisher (Kurtosis) este 0.450;

- amplitudinea variaţiei (Range) este 175 terenuri;

- decila 1 (Percentile 10) este 59.4 tereuri;

- quartila 1 (Percentile 25) este 69.5 terenuri;

64

- quartila 3 (Percentile 75) este 133 terenuri;

- decila 9 (Percentile 90) este 187.2 terenuri.

Interpretare

Media aritmetică arată că, în medie, un judeţ are aproximativ 108 terenuri de sport.

Mediana arată că 50% dintre judeţe au mai puţin de 98 terenuri de sport inclusiv, iar 50%

dintre judeţe au mai mult de 98 terenuri de sport, inclusiv.

Modul arată că cel mai frecvent, judeţele au 59 de terenuri de sport.

Abaterea standard arată că, în medie, numărul de terenuri de sport al unui judeţ se abate de

la numărul mediu de terenuri/judeţ cu aproximativ 45 terenuri de sport.

Coeficientul de asimetrie Fisher arată că distribuţia este asimetrică la dreapta.

Coeficientul de boltire Fisher arată că distribuţia este leptocurtică.

Amplitudinea variaţiei arată că diferenţa maximă dintre numărul de terenuri de sport a

oricăror două judeţe este de 175 terenuri.

Decila 1 arată că 10% dintre judeţe au mai puţin de 59 terenuri inclusiv, iar 90% dintre

judeţe au mai mult de 59 terenuri, inclusiv.

Quartila 1 arată că 25% dintre judeţe au mai puţin de 70 terenuri inclusiv, iar 75% dintre


Quartila 3 arată că 75% dintre judeţe au mai puţin de 133 terenuri inclusiv, iar 25% dintre


Decila 9 arată că 90% dintre judeţe au mai puţin de 187 terenuri inclusiv, iar 10% dintre


65

Teste1

1) Sunt discrete următoarele variabile:

a) sexul persoanelor, starea civilă, domiciliul

b) numărul de membri ai unei gospodării, numărul de angajaţi ai unei firme

c) salariul lunar, speranţa de viaţă, vârsta

2) Cu ajutorul coeficientului de variaţie se caracterizează:

a) dispersia unei distribuţii

b) normalitatea unei distribuţii

c) reprezentativitatea mediei unei distribuţii

3) Distribuţia unei serii de studenţi după nota a examen este prezentată în tabelul de mai jos:

Nota Nr. studenţi

4 15

5 10

7 25

9 10

10 10

TOTAL 70

Au loc răspunsurile:

a) 10 studenţi au luat până în cinci la examen

b) 20 de studenţi auu luat peste nouă

c) majoritatea au luat sub şapte, inclusiv

4) Repartiţia unui eşantion de 100 studenţi după nota la un examen este prezentată mai jos.

525402010

108654:X

. Pentru această repartiţie, 80% dintre studenţi au obţinut o notă mai

mică de:

a) 5

b) 10

c) 8

5) Pentru o serie statistică se cunosc rezultatele: Q3 = 4, Q1 = 1, Q2 = 1. În aceste condiţii, seria

este:

a) asimetrică la stânga

b) asimetrică la dreapta

c) simetrică

6) Pentru o colectivitate de firme, repartizate după nivelul investiţiilor, se cunosc următoarele

rezultate: 1000nxi

i

2

i , 300nxi

ii mld. lei, 100ni

i . Se poate considera că populaţia

firmelor este:

a) strict omogenă

1 Răspunsuri: 1 – b; 2 – a,c; 3 – b,c; 4 – c; 5 – b; 6 – b; 7 – a,b,c; 8 – a,b.

66

b) omogenă

c) neomogenă

7) Pentru un eşantion de angajaţi repartizaţi după variabila salariul anual ($) s-au obţinut

rezultatele din tabelul de mai jos.

Statistics

Current Salary

474

0

$34,000.00

$28,000.00

$30,500

$17,000.000

$24,000.00

$28,000.00

$37,000.00

Valid

Missing

N

Mean

Median

Mode

Std. Deviation

25

50

75

Percentiles

Sunt valabile interpretările:

a) în medie, un angajat câştigă anual 28000$

b) alariul cel mai frecvent este 30500$

c) un sfert dintre angajaţi au salariul între 24000 şi 28000$



Statistics

Current Salary

474

0

$34,000.00

$28,000.00

$30,500

$17,000.000

$24,000.00

$28,000.00

$37,000.00

Valid

Missing

N

Mean

Median

Mode

Std. Deviation

25

50

75

Percentiles

Sunt valabile interpretările:

a) media nu este reprezentativă

b) populaţia nu este omogenă după salariu

c) majoritatea câştigă 30500 dolari

67

US 3. ANALIZA STATISTICĂ A UNEI SERII CONTINUE

Cuprins




Obiective

- prezentarea tipurilor de frecvenţe utilizate în analiza unei serii continue

- prezentarea tipurilor de grafice specifice unei serii continue



- prezentarea modului de analiză gafică şi numerică a unei serii continue în SPSS

Competenţe

- însuşirea principalelor metode de analiză grafică şi numerică a unei serii continue


o serie continuă




Termen mediu: 4 h

Bibliografie









7. Tövissi, L.; Isaic-Maniu, Al., Statistica, A.S.E., Bucureşti, 1984.



68

Caracterizarea unităţilor statistice observate după o variabilă continuă se realizează

folosind metode grafice sau numerice.


Reprezentarea grafică a unei serii după o variabilă continuă presupune folosirea

următoarelor diagrame: histograma, poligonul frecvenţelor, curba frecvenţelor sau curba

frecvenţelor cumulate. Indicatorii numerici prin care poate fi caracterizată o serie statistică după o

variabilă continuă pot fi grupaţi, ca şi în cazul variabilelor discrete, în indicatori ai tendinţei

centrale (mărimi medii), indicatori ai dispersiei, indicatori ai asimetriei şi boltirii.

3.1.1. Frecvenţe absolute şi relative cumulate crescător sau descrescător

Frecvenţele absolute şi relative cumulate crescător sau descrescător se calculează în mod

similar modului de calcul prezentat în cazul variabilelor discrete.

Înaintea prelucrării unei serii după o variabilă continuă prezentată pe intervale de variaţie,

dacă limitele intervalelor nu sunt precizate, acestea trebuie închise:

- în cazul intervalelor egale de variaţie, primul şi ultimul interval se închid luând în

considerare aceeaşi mărime a intervalelor;

- în cazul intervalelor inegale de variaţie, primul interval se închide luând în considerare

mărimea intervalului următor, iar ultimul interval se închide luând în considerare

mărimea intervalului anterior.

Exemplu

Distribuţia celor 27 ţări membre ale Uniunii Europene după indicele preţurilor de consum

armonizat (IPCA) înregistrat în anul 2011 (%) este prezentată în tabelul de mai jos:

Tabelul 3.1. Distribuţia ţărilor membre ale Uniunii Europene după indicele preţurilor de

consum armonizat (%) din anul 2011 IPCA

(%)

Număr ţări

până la 110 1

110-120 18

120-130 2

130-140 3

peste 140 3

TOTAL 27

Sursa: Date prelucrate după Baza de date Eurostat, accesată pe 1 noiembrie 2012

http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database

Se cere să se calculeze frecvenţele absolute şi relative cumulate crescător sau descrescător.

Rezolvare

Închiderea intervalelor de variaţie

Mărimea intervalelor de variaţie este l=10. Limita inferioară a primului interval de variaţie

se închide luând în considerare aceeaşi mărime, deci: 110-10=100. Limita superioară a ultimului

interval de variaţie este: 140+10=150.

Frecvenţe absolute cumulate crescător şi descrescător

Frecvenţele absolute cumulate crescător şi descrescător se calculează după relaţiile:

http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database

69

i

1hhi1ii nnNN , respectiv

m

ihhi1ii nnNN .

Valorile frecvenţelor absolute cumulate crescător şi descrescător pentru exemplul dat sunt

prezentate în tabelul de mai jos:

Tabelul 3.2. Frecvenţe absolute cumulate crescător şi descrescător

xi-1-xi ni iN iN

100-110 1 1 27

110-120 18 19 26

120-130 2 21 8

130-140 3 24 6

140-150 3 27 3

TOTAL 27 - -

Interpretare

Un număr de 19 ţări au indicele preţurilor de consum de până la 120 % inclusiv ( 1N ).

Un număr de 21 ţări au un indice al preţurilor de consum de până la 130 % inclusiv ( 2N ). În

mod similar se interpretează celelalte valori din tabelul de mai sus.

Din numărul total de ţări, 3 ţări au indicele preţurilor de consum de peste 140 %, inclusiv.

Un număr de 6 ţări au indicele preţurilor de consum de peste 130 %, inclusiv. În mod similar se

interpretează celelalte valori din tabelul de mai sus.

Observaţie

În interpretarea frecvenţelor absolute cumulate crescător se consideră limita superioară a

intervalului de variaţie, iar în interpretarea frecvenţelor absolute cumulate descrescător se

consideră limita inferioară a intervalului de variaţie.

Frecvenţe relative cumulate crescător şi descrescător

Frecvenţele relative cumulate crescător şi descrescător se calculează după relaţiile:

i

1hhi1ii ffFF , respectiv

m

ihhi1ii ffFF .

Pentru datele din tabelul 3.1, valorile calculate ale frecvenţelor relative cumulate crescător

şi descrescător sunt prezentate în tabelul de mai jos:

Tabelul 3.3. Frecvenţe relative cumulate crescător şi descrescător xi-1-xi ni fi (%) iF iF

100-110 1 3,7 3,7 100,00

110-120 18 66,7 70,4 96,3

120-130 2 7,4 77,8 29,6

130-140 3 11,1 88,9 22,2

140-150 3 11,1 100,00 11,1

TOTAL 27 100,00 - -

Interpretare

70

Ponderea ţărilor care au indicele preţurilor de consum de până la 120 % ( 1F ) este de

70,4%. Ponderea ţărilor care au indicele preţurilor de consum de până la 130 % ( 2F ) este de

77,8%. În mod similar se interpretează celelalte valori din Tabelul 3.3.

Ponderea ţărilor care au indicele preţurilor de consum de peste 110 % este de 96,3%.

29,6% din numărul total de ţări au indicele preţurilor de consum de peste 120%. În mod similar se

interpretează celelalte valori din Tabelul 3.3.

3.1.2. Tipuri de grafice

O distribuţie statistică după o variabilă numerică continuă poate fi reprezentată grafic

folosind histograma, poligonul frecvenţelor, curba frecvenţelor şi curba frecvenţelor cumulate.

Histograma

Construirea histogramei presupune ridicarea unor dreptunghiuri alăturate, cu baza egală, în

cazul intervalelor egale de variaţie, sau inegală, în cazul intervalelor inegale, de înălţime ni. Alura

histogramei, considerând intervale egale de variaţie, este reprezentată în figura de mai jos:

10,008,006,004,00

5

4

3

2

1

0

Fre

qu

en

cy

Histogram

Figura 21. Histograma

Poligonul frecvenţelor

Construirea poligonului frecvenţelor presupune găsirea locului geometric al punctelor Ai

de coordonate ( i'i n,x ) sau ( i

'i n,x ) şi unirea acestora prin segmente de dreaptă. Valorile '

ix

reprezintă mijlocul sau centrul intervalelor de variaţie, calculat ca medie aritmetică simplă a

limitelor intervalelor de variaţie:

2

xxx i1i'

i

.

Curba frecvenţelor

Construirea curbei frecvenţelor presupune ajustarea printr-o linie curbă, continuă a

poligonului frecvenţelor. Curba frecvenţelor pentru o distribuţie normală este reprezentată în

figura de mai jos:

71

10,008,006,004,00

Nota

6

5

4

3

2

1

0

Fre

qu

en

cy

Figura 22. Curba frecvenţelor

Curba frecvenţelor cumulate

Construirea curbei frecvenţelor cumulate presupune reprezentarea grafică a funcţiei de

repartiţie a frecvenţelor unei variabile: F(X<xi). Alura curbei frecvenţelor cumulate crescător este

reprezentată în figura de mai jos:

5 6 7 8 9

nota

0%

25%

50%

75%

100%

Pe

rce

nt

Figura 23. Curba frecvenţelor cumulate crescător


Analiza numerică presupune calculul şi interpretarea indicatorilor statisticii descriptive: ai

tendinţei centrale, ai dispersiei şi ai formei distribuţiei.

3.2.1. Indicatori ai tendinţei centrale (mărimi medii)

a. Media aritmetică

Media aritmetică pentru o serie statistică după o variabilă continuă se calculează după

relaţia:

ii

ii

'i

n

nx

x , unde 2

xxx i1i'

i

.

72

Exemplu

Distribuţia judeţelor României după rata şomajului (%) înregsitrată în anul 2010, este


Tabelul 3.4. Distribuţia judeţelor României după rata şomajului ( %),

în anul 2010

xi-1-xi

(%)

ni

2-4 3

4-6 6

6-8 12

8-10 16

10-12 5

TOTAL 42

Sursa: Date prelucrate după Anuarul Statistic al României, 2011.

Se cere să se calculeze media aritmetică.

Rezolvare

Media aritmetică se calculează după relaţia

ii

ii

'i

n

nx

x , unde 2

xxx i1i'

i

.

Centrul intervalelor de variaţie se calculează astfel: 0 11

2 43

2 2

' x xx

;

1 22

4 65

2 2

' x xx

etc.

Elementele pentru calculul mediei aritmetice sunt prezentate în tabelul de mai jos:

Tabelul 3.5. Elemente pentru calculul mediei aritmetice xi-1-xi

(%)

ni 'ix i

'i nx

2-4 3 3 9

4-6 6 5 30

6-8 12 7 84

8-10 16 9 144

10-12 5 11 55

TOTAL 42 - 322

Înlocuind în relaţia de mai sus se obţine:

3227 67

42

'

i i

i

i

i

x n

x , %n

Interpretare

Rata medie a şomajului în judeţele din România în anul 2010 este de 7,67%.

73

b. Modul (Mo)

Pentru aflarea modului în cazul unei variabile continue, trebuie parcurse următoarele

etape:

se află frecvenţa maximă, nimax;

în dreptul acestei frecvenţe maxime, se citeşte intervalul modal (xi-1, xi);

în acest interval, modul se află prin interpolare, după relaţia:

21

11i dxMo

, unde:

xi-1, reprezintă limita inferioară a intervalului modal;

d este mărimea intervalului modal, d= xi - xi-1;

1 este diferenţa dintre frecvenţa intervalului modal şi frecvenţa intervalului anterior:

1imaxi1 nn ;

2 este diferenţa dintre frecvenţa intervalului modal şi frecvenţa intervalului următor:

1imaxi1 nn .

Exemplu

Distribuţia judeţelor României după rata şomajului (%) înregistrată în anul 2010, este


Tabelul 3.6. Distribuţia judeţelor României după rata şomajului ( %)

din anul 2010

xi-1-xi

(%)

ni

2-4 3

4-6 6

6-8 12

8-10 16

10-12 5

TOTAL 42

Se cere să se calculeze valoarea modului.

Rezolvare

Etapele aflării modului sunt:

se află frecvenţa maximă, nimax=16;

în dreptul acestei frecvenţe maxime se citeşte intervalul modal (8-10);

în acest interval, modul se află prin interpolare, după relaţia:

21

11i dxMo

, unde:

xi-1 =8;

d= xi - xi-1 =10-8=2 ;

1 1 16 12 4imax in n ;

1 1 16 5 11imax in n .

Înlocuind în relaţia de mai sus, se obţine:

74

16 128 2 8 53

16 12 16 5

( )Mo ,

( ) ( )

%

Interpretare

Cele mai multe judeţe din România au avut, în anul 2010, o rată a şomajului de 8,53%.

c. Mediana (Me)

Aflarea medianei presupune parcurgerea următoarelor etape:

se calculează unitatea mediană:

1

2

iMe i

n

U

;



;

în dreptul primei valori Ni↓≥UMe

, se citeşte intervalul median: (xi-1, xi);

în acest interval, mediana se află prin interpolare după relaţia:

i

1iMe

1in

NUdxMe

, unde:

xi-1, reprezintă limita inferioară a intervalului median;

d este mărimea intervalului median, d= xi - xi-1;

1iN este frecvenţa absolută cumulată corespunzătoare intervalului anterior intervalului median;

ni este frecvenţa absolută corespunzătoare intervalului median.

Exemplu




din anul 2010

xi-1-xi

(%)

ni

2-4 3

4-6 6

6-8 12

8-10 16

10-12 5

TOTAL 42

Se cere să se calculeze mediana.

Rezolvare

Etape pentru aflarea medianei:

se calculează unitatea mediană: 42 1

21 52 2

iMe i

n

U ,

;


tabelul de mai jos:

75

Tabelul 3.8. Frecvenţele absolute cumulate crescător xi-1-xi ni iN

2-4 3 3

4-6 6 9

6-8 12 21

8-10 16 37

10-12 5 42

TOTAL 42 -

prima valoare Ni↓=37 UMe

=21,5;

în dreptul acestei valori, se citeşte intervalul median: (8-10);

în acest interval, mediana se află prin interpolare după relaţia:

i

1iMe

1in

NUdxMe

, unde:

xi-1=8;

d= xi - xi-1=10-8=2;

1 21iN ;

ni = 16.

Înlocuind în relaţia de mai sus, se obţine: 21 5 21

8 2 8 12516

,Me ,

%.

Interpretare

Jumătate din judeţele României au înregistrat în anul 2010 o rată a şomajului de până la

8,125% şi jumătate din judeţele României au înregistrat o rată a şomajului de peste 8,125%.

d. Generalizarea medianei: quantilele

1. Quartilele

Quartila unu (Q1)

Aflarea quartilei unu presupune parcurgerea următoarelor etape:


n

U ii

Q1

;



în dreptul primei valori Ni↓≥UQ1, se citeşte intervalul quartilic unu: (xi-1, xi);

în acest interval, quartila unu se află prin interpolare după relaţia:

1

1

Q

1iQ

1i1n

NUdxQ

, unde:

xi-1, reprezintă limita inferioară a intervalului quartilic unu;

d este mărimea intervalului quartilic unu, d= xi - xi-1;

1iN este frecvenţa absolută cumulată corespunzătoare intervalului anterior intervalului

quartilic unu;

nQ1 este frecvenţa absolută corespunzătoare intervalului quartilic unu.

Quartila doi (Q2)

76

După cum am arătat în cazul variabilelor discrete, quartila doi este egală cu mediana,

Q2=Me.

Quartila trei (Q3)

Aflarea quartilei trei presupune parcurgerea următoarelor etape:


3 1

4

i

Q i

n

U

;



în dreptul primei valori Ni↓≥UQ1 se citeşte intervalul quartilic trei: (xi-1, xi);

în acest interval, quartila trei se află prin interpolare după relaţia:

3

3

Q

1iQ

1i3n

NUdxQ

, unde:

xi-1, reprezintă limita inferioară a intervalului quartilic trei;

d este mărimea intervalului quartilic trei, d= xi - xi-1;

1iN este frecvenţa absolută cumulată corespunzătoare intervalului anterior intervalului

quartilic trei;

nQ3 este frecvenţa absolută corespunzătoare intervalului quartilic trei.

Exemplu




din anul 2010

xi-1-xi

(%)

ni

2-4 3

4-6 6

6-8 12

8-10 16

10-12 5

TOTAL 42

Se cere să se calculeze quartila unu şi quartila trei.

Rezolvare

Quartila unu

Etape pentru aflarea quartilei unu:


143

10 754 4

iQ i

n

U ,

;


tabelul de mai jos:

77

Tabelul 3.10. Distribuţia judeţelor României după rata şomajului (%) din anul 2010 xi-1-xi ni iN

2-4 3 3

4-6 6 9

6-8 12 21

8-10 16 37

10-12 5 42

TOTAL 42 -

prima valoare Ni↓=21 ≥UQ1=10,75;

în dreptul acestei valori se citeşte intervalul quartilic unu: (6-8);

în acest interval, quartila unu se află prin interpolare după relaţia:

1

1

Q

1iQ

1i1n

NUdxQ

, unde:

xi-1=6;

d= xi - xi-1=8-6=2;

1 9iN ;

ni = 12.


10 75 96 2 6 29

12

,Q ,

%

Interpretare

25% din judeţele României au avut în anul 2010 o rată a şomajului de până la 6,29%, iar

75% au avut o rată a şomajului de peste 6,29 %.

Quartila trei


3 13 43

32 254 4

i

Q i

n

U ,

;

prima valoare Ni↓=37 ≥UQ1=32,25;

în dreptul acestei valori se citeşte intervalul quartilic trei: (8-10);

în acest interval, quartila trei se află prin interpolare după relaţia:

3

3

Q

1iQ

1i3n

NUdxQ

, unde:

xi-1=8;

d= xi - xi-1=10-8=2;

1 21iN ;

ni = 16.


32 25 218 2 9 41

16

,Q ,

%.

Interpretare

75% din judeţele României au valori ale ratei şomajului de până la 9,41%, iar 25% din

judeţe au valori ale ratei şomajului de peste 9,41%.

78

3.2.2. Indicatori ai dispersiei

Principalii indicatori ai dispersiei sunt:

1. Amplitudinea de variaţie

Amplitudinea de variaţie măsoară distanţa dintre nivelul maxim şi nivelul minim al unei

variabile. Se calculează pe baza relaţiei:

minmax xxA .

2. Varianţa

Varianţa se calculează pe baza relaţiei:

ii

i2

i

'i

2

n

n)xx(

s . Varianţa nu are unitate de măsură şi nu se interpretează.

3. Abaterea medie pătratică (abaterea standard)

Abaterea medie pătratică se calculează pe baza relaţiei:

ii

i2

i

'i

2

n

n)xx(

ss . Abaterea medie pătratică reprezintă variaţia medie a

valorilor individuale ale variabilei X de la nivelul mediu, în sens pozitiv şi negativ.

4. Coeficientul de variaţie


100x

sv .

Exemplu

Distribuţia judeţelor României după rata şomajului (%) din anul 2010, este prezentată în

tabelul de mai jos:


din anul 2010

xi-1-xi

(%)

ni

2-4 3

4-6 6

6-8 12

8-10 16

10-12 5

TOTAL 42

Se cere să se calculeze abaterea standard şi coeficientul de variaţie.

Rezolvare

Abaterea standard

79

Abaterea standard se calculează pe baza relaţiei:

ii

i2

i

'i

2

n

n)xx(

ss .

Pentru această distribuţie, media aritmetică este 7 67x , %.

Elementele de calcul ale abaterii standard sunt prezentate în tabelul de mai jos:

Tabelul 3.12. Elemente de calcul ale abaterii standard xi-1-xi ni '

ix xx'i

2'i )xx( i

2'i n)xx(

2-4 3 3 -4,67 21,81 65,43

4-6 6 5 -2,67 7,13 42,78

6-8 12 7 -0,67 0,45 5,4

8-10 16 9 1,33 1,77 28,32

10-12 5 11 3,33 11,09 55,45

TOTAL 42 - - - 197,38

Înlocuind în relaţia de mai sus se obţine: 2

2 197 382 17

42

'

i i

i

i

i

( x x ) n,

s s ,n

%.

Interpretare

Ratele şomajului ale judeţelor României din anul 2010, variază, în medie, de la nivelul

mediu al ratelor şomajului cu ± 2,17%

Coeficientul de variaţie


2 17100 100 28 29

7 67

s ,v , %

x , .

Interpretare

Valoarea coeficientului de variaţie arată că distribuţia judeţelor României după rata

şomajului din anul 2010 este o distribuţie relativ omogenă, caracterizată printr-o dispersie relativ

mică (v<50%). Media este reprezentativă pentru această distribuţie.

3.2.3. Indicatori ai formei unei distribuţii

Asimetria

Indicatorii asimetriei se calculează, în cazul unei variabile continue, astfel:



32

23

1

, unde:

80

ii

i3

i

'i

3n

n)xx(

reprezintă momentul centrat de ordinul 3, unde: 2

xxx i1i'

i

;

2

ii

i2

i

'i

2 sn

n)xx(

reprezintă momentul centrat de ordinul 2, adică varianţa.

Acest indicator este întotdeauna pozitiv. Sensul asimetriei este dat de semnul lui µ3.

Atunci când µ3>0, distribuţia este asimetrică la dreapta. Atunci când µ3<0, distribuţia este

asimetrică la stânga.



3

31

s

.

Interpretarea valorii acestui coeficient este similară coeficientului de asimetrie Pearson.

Boltirea

Indicatorii boltirii se calculează după relaţiile

1. Coeficientul de boltire Pearson


4

4

22

42

s

, unde:

ii

i4

i

'i

4n

n)xx(


O valoare a coeficientului de boltire Pearson 32 arată o distribuţie mezocurtică. O


2. Coeficientul de boltire Fisher


322 .

O valoare a coeficientului de boltire Fisher 02 arată o distribuţie mezocurtică. O


Exemplu

Distribuţia judeţelor României după rata şomajului (%), este prezentată în tabelul de mai

jos:


din anul 2010

81

xi-1-xi

(%)

ni

2-4 3

4-6 6

6-8 12

8-10 16

10-12 5

TOTAL 42

Se cere să se calculeze coeficientul de asimetrie Pearson şi coeficientul de boltire Pearson.

Rezolvare


32

23

1

, unde:

ii

i3

i

'i

3n

n)xx(

; 2

ii

i2

i

'i

2 sn

n)xx(

.

Elementele de calcul ale momentelor centrate de ordinul doi şi trei sunt prezentate în

tabelul de mai jos:

Tabelul 3.14. Elemente de calcul ale momentelor centrate de ordinul doi şi trei xi-1-xi ni '

ix xx'i

2'i )xx( i

2'i n)xx(

3'i )xx( i

3'i n)xx(

2-4 3 3 -4,67 21,81 65,43 -101,85 -305,55

4-6 6 5 -2,67 7,13 42,78 -19,03 -114,18

6-8 12 7 -0,67 0,45 5,4 -0,3 -3,6

8-10 16 9 1,33 1,77 28,32 2,35 37,6

10-12 5 11 3,33 11,09 55,45 36,93 184,65

TOTAL 42 - - - 197,38 - -201,08

Înlocuind în relaţiile de mai sus, se obţine:

3

201 084 788

42

,,

;

2

197 384 699

42

,, .

Coeficientul de asimetrie Pearson este:

2

1 3

4 7880 22

4 699

, 22,924,

, 103,757

.

Interpretare

Valoarea coeficientului de asimetrie Pearson arată că distribuţia dată prezintă o asimetrie

( 01 ) la stânga (µ3<0).

Coeficientul de asimetrie Fisher este:

3

1 33 3

4 788 4 7880 46

2 1684 699

, ,,

s ,,

.

82

Valoarea coeficientului de asimetrie Fisher arată, de asemenea, că distribuţia dată prezintă

o asimetrie la stânga.

Coeficientul de boltire Pearson

4

4

22

42

s

, unde:

ii

i4

i

'i

4n

n)xx(

.

Elementele de calcul ale momentului centrat de ordinul patru sunt prezentate în tabelul de

mai jos:

Tabelul 3.15. Elemente de calcul ale momentului centrat de ordinul patru xi-1-xi ni '

ix xx'i

4'i )xx( i

4'i n)xx(

2-4 3 3 -4,67 475,63 1426,89

4-6 6 5 -2,67 50,82 304,92

6-8 12 7 -0,67 0,2 2,4

8-10 16 9 1,33 3,13 50,08

10-12 5 11 3,33 122,96 614,8

TOTAL 42 - - - 2399,09

Înlocuind în relaţiile de mai sus, se obţine:

4

2399 09

42

,57,12 .

Coeficientul de boltire Pearson este: 2 2

57 122 59

4 699

,,

, .

Interpretare

Valoarea coeficientului de boltire Pearson arată că distribuţia dată este o distribuţie

platicurtică ( 32 ).


Se consideră distribuţia judeţelor României după rata şomajului (%), în anul 2010,

prezentată în tabelul 3.16.

Folosind programul informatic SPSS (Statistical Package for Social Sciences), se cere să

se determine şi să se interpreteze mărimile medii, quartila 1 şi quartila 3, decila 1 şi decila 9,

indicatorii dispersiei şi indicatorii formei unei distribuţii.

83

Tabelul 3.16. Distribuţia judeţelor României după rata şomajului, în anul 2010

Rezolvare

Valorile indicatorilor descriptivi sunt prezentate în tabelul 3.17.

Tabelul 3.17. Indicatorii statisticii descriptive, obţinuţi cu ajutorul programului SPSS

84

Valorile indicatorilor sunt:

- media aritmetică (Mean) este 7.8927%;

- mediana (Median) este 8.1%;

- modul (Mode) este 5.8%;

- abaterea standard (Std. Deviation) este 1.96652%;

- varianţa (Variance) este 3.867;

- coeficientul de asimetrie Fisher (Skewness) este -0.459;

- coeficientul de boltire Fisher (Kurtosis) este 0.196;

- amplitudinea variaţiei (Range) este 9.1%;

- decila 1 (Percentile 10) este 5.32%;

- quartila 1 (Percentile 25) este 6.4%;

- quartila 3 (Percentile 75) este 9.35%;

- decila 9 (Percentile 90) este 10.34%.

Interpretare

Media aritmetică arată că, în medie, un judeţ are o rată a şomajului de 7.8927%.

Mediana arată că 50% dintre judeţe au o rată a şomajului mai mică de 8.1%, inclusiv, iar

50% dintre judeţe au rata şomajului mai mare de 8.1%, inclusiv.

Modul arată că cel mai frecvent, judeţele au o rată a şomajului de 5.8%.

Abaterea standard arată că, în medie, rata şomajului unui judeţ se abate de la rata medie a

şomajului cu 1.96652%.

Coeficientul de asimetrie Fisher arată că distribuţia este asimetrică la stânga.

Coeficientul de boltire Fisher arată că distribuţia este leptocurtică.

Amplitudinea variaţiei arată că diferenţa maximă dintre ratele şomajului a două judeţe este

de 9.1%.

Decila 1 arată că 10% dintre judeţe au rata şomajului mai mică de 5.32% inclusiv, iar 90%

dintre judeţe au rata şomajului mai mare de 5.32%, inclusiv.

Quartila 1 arată că 25% dintre judeţe au au rata şomajului mai mică de 6.4% inclusiv, iar


Quartila 3 arată că 75% dintre judeţe au rata şomajului mai mică de 9.35% inclusiv, iar


Decila 9 arată că 90% dintre judeţe au rata şomajului mai mică de 10.34% inclusiv, iar

10% dintre judeţe au rata şomajului mai mare de 10.34%, inclusiv

85

Teste1

1) Histograma este:

a) specifică seriilor continue

b) o medie specială

c) o suprafaţă

2) Pentru rezultatele din tabelul de mai jos sunt valabile răspunsurile: Statistics

Rata somajului

N Valid 41

Mean 7.8927

Median 8.1000

Mode 5.80

Std. Deviation 1.96652

Variance 3.867

Skewness -.459

Kurtosis .196

Range 9.10

Percentiles 10 5.3200

25 6.4000

75 9.3500

90 10.3400

a) distribuţia este asimetrică la stânga

b) media este reprezentativă

c) jumătate dintre unităţi au valoarea sub 6,4



Statistics

Current Salary

474

0

$34,000.00

$28,000.00

$30,500

$17,000.000

$24,000.00

$28,000.00

$37,000.00

Valid

Missing

N

Mean

Median

Mode

Std. Deviation

25

50

75

Percentiles

Sunt valabile interpretările :

a) repartiţia angajaţilor înregistrează o asimetrie la dreapta

b) repartiţia angajaţilor înregistrează o asimetrie la stânga

c) epartiţia angajaţilor este simetrică

1 Răspunsuri: 1- a,c; 2 – a,b; 3 - a; 4 – b; 5 – c.

86

4) Pentru repartiţia de mai jos, quartila 1 are valoarea: xi-1-xi ni

0- 10 20

10-20 40

20-30 35

30-40 15

40-50 10

TOTAL 120

a) 10

b) 12,5

c) 25

5) Pentru repartiţia de mai jos, modul are valoarea: xi-1-xi ni

0- 10 5

10-20 10

20-30 20

30-40 15

40-50 10

TOTAL 60

a) 20,5

b) 30

c) 36,67

87

US 4. ANALIZA STATISTICĂ A UNEI SERII CALITATIVE

Cuprins


4.2 Analiza numerică


Obiective

- prezentarea tipurilor de grafice specifice unei serii calitative



- prezentarea modului de analiză gafică şi numerică a unei serii categoriale în SPSS

Competenţe

- însuşirea principalelor metode de analiză grafică şi numerică a unei serii calitative


o serie calitative




Termen mediu: 4 h

Bibliografie


2. Isaic-Maniu, Al.; Grădinaru, A.; Voineagu, V.; Mitruţ, C. - Statistică teoretică şi economică,

Editura Tehnică, Chişinău, 1994.










88

4.1. Analiza grafică

O distribuţie statistică după o variabilă categorială nominală sau ordinală poate fi

reprezentată grafic folosind diagrame de structură: cercul de structură, dreptunghiul de structură

etc.

Alura acestor grafice este prezentată în figurile de mai jos:

65,0%

35,0%

Feminin

Masculin

Sexul_persoanei

Figura 24. Cercul de structură

FemininMasculin

Sexul_persoanei

70,0%

60,0%

50,0%

40,0%

30,0%

20,0%

10,0%

0,0%

Perc

en

t

65,0%

35,0%

Figura 25. Dreptunghiul de structură

4.2. Analiza numerică

4.2.1. Mărimi relative

Pentru o distribuţie după o variabilă categorială nominală se pot calcula frecvenţele

relative, respectiv ponderea unităţilor din fiecare categorie în volumul total al colectivităţii, după

relaţia:

100n

n100

n

nf i

ii

ii

.

89

Exemplu

Distribuţia studenţilor dintr-o grupă pe sexe, la 1 ianuarie 2009, se prezintă astfel:

Tabelul 4.1 Distribuţia studenţilor dintr-o grupă

pe sexe, la 1 ianuarie 2009

Sexul persoanei Nr. studenţi

Masculin 7

Feminin 13

TOTAL 20

Se cere să se calculeze frecvenţele relative.

Rezolvare

Frecvenţele relative se calculează după relaţia:

100n

n100

n

nf i

ii

ii

.


%3510020

7100

n

nf

ii

11

; %65100

20

13100

n

nf

ii

22

.

Interpretare

Ponderea persoanelor de sex masculin este de 35%, iar ponderea persoanelor de sex

feminin este de 65%.

4.2.2 Mărimi medii

În cazul unei distribuţii după o variabilă categorială nominală singura mărime medie care

poate fi calculată este modul. Modul arată categoria variabilei X cea mai frecvent observată,

respectiv cea care corespunde frecvenţei maxime.

În cazul unei distribuţii după o variabilă categorială ordinală, mărimile medii care pot fi

calculate sunt modul şi mediana.

Exemple

Distribuţia salariaţilor dintr-o regiune pe sexe, la 1 ianuarie 2009 se prezintă astfel:

Tabelul 4.2 Distribuţia salariaţilor dintr-o regiune

pe sexe, la 1 ianuarie 2009 Sexul persoanei Nr. studenţi

1-Masculin 700

2-Feminin 130

TOTAL 830

Se cere să se afle valoarea modului.

Rezolvare

Pentru aflarea modului, se observă că nimax=700. Categoria care corespunde acestei

frecvenţe maxime este xi=1-Masculin.

90

Interpretare

Cele mai multe persoane din colectivitatea observată sunt de sex masculin.

2. Distribuţia salariaţilor unei firme după nivelul de studii (Primar, Gimnazial, Liceal,

Superior) se prezintă astfel:

Tabelul 4.3 Distribuţia salariaţilor unei firme

după nivelul de studii Nivel de studii Nr. persoane

Primar 10

Gimnazial 25

Liceal 15

Superior 50

TOTAL 100

Se cere să se calculeze valorile modului şi medianei.

Rezolvare

Modul

Pentru identificarea modului, se află nimax=50. Categoria care corespunde acestei frecvenţe

maxime este xi=Superior.

Interpretare

Cele mai multe persoane din colectivitatea observată au studii superioare.

Mediana

Pentru aflarea medianei, se află 502

100

2

n

U ii

Me

. Se calculează frecvenţele

absolute cumulate crescător, prezentate în tabelul de mai jos:

Tabelul 4.4 Frecvenţele absolute cumulate crescător Nivel de studii Nr. persoane Ni↓

Primar 10 10

Gimnazial 25 35

Liceal 15 50

Superior 50 100

TOTAL 100 -

Prima valoare Ni↓=50 ≥UMe

=50. Mediana este reprezentată de categoria Liceal.

Interpretare

Jumătate din numărul total al persoanelor sunt cu studii primare, gimnaziale şi liceale, iar

jumătate sunt cu studii superioare.

91

4.3. Aplicaţie în SPSS

Se consideră distribuţia medaliilor obţinute de România la Jocurile Olimpice după

categoria medaliei, în perioada 1924-2012.

Cu ajutorul programului SPSS, se cere să se determine şi să se interpreteze frecvenţele

relative, modul şi mediana.

Rezolvare

Distribuţia medaliilor olimpice şi frecvenţele relative sunt prezentate în tabelul 4.6, iar

indicatorii medii sunt prezentaţi în tabelul 4.7.

Tabelul 4.5. Distribuţia medaliilor olimpice ale României după categoria medaliei,

pentru perioada 1924-2012

Interpretare

Frecvenţele relative (coloana Percent şi Valid Percent) arată că 29% dintre medaliile

olimpice obţinute de România sunt de aur, 31,4% sunt de argint, iar 39.9% sunt de bronz.

Pentru a permite programului SPSS să calculeze mărimile medii, fiecărei categorii i s-a

atribuit câte un cod, astfel:

- pentru aur s-a atribuit codul 1;

- pentru argint s-a atribuit codul 2;

- pentru bronz s-a atribuit codul 3.

Rezultatul este prezentat în tabelul 4.7.

Tabelul 4.6. Mărimile medii, obţinute cu ajutorul programului SPSS

Interpretare

Mediana este categoria cu codul 2, adică argint. 50% dintre medalii sunt cel mult de

argint, inclusiv, iar 50% din medaliile obţinute sunt cel puţin de argint, inclusiv.

Modul este categoria cu codul 3, adică bronz. Cele mai multe medalii olimpice sunt de

bronz.

92

Teste1

1) Sunt nominale următoarele variabile:

a) genul persoanelor, starea civilă, domiciliul

b) numărul de membri ai unei gospodării, numărul de angajaţi ai unei firme

c) salariul lunar, speranţa de viaţă, vârsta

2) Pentru un eşantion de persoane repartizate după variabila X (opţiunea de vot pentru un candidat

la funcţia de preşedinte), s-au obţinut rezultatele din tabelul de mai jos.

opţiunea in

Da 350

Nu 150

Total 500

Este corect rezultatul:

a) în medie, 75% din alegători votează pentru candidatul considerat

b) în medie, la 100 de alegători 70 votează pentru candidatul considerat

c) în medie, 25% dintre alegători votează împotriva candidatului considerat

3) Dacă pentru un candidat au votat 10% pentru şi 90% împotrivă, atunci:

a) populaţia este omogenă

b) abaterea standard este de 9,4%

c) populaţia este asimetrică la dreapta

4) Dacă într-o clasă sunt 10 studenţi de la real, 15 de la uman şi 5 de la vocaţional, atunci se poate

spune că

a) putem construi o repartiţie după o variabilă nominală

b) în medie, dintr-o sută de studenţi, 30% sunt de la real

c) valoarea dominantă este “uman”

d) valoarea medie este “real”

1 Răspunsuri: 1 – a; 2 – b; 3 – a,b; 4 – a,b,c

93

PARTEA A DOUA – STATISTICĂ INFERENŢIALĂ

US 5. NOŢIUNI FUNDAMENTALE

Cuprins

5.1. Probabilităţi. Variabile aleatoare. Distribuţii probabiliste

5.2. Selecţie. Eşantion. Variabile aleatoare de selecţie

5.3. Parametri, estimatori, estimaţii. Distribuţii de selecţie

5.4. Statistici frecvent utilizate în cercetările prin sondaj

Obiective

- definirea conceptelor fundamentale specifice statisticii inferenţiale

- prezentarea proprietăţilor instrumentelor utilizate

- prezentarea de exemple şi exerciţii pentru aprofundarea

Competenţe

- însuşirea noţiunilor fundamentale ale statisticii inferenţiale

- înţelegerea diferenţelor între parametri, estimatori şi estimaţii

- capacitatea de a distinge între metodele descriptive şi cele inferenţiale

Termen mediu: 2 h

Bibliografie


2. Biji, M.; Biji, El., Statistica teoretică, Editura Didactică şi Pedagogică, Bucureşti, 1979


4. Jemna, D.V., Econometrie, Editura Sedcom Libris, Iaşi, 2009





94

Inferenţa statistică are ca obiectiv cunoaşterea unei populaţii în mod indirect, prin

prelucrarea datelor la nivelul unui eşantion reprezentativ extras din aceasta, după o metodă care

asigură proprietatea de reprezentativitate (aşa cum este metoda extragerii aleatoare). Inferenţa

statistică presupune estimarea parametrilor unei populaţii şi testarea ipotezelor statistice.

5.1. Probabilităţi. Variabile aleatoare. Distribuţii probabiliste

A. Probabilităţi

Pentru definirea conceptului de probabilitate este important să se prezinte noţiunile de

experienţă aleatoare, eveniment elementar, mulţimea evenimentelor posibile, eveniment aleator.

Experienţa aleatoare - o acţiune sau un proces care conduce la un ansamblu de rezultate

posibile, fiecare rezultat fiind supus întâmplării, adică neputând fi anticipat.

Evenimentul elementar - rezultatul posibil al experienţei aleatoare, este notat cu .

Mulţimea evenimentelor elementare este notată cu şi se mai numeşte mulţimea

evenimentelor posibile.

Exemplu

Un exemplu clasic de experienţă aleatoare este aruncarea unui zar. Evenimentul elementar

este apariţia unei feţe, în total, existând şase evenimente elementare, }6,5,4,3,2,1{Ω .

Evenimentul aleator - un eveniment definit printr-o proprietate, care poate fi îndeplinită

sau nu în urma realizării experienţei aleatoare.

Exemplu

În cazul aruncării zarului, un eveniment aleator îl constituie apariţia unei feţe cu număr

par. Submulţimea care corespunde acestei proprietăţi este A = {2, 4, 6}.

Evenimentele favorabile - evenimentele care compun submulţimea evenimentelor

elementare care îndeplinesc proprietatea de definire a evenimentului aleator. Mulţimea acestor

evenimente se numeşte mulţimea evenimentelor favorabile.

Definiţii ale probabilităţii

a. Definiţia clasică a probabilităţii (Bernoulli şi Laplace)

Probabilitatea ca un eveniment să se realizeze reprezintă raportul dintre numărul de

evenimente elementare favorabile realizării evenimentului şi numărul evenimentelor egal posibile.

n

m

card

Acardp

)(

)(

unde m este numărul cazurilor favorabile şi n este numărul cazurilor posibile, unde

nm0 , ceea ce implică 1p0 .

Valoarea p=0 corespunde imposibilităţii realizării evenimentului sau evenimentul

imposibil, iar valoarea p=1 corespunde evenimentului cert sau sigur.

Exemplu

În cazul aruncării zarului, probabilitatea de apariţie a unei feţe cu număr par este:

5,06

3

)(

)(

card

Acardp .

95

b. Definiţia probabilităţii bazată pe frecvenţă

Probabilitatea este definită ca un caz limită al frecvenţei, atunci când numărul de

experienţe tinde la infinit.

n

mp

n lim , unde m este numărul efectiv de realizări ale unui eveniment dintr-un număr n

de experienţe realizate, adică este frecvenţa relativă de apariţie a unui eveniment.

Exemplu

Să presupunem că am aruncat un zar de 10 ori, iar faţa cu numărul 6 a apărut de 3 ori.

Deci frecvenţa relativă este 0,3. Dacă mărim numărul de aruncări foarte mult (teoretic la infinit),

atunci frecvenţa de apariţie tinde către valoarea 1/6, care este tocmai probabilitatea de apariţie a

feţei cu numărul 6 la aruncarea unui zar.

Definiţia axiomatică

Consideră că probabilitatea este o aplicaţie, o funcţie care asociază fiecărui eveniment

aleator un număr real care măsoară posibilitatea ca evenimentul să apară prin realizarea

experienţei aleatoare.

Axiome:

- 0 A)) A, P((

- 1)P(Ω

- P(B)P(A)B) P(AΦ, atunci B) A,B, A( sau

n

i

ii

n

ijii )P(A)A P(j, atunciiΦ, pentru A}, A,n,i) {A(

11

1

BA - A şi B sunt incompatibile (exemplu, la aruncarea unui zar, o faţă pară şi o

faţă impară)

Proprietăţi

- -P(A))A) A, P(( c 1

- 0)P(Φ

- 10 P(A)) A, (

- B)P(B)-P(AP(A)B) P(A) A, B, (

Exemplu

A este evenimentul să apară o faţă cu număr par, iar B să apară o faţă cu număr mai mare

decât 3. Să se verifice proprietăţile.

B. Variabile aleatoare

O experienţă aleatoare este descrisă prin mulţimea evenimentelor elementare

,...},...,{ 21 n .

Variabila aleatoare este o aplicaţie sau o funcţie care asociază fiecărui eveniment

elementar o măsură, un număr real: R:X , RxX iii )( , adică

X este o funcţie definită pe , cu valori în mulţimea numerelor reale R.

Exemplu

96

Un exemplu de variabilă aleatoare este cea asociată experienţei aleatoare a aruncării pe o

masă a două zaruri. În acest caz, }6,1j,i ),j,i{( , iar funcţia care se poate asocia

experienţei este aceea a atribuirii unui număr real fiecărui eveniment elementar egal cu suma

punctelor obţinute la fiecare aruncare. Deci,

6,1 i,jj, pentrui)(r X(i,j), iaω .

Mulţimea valorilor variabilei aleatoare este:

Rxxcu },x,...x,x{)(X jin21

Se poate vorbi despre probabilitatea ca variabila aleatoare X să ia o anumită valoare,

adică:

}n,1i ,x)(X ,{P)xXP()A(Pp iiii .

Tipuri de variabile aleatoare – discrete şi continue

În general, o variabilă aleatoare discretă ia valori distincte pe o mulţime a valorilor sale I,

care este o mulţime cel mult numărabilă.

Variabila aleatoare discretă este definită prin: Iii

i

p

xX

: .

Variabilele aleatoare continue sunt acele variabile ale căror mulţime a valorilor este un

interval mărginit sau nemărginit. Aceste variabile sunt definite cu ajutorul unei funcţii f(x), care se

numeşte funcţie densitate de repartiţie.

Funcţia densitate de repartiţie are următoarele proprietăţi:

- 0)( , )( xfRx

-

1)( dxxf ;

Distribuţia unei variabile aleatoare. Funcţia de repartiţie

Distribuţia sau legea de probabilitate a unei variabile aleatoare este dată prin funcţia sa de

probabilitate care poate lua diferite forme, în funcţie de tipul variabilei.

Pe baza funcţiei de probabilitate a unei variabile aleatoare, se determină funcţia sa de

repartiţie. În general, funcţia de repartiţie este definită prin relaţia:

RxxXPxF )( ),()( .

Funcţia de repartiţie are următoarele proprietăţi:

- 1)(0 , )( xFRx ;

- F(b)b, F(a)R, a) a,b( ;

-

x

xF 1)(lim ;

-

x

xF 0)(lim ;

)x(F)0x(F ,Rx )( .

Dacă a < b, se poate demonstra următorul rezultat:

RxaFbFbXaP )( ),()() ( .

Pentru variabila discretă, funcţia de repartiţie este

}xx{

i

i

p)x(F .

Pentru cea continuă,

x

RxdttfxF )( , )()( .

97

Caracteristici numerice ale unei variabile aleatoare

Media unei variabile aleatoare

Notam )X(M .

Dacă variabila X este discretă, atunci: i

Ii

i pxXM

)( ,

iar dacă variabila X este o variabilă continuă, dxxfxXMR

)()( .

Dispersia sau varianţa unei variabile aleatoare

Prin definiţie, dispersia unei variabile aleatoare este dată de relaţia:

)X(M)X(M)]X(MX[M)X(V 222 ,

unde M(X2) reprezintă media variabilei XXX 2 .

Notam V(X) = 2 .

Abaterea medie pătratică a unei variabile aleatoare

Numită şi abatere standard, abaterea medie pătratică se obţine prin relaţia: )X(V ,

adică reprezintă rădăcina pătrată a dispersiei.

C. Distribuţii probabiliste utilizate în statistică

1. Distribuţii discrete

a. Distribuţia Bernoulli - X ~ B(p).

Este dată printr-un tablou de forma:

pq

10:X , unde )1X(Pp , )0X(Pq ;

p+q=1.

Parametrii acestei repartiţii sunt:

M(X) = p;

V(X) = pq.

b. Distribuţia binomială – X~ B(n, p)

Repartiţia binomială se obţine prin generalizarea repartiţiei Bernoulli. Prin însumarea unui

număr de n variabile aleatoare Bernoulli identic repartizate, se obţine o variabilă binomială.

Repartiţia binomială, simbolizată este dată printr-un tablou de forma:

n,0k

knkk

n qpC

k:X

,

unde p + q = 1, iar k reprezintă numărul de realizări ale evenimentului favorabil, în

condiţiile repetării de n ori a experienţei Bernoulli.

Parametrii repartiţiei binomiale se determină uşor, dacă se consideră că o variabilă

binomială este suma a n variabile Bernoulli, Xi ~ B(p).

Variabila binomială se obţine astfel:

n

1i

iXX . Pentru această variabilă, au loc relaţiile:

M(X) = np;

V(X) = npq.

98

2. Distribuţii continue

a. Distribuţia normală generalizată

Repartiţia normală generalizată se simbolizează ),(N 2 , unde şi 2 sunt parametrii

acestei repartiţii: )X(M , respectiv )X(V2 .

Funcţia densitate de repartiţie, în cazul unei repartiţii normale generalizate, este dată de

relaţia:

2

2

2

)x(

e2

1)x(f

.

b. Distribuţia normală standard

Variabila normală standard se obţine dintr-o variabilă normală generalizată prin procedeul

de standardizare:

XZ

O variabilă aleatoare repartizată după o lege normală standard, simbolizată N(0,1), are o

funcţie densitate de repartiţie dată de relaţia:

2

z2

e2

1)z(f

, Rz .

Parametrii repartiţiei normale standard sunt:

M(Z) = 0;

V(Z) = 1.

Pentru interese practice, de calcul al unor probabilităţi, se utilizează funcţia lui Laplace,

definită pe baza repartiţiei normale standard. Funcţia lui Laplace este definită de relaţia:

dte2

1)z(

z

0

2

t 2

,

iar valorile acestei funcţii se găsesc tabelate.

Funcţia de repartiţie devine: )z(2

1)z(F

Pe baza funcţiei lui Laplace, se poate determina, de exemplu, probabilitatea ca variabila

aleatoare normală standard să ia valori într-un interval simetric de tipul (-a; a). Această

probabilitate este:

a

a

dt)t(f)a(2)a()a()a(F)a(F)aZa(P .

Exemplu

P(-1 < Z < 1) = 2 (1) = 0,682,

P(Z < 1) = F(1) = 1/2 + (1) = 0,5 + 0,341 = 0,841.

Observaţie

Relaţia dintre repartiţia normală standard şi cea generalizată se poate observa uşor atât prin

relaţia dintre cele două tipuri de variabile, cât şi prin relaţia existentă între funcţiile de repartiţie

specifice. Astfel, de exemplu, se poate calcula probabilitatea:

99

)a

()b

()a

(F)b

(F)bXa(P

.

Exemplu

Pentru o variabilă X ~ N(10,4), să se calculeze probabilitatea P(8 < X < 12) .

P(8 < X < 12) = )2

108()

2

1012(

= (1) - (-1) = (1) + (1) = 2(1) = 0,682.

b. Distribuţia chi-pătrat

O variabilă aleatoare repartizată după o lege chi-pătrat, simbolizată ),n(2 .

Dacă considerăm n variabile aleatoare identic repartizate după o lege normală standard, Xi

~ N(0,1), n,1i , atunci variabila )n(~XX 2n

1i

2

i

.

Exemplu

Pentru o variabilă X ~ )4(2 , se poate determina constanta a, astfel încât P (X > a) =

0,05. Din tabela chi-pătrat se citeşte valoarea a = 9,48.

c. Distribuţia Student

O variabilă aleatoare repartizată după o lege Student, simbolizată t(n).

Dacă se consideră două variabile aleatoare X~N(0,1) şi Y~ )n(2 , atunci variabila

aleatoare Student se obţine prin relaţia: )n(t~

n

Y

Xt , unde n reprezintă numărul de grade de

libertate, parametrul acestei distribuţii.

Exemplu

Pentru o variabilă aleatoare care urmează o lege de repartiţie Student cu n = 25 grade de

libertate (X ~ t (25)), se cere să se determine valoarea a, astfel încât: P(X > a) = 0,05.

Din tabela Student, pentru o probabilitate de 0,05 şi 25 grade de libertate se citeşte

valoarea a = 1,708.

d. Distribuţia Snedecor-Fisher

O variabilă aleatoare repartizată după o lege Snedecor-Fisher, simbolizată )n,n( 21 .

Dacă se consideră două variabile aleatoare: X~ ),n( 1

2 şi Y~ ),n( 2

2 , atunci o

variabilă repartizată Fisher se obţine prin relaţia:

)n,n(~

n

Y

n

X

F 21

2

1 , unde n1 şi n2 reprezintă grade de libertate, parametrii repartiţiei

Snedecor-Fisher.

Exemplu

Pentru o variabilă X ~ F(5, 3), se poate determina constanta a, astfel încât P(X > a) = 0,01.

Din tabela Fisher citeşte valoarea a = 28,23.

100

5.2. Selecţie. Eşantion. Variabile aleatoare de selecţie

a. Eşantionul statistic

În accepţiunea cea mai largă, eşantionul reprezintă o sub-populaţie sau un sub-ansamblu

extras din populaţia de referinţă după o procedură anume. Condiţia de bază ca o sub-populaţie să

fie un eşantion este reprezentativitatea. Notăm volumul eşantionului cu n.

Un eşantion poate fi definit din punct de vedere statistic pe baza observaţiilor culese şi

înregistrate de la nivelul unei sub-populaţii. Un set de n valori statistice ale variabilei X observate

pentru n unităţi ale populaţiei poartă numele de eşantion: ( n21 x,...,x,x ).

b. Selecţia de volum n. Variabile aleatoare de selecţie. Statistici

Extragerea unui eşantion aleator este o experienţă aleatoare care admite o mulţime de

posibilităţi. Dintr-o populaţie de volum N, se pot extrage k eşantioane de volum n. Numărul k de

eşantioane posibile depinde de modul de extragere a unităţilor:

- după schema urnei cu revenire: nNk ;

- după schema urnei fără revenire: n

NCk .

Dacă se consideră o variabilă X, atunci experienţa aleatoare a extragerii unui eşantion

permite definirea unei structuri matematice care evidenţiază toate valorile posibile ale variabilei,

dar organizate sub formă de eşantioane. Pentru cele k eşantioane aleatoare posibil de extras,

rezultă structura de tip matrice de mai jos, în care fiecare linie este un eşantion posibil de extras:

kn2k1k

n22221

n11211

x....xx

..............................

x....xx

x....xx

Pentru fiecare coloană din matrice se defineşte o variabilă aleatoare (care are ca valori

posibile valorile lui X pentru prima unitate din toate eşantioanele posibil de extras), astfel încât

rezultă structura de tip vector V: (X1, X2, …, Xn), care este un vector aleator.

Variabilele Xi se numesc variabile aleatoare de selecţie şi se poate demonstra că acestea

sunt identic repartizate cu variabila X (au aceeaşi lege de probabilitate) şi sunt independente

stochastic.

O selecţie de volum n este o posibilă realizare a experienţei aleatoare a extragerii unui

eşantion aleator simplu. Considerând variabila X, o selecţie este o realizare posibilă de forma:

v:( n21 x,...,x,x ), adică o valoare posibilă a vectorului V.

Statistici

O statistică este o variabilă aleatoare obţinută ca o combinaţie a variabilelor aleatoare de

selecţie Xi .

Dacă notăm o statistică cu S, aceasta se obţine cu ajutorul unei funcţii g care compune

elementele vectorului V:

S = goV.

101

De exemplu, dacă aplicaţia g este o medie, se obţine statistica iXn

1S , care este o

variabilă aleatoare, ale cărei valori posibile sunt mediile tuturor eşantioanelor de volum n posibil

de extras din populaţia N. O asemenea valoare posibilă a statisticii S este media de eşantion:

ixn

1x .

Distribuţia de selecţie

Ceea ce este foarte important în cazul unei statistici este repartiţia sa probabilistică sau

legea sa de probabilitate. Distribuţia unei statistici se numeşte distribuţie de selecţie şi vizează

toate selecţiile de volum n posibile în experienţa aleatoare a extragerii unui eşantion.

5.3. Parametri, estimatori, estimaţii. Distribuţii de selecţie

Teoria inferenţei statistice aduce în discuţie trei termeni fundamentali: parametrul,

estimatorul şi estimaţia.

a. Parametri

Parametrul reprezintă o valoare fixă şi necunoscută, numită şi valoare reală sau adevărată,

a unei populaţii studiate după o anumită variabilă. Parametrul este definit de valorile variabilei X

de la nivelul tuturor unităţilor populaţiei Dacă notăm cu parametrul, atunci se poate scrie:

),...,,( 21 Nxxxf . De exemplu, o populaţie poate fi descrisă folosind un indicator al tendinţei

centrale, cum ar fi media populaţiei ( ), şi un indicator al dispersiei, cum ar fi abaterea medie

pătratică ( ).

b. Estimatori

Estimatorul este o statistică, adică o variabilă aleatoare care este determinată de totalitatea

eşantioanelor posibile de volum dat (n) care se pot extrage din populaţia de referinţă. Estimatorul,

în expresia sa analitică, este definit ca o funcţie a variabilelor de selecţie Xi , i=1,n. Dacă notăm

estimatorul cu ̂ , atunci )X,...,X,X(gˆn21 .

Estimatorul este instrumentul principal care permite estimarea (aproximarea cu o valoare

cunoscută, calculată) unui parametru (valoarea necunoscută). Un parametru este estimat prin

intermediul unui estimator, cu ajutorul unei estimaţii.

c. Estimaţii

Estimaţia este o valoare realizată dintre valorile posibile ale estimatorului. O estimaţie se

obţine la nivelul unui eşantion extras, pe baza datelor culese, şi este o funcţie a valorilor de sondaj

xi , i=1,n. Astfel: )x,...,x,x(gˆ̂

n21 .

De regulă, există o diferenţă între estimaţie şi parametru, care reprezintă o eroare de

estimare. Această eroare poate fi măsurată cu ajutorul proprietăţilor estimatorilor.

d. Proprietăţile estimatorilor

Estimarea statistică se realizează în baza unor proprietăţi ale estimatorilor: nedeplasare,

convergenţă în probabilitate, eficienţă, convergenţă în repartiţie.

102

Pentru definirea acestor proprietăţi este important să se pornească de la o măsură a erorii

de estimare a unui estimator, care se numeşte eroarea medie pătratică:

22 ])ˆ(M[)ˆ(V)ˆ(M .

În relaţia de mai sus, )ˆ(V este dispersia sau varianţa estimatorului (o măsură a gradului

de împrăştiere a valorilor sale posibile faţă de media lor sau media estimatorului) şi

)ˆ(M)(B , care reprezintă deplasarea sau biais-ul estimatorului.

O bună estimare statistică impune ca eroarea de estimare de mai sus să fie minimă (ea este

practic zero dacă estimaţia este identică cu parametrul), adică o dispersie minimă şi un biais

minim.

Nedeplasarea

Un estimator se numeşte nedeplasat sau bine centrat (fără biais) dacă media sa este egală

cu parametrul: )ˆ(M sau 0)(B .

Convergenţa în probabilitate

Această proprietate impune o condiţie de volum al eşantionului: dacă acesta este suficient

de mare, atunci orice valoare posibilă a estimatorului (orice estimaţie) converge către parametru.

Această proprietate se poate scrie astfel:

p

Nnn )ˆ( sau 1)ˆ,nn,n,0(P n .

Această proprietate este o expresie a legii numerelor mari.

Eficienţa

Dintre doi estimatori posibili pentru un parametru, estimatorul cu varianţa cea mai mică se

numeşte un estimator mai eficient decât celălalt. Estimatorul cu varianţa minimă este un estimator

eficient.

Convergenţa în repartiţie (teorema limită centrală)

Această proprietate impune o condiţie de volum pentru estimatorul transformat prin

operaţia de standardizare: )ˆ(V

)ˆ(Mˆ~ˆ

. Dacă volumul eşantionului creşte peste o anumită

limită, atunci variabila aleatoare obţinută prin standardizarea estimatorului urmează o lege de

repartiţie normală standard:

)1,0(N~Z)ˆ(V

)ˆ(Mˆrep

Nnn

nn

5.4. Statistici frecvent utilizate în cercetările prin sondaj

Considerăm o variabilă X la nivelul unei populaţii de volum N. De asemenea, notăm cu

)X(M şi )X(V2 , parametrii populaţiei.

103

Media de selecţie

Pentru estimarea parametrului medie ixN

1 , se utilizează estimatorul numit medie

de selecţie: iXn

1̂ , obţinut ca o medie aritmetică a variabilelor aleatoare de selecţie Xi.

O valoare posibilă a estimatorului este media de sondaj ixn

1x .

Utilizând proprietăţile mediei, precum şi ale variabilelor aleatoare de selecţie (au aceeaşi

parametri ca şi variabila X), se poate demonstra că:

)ˆ(M , adică estimatorul este nedeplasat;

n

)ˆ(V2

şi că estimatorul este eficient;

p

Nnn )ˆ( , adică estimatorul este convergent

Pentru n suficient de mare, se poate aprecia că

)1,0(N~

n

ˆ

)ˆ(V

)ˆ(MˆZ

.

Dispersia de selecţie

Pentru estimarea dispersiei, 2

i

2 )x(N

1 se utilizează estimatorul

2

i

2 )ˆX(n

1ˆ , numit dispersie de selecţie.

O valoare posibilă a acestui estimator este dispersia de sondaj 2

i

2 )xx(n

1s

Se poate demonstra că pentru acest estimator are loc:

22

22

n

1n

n)ˆ(M

.

Cu alte cuvinte, dispersia de selecţie este n estimator deplasat.

Dispersia de selecţie modificată

Ca o corecţie la estimatorul precedent, se construieşte dispersia de selecţie modificată:

2

i

2 )ˆX(1n

1'ˆ

sau

22 ˆ1n

n'ˆ

.

O valoare posibilă a acestui estimator este dispersia de sondaj modificată

2

i

2 )xx(1n

1's

.

Se poate uşor demonstra că 22 )'ˆ(M , adică este un estimator nedeplasat pentru

dispersie.

Proporţia de selecţie

La nivelul populaţiei totale, pe baza unei proprietăţi sau condiţii A, se poate defini o

variabilă alternativă de forma:

1

10:X . Parametrul reprezintă proporţia sau ponderea

104

unităţilor din populaţie care îndeplinesc condiţia A: N

M , unde M este numărul unităţilor din

populaţie care îndeplinesc condiţia A.

Deoarece acest parametru este tocmai media variabilei alternative, estimatorul său este

construit după acelaşi tipar cu media de selecţie.

Astfel, iXn

1̂ , unde Xi au aceeaşi lege de repartiţie cu X. Acest estimator poartă

numele de proporţie de selecţie, iar o valoare posibilă a sa este o proporţie de eşantion:

n

mw , unde m este numărul unităţilor din eşantion care îndeplinesc condiţia A.

Proporţia de selecţie are aceleaşi proprietăţi cu media de selecţie.

)ˆ(M , este nedeplasat;

n

)1()ˆ(V

, este eficient;

p

Nnn )ˆ( , este convergent

Pentru n suficient de mare, se poate aprecia că

)1,0(N~

n

)1(

ˆZ

.

Tabel sintetizator

Parametru Estimator Estimaţie

Media

ixN

1

Media de selecţie

iXn

1̂

Media de eşantion

ixn

1x

Dispersia

2

i

2 )x(N

1

Dispersia de selecţie modificată

2

i

2 )ˆX(1n

1'ˆ

Dispersia de eşantion modificată

2

i

2 )xx(1n

1's

Abaterea standard

'̂ s’

Proporţia

N

M

Proporţia de selecţie

iXn

1̂

Proporţia de eşantion

n

mw

Diferenţa dintre două medii

21

21ˆˆ

21 xx

105

Teste1

1) O probabilitate se determină clasic ca raport între numărul de evenimente favorabile realizării

unui eveniment şi:

a) numărul evenimentelor aleatoare

b) infinit

c) numărul evenimentelor posibile

d) unu

2) Distribuţia normală standard se caracterizează prin parametrii:

a) medie zero şi varianţă unu

b) medie μ şi varianţă σ2

c) medie p şi varianţă pq

3) Într-o cercetare prin sondaj, eşantionul trebuie să respecte condiţia de:

a) omogenitate

b) varianţă minimă

c) reprezentativitate

4) Parametrul reprezintă

a) o valoare fixă şi necunoscută la nivelul unei populaţii

b) o statistică

c) o variabilă cunoscută f(x)

5) Distribuţia Snedecor-Fisher are ca parametri:

a) k grade de libertate

b) două grade de libertate

c) media zero şi varianţa unu

d) n grade de libertate

6) Estimatorul reprezintă

a) o valoare fixă şi cunoscută la nivelul unei populaţii

b) o valoare de forma )x,...,x,x(fˆ

N21

c) o variabilă aleatoare

7) Estimatorul admite

a) o medie

b) o lege de distribuţie

c) un set de valori posibile

d) o valoare fixă cunoscută

8) Sunt discrete distribuţiile

a) Student

b) Bernoulli

c) Binomială

d) Chi-pătrat

1 Răspunsuri: 1 – c; 2 – a; 3 – c; 4 – a; 5 – b; 6 – c; 7 – a,b,c; 8 – b,c; 9 – c; 10 – c,d.

106

9) Estimaţia este

a) o valoare fixă şi cunoscută la nivelul unei populaţii

b) o statistică

c) o valoare calculată pe baza datelor de sondaj

d) o variabilă realizată a estimatorului

10) Distribuţia binomială se obţine

a) prin standardizare

b) ca raport între două variabile Chi-pătrat

c) prin generalizarea distribuţiei Bernoulli

d) prin însumarea a n variabile Bernoulli

107

US 6. ESTIMAREA PARAMETRILOR UNEI POPULAŢII

Cuprins

6.1 Estimarea punctuală

6.2 Estimarea prin interval de încredere

Obiective

- definirea termenilor

- definirea metodelor de estimare punctuală şi prin interval de încredere

- prezentarea demersului estimării pentru diferiţi parametri

- realizarea de aplicaţii pentru aprofundarea cunoştinţelor

Competenţe

- însuşirea noţiunilor şi a demersului procedeului de estimare statistică

- înţelegerea diferenţei dintre estimarea punctuală şi prin interval de încredere

- dobândirea de abilităţi practice de utilizare a metodei estimării pentru diferite situaţii reale

- însuşirea demersului estimării cu ajutorul softului statistic specializat

Termen mediu: 2 h

Bibliografie









108

Estimarea reprezintă procedeul de determinare a unui parametru al unei populaţii (µ, σ2, π)

prin prelucrarea datelor înregistrate la nivelul unui eşantion.

Estimarea se poate realiza:

1. punctual: presupune aflarea unei valori posibile a estimatorului parametrului;

2. prin interval de încredere (IC): presupune aflarea limitelor de încredere ale unui interval

care acoperă valoarea parametrului cu o anumită probabilitate.

6.1. Estimarea punctuală

A estima punctual un parametru presupune a calcula o estimaţie la nivelul unui

eşantion, ca o valoare realizată a unui estimator ̂ convenabil ales, care respectă proprietăţile de

nedeplasare şi convergenţă.

Cele două proprietăţi ale estimatorului asigură condiţiile de calitate care permit utilizarea

unei valori punctuale calculate (estimaţia) pentru a aprecia valoarea necunoscută de la nivelul

populaţiei (parametrul).

a. Estimarea punctuală a mediei

Estimarea punctuală a mediei unei populaţii presupune aflarea unei valori posibile a

estimatorului ̂ , media de selecţie, care este un estimator nedeplasat şi convergent pentru

parametrul . Media de sondaj, x , este o valoare realizată dintre valorile posibile ale

estimatorului ̂ , adică este o estimaţie punctuală a mediei populaţiei.

Exemplu

Din totalul judeţelor României a fost extras aleatoriu un eşantion de 10 judeţe, care au fost

observate după rata şomajului (%) înregistrată în anul 2011. Valorile înregistrate la nivelul

eşantionului sunt: 5.9, 8.4, 7.4, 7.1, 6.1, 6.4, 8.8, 8, 7.8, 7. Să se estimeze punctual rata medie a

şomajului la nivelul României.

Rezolvare

Media calculată la nivelul eşantionului este:

29.710

78.788.84.61.61.74.74.89.5x

%.

Interpretare: La nivelul României, se poate estima că rata medie a şomajului este de

7,29%.

b. Estimarea punctuală a proporţiei

Estimarea punctuală a proporţiei la nivelul unei populaţii presupune aflarea unei valori

posibile a estimatorului ̂ , proporţia de selecţie, care este un estimator nedeplasat şi convergent

pentru parametrul . La nivelul eşantionului, proporţia calculată (w) este o estimaţie punctuală a

parametrului proporţiei.

Exemplu

În urma realizării unui sondaj la nivelul unui eşantion format din 1000 locuitori ai unei

localităţi, la întrebarea „Aţi vizionat cel puţin un spectacol de teatru în ultima lună?”, 260 de

109

persoane au răspuns afirmativ. Să se estimeze punctual proporţia persoanelor care răspuns

afirmativ la întrebare, la nivelul întregii populaţii.

Rezolvare

Proporţia persoanelor care au răspuns afirmativ la întrebare, calculată la nivelul

eşantionului, este: %261001000

260

n

mw .

Interpretare: La nivelul întregii populaţii, se poate estima că 26% dintre persoane au

vizionat cel puţin un spectacol de teatru în ultima lună.

6.2. Estimarea prin interval de încredere

A estima prin interval de încredere un parametru presupune a identifica două variabile

aleatoare, Li şi Ls care, pentru o anumită probabilitate )1( , numită nivel de încredere, respectă

condiţia:

)1()LL(P si , unde )1,0( .

Estimarea prin interval de încredere se bazează pe estimatori nedeplasaţi şi convergenţi,

cărora li se aplică Teorema limită centrală.

1. Estimarea prin interval de încredere a mediei

Există două situaţii:

a. Se cunoaşte parametrul

Se utilizează estimatorul iXn

1̂ , căruia i se aplică TLC, adică, pentru un n suficient

de mare, are loc:

)1,0(N~

n

ˆZ

Pentru o probabilitate cunoscută )1( , pentru repartiţia normală standard, se poate

identifica o valoare 2/z care respectă proprietatea:

)z(2)1()zZz(P 2/2/2/

Valoarea 2/z se citeşte din tabelul lui Laplace pe baza relaţiei 2

)1()z( 2/

.

Înlocuind relaţia lui Z în cea de mai sus, rezultă:

)1()z

n

ˆz(P 2/2/

După o serie de calcule elementare, rezultă:

)1()n

zˆn

zˆ(P 2/2/

.

110

Ultima relaţie respectă definiţia intervalului de încredere şi ne permite identificarea celor

două variabile aleatoare care reprezintă limitele intervalului de încredere pentru medie:

n

zˆL,n

zˆL 2/s2/i

La nivelul unui eşantion extras, se calculează un interval estimat pentru parametrul medie,

pe baza estimaţie sale punctuale, media de eşantion. Rezultă intervalul:

)n

zx,n

zx( 2/2/

Interpretare

Cu o probabilitate )1( , parametru medie „este acoperit” de intervalul

)n

zx,n

zx( 2/2/

Observaţie

Dacă se modifică nivelul de încredere se modifică şi mărimea intervalului (se modifică

valoarea 2/z ).

Mărimea intervalului de încredere depinde de două componente: 2/z , care depinde de

probabilitatea cu care estimăm şi n

, care este abaterea standard a estimatorului şi depinde de

gradul de omogenitate al populaţiei şi mărimea eşantionului.

Această mărime a intervalului se numeşte eroare maxim admisibilă: n

z 2/

.

Exemplu

Pentru a estima profitul mediu (milioane lei) obţinut de firmele mici şi mijlocii dintr-un

judeţ în anul 2012, s-a extras aleatoriu un eşantion de 75 de firme, pentru care s-au înregistrat

profiturile anuale. La nivelul eşantionului s-a obţinut lei.mil5.7x , iar dintr-o cercetare locală

anterioară se cunoaşte că .lei.mil3.1 Pentru un risc asumat de 5%, să se estimeze prin

interval de încredere profitul mediu obţinut de firmele mici şi mijlocii în 2012.

Rezolvare

Intervalul de încredere este definit prin:

)n

zx,n

zx( 2/2/

.

Pentru un risc de 5% (sau α = 0,05), din tabelul Laplace se citeşte valoarea zα/2=1,96,

corespunzătoare lui 475.02

05.01

2

)1()z( 2/

. Prin urmare, limitele intervalului de

încredere se calculează astfel:

)75

3.196.15.7,

75

3.196.15.7( = 79.7,21.7)29.05.7,29.05.7( milioane lei.

111

Interpretare: Cu o încredere de 95% se poate afirma că profitul mediu obţinut de firmele

mici şi mijlocii în 2012 este acoperit de intervalul (7.21, 7.79) milioane lei.

b. Nu se cunoaşte parametrul

În acest caz, se utilizează estimatorul '̂ pentru parametrul abatere standard, iar variabila

Z devine o variabilă student: )1n(t~

n

'ˆ

ˆt

.

Pentru un nivel de încredere )1( , se utilizează proprietăţile repartiţiei Student şi se

obţine:

)1()ttt(P 2/2/ , iar valoarea 2/t se citeşte din tabelul Student pentru

2/)tt(P 2/ .

Rezultă intervalul de încredere: n

'ˆtˆL,

n

'ˆtˆL 2/s2/i

.

Pentru un eşantion extras, se obţine intervalul calculat:

)n

'stx,

n

'stx( 2/2/

Exemplu


observate după rata şomajului (%)în anul 2011. Valorile înregistrate sunt: 5.9, 8.4, 7.4, 7.1, 6.1,

6.4, 8.8, 8, 7.8, 7. La nivelul eşantionului s-au obţinut %29.7x şi %97.0's . Să se estimeze

prin interval de încredere rata medie a şomajului la nivelul României, pentru un risc asumat de

5%.

Rezolvare


)n

'stx,

n

'stx( 2/2/ .

Pentru un risc de 5%, din tabelul Student se citeşte valoarea tα/2,n-1= t0.025,9=2,262. Prin

urmare, limitele intervalului de încredere se calculează astfel:

)10

97.0262.229.7,

10

97.0262.229.7( = 98.7,6.6)69.029.7,69.029.7( %.

Folosind programul SPSS se obţin, în urma estimării, rezultatele prezentate în tabelul de

mai jos.

Tabelul 6.1 Estimarea punctuală şi prin interval de încredere a mediei populaţiei

Descriptives

7.2900 .30820

6.5928

7.9872

Mean

Lower Bound

Upper Bound

95% Confidence

Interval for Mean

Rata somajului

Statistic Std. Error

Mean reprezintă media aritmetică calculată la nivelul eşantionului, şi este de 7.29%.

112

Cele două limite ale intervalului de încredere sunt Lower Bound (Limita inferioară), egală

cu 6.59 6.6, şi Upper Bound (Limita superioară), egală cu 7.98.

Interpretare: Cu o încredere de 95% se poate afirma că rata medie a şomajuluila nivelul

României în 2012 este acoperită de intervalul (6.6, 7.98)%.

2. Estimarea prin interval de încredere a proporţiei

Şi în acest caz există 2 situaţii.

a. Se cunoaşte dispersia variabilei alternative 2

Intervalul este de forma n

zˆL,n

zˆL 2/s2/i

, iar intervalul calculat este:

n

zw,n

zw 2/2/

Exemplu

În urma realizării unui sondaj la nivelul firmelor dintr-un judeţ s-a înregistrat, pentru un

eşantion de 88 de firme, dacă acestea au facut sponsorizări în anul trecut. La nivelul eşantionului

s-a obţinut că proporţia firmelor care au facut sponsorizări este de 31%. Dintr-o cercetare

anterioară se cunoaşte că σπ = 2.4%. Pentru α = 0,05, să se estimeze, prin interval de încredere,

proporţia firmelor care au acordat sponsorizări anul trecut, la nivelul întregii populaţii.

Rezolvare


)n

zw,n

zw( 2/2/

.

Pentru un risc de 5%, din tabelul Laplace se citeşte valoarea zα/2=1,96. Prin urmare,

limitele intervalului de încredere se calculează astfel:

)88

024.096.131.0,

88

024.096.131.0( = 313.0,307.0)003.031.0,003.031.0( .

Interpretare: Cu o încredere de 95% se poate afirma că proporţia firmelor care au acordat

sponsorizări anul trecut este acoperită de intervalul (0.307, 0.313) sau (30.7, 31.3)%.

b. Nu se cunoaşte dispersia variabilei alternative 2

Intervalul este de forma n

'ˆtˆL,

n

'ˆtˆL 2/s2/i

, unde )ˆ1(ˆ'ˆ

iar intervalul calculat este: n

stw,

n

stw

'

2/

'

2/

, unde )w1(w's

Exemplu


localităţi, la întrebarea „Aţi vizionat cel puţin un spectacol de teatru în ultima lună?”, 26% dintre

persoane au răspuns afirmativ. Pentru α = 0,05, să se estimeze pri interval de încredere proporţia

persoanelor care răspuns afirmativ la întrebare, la nivelul întregii populaţii.

113

Rezolvare


. n

stw,

n

stw

'

2/

'

2/

Pentru un risc de 5%, din tabelul Student se citeşte valoarea tα/2,n-1= t0.025,999=1,96.

Dispersia corectată, la nivelul eşantionului, este:

43.0)26.01(26.0)w1(w's

Prin urmare, limitele intervalului de încredere se calculează astfel:

)1000

43.096.126.0,

1000

43.096.126.0( = 28.0,24.0)02.026.0,02.026.0( .

Interpretare: Cu o încredere de 95% se poate afirma că proporţia persoanelor care au

vizionat cel puţin un spectacol de teatu luna trecută este acoperită de intervalul (0.24, 0.28) sau

(24, 28)%.

c. Estimarea volumului eşantionului

În cazul unui sondaj de opinie electoral, se utilizează ca variabilă de bază o variabilă

alternativă

1

10:X , iar parametrul este proporţia de voturi pentru un candidat.

În practică, de regulă se fixează probabilitatea sau nivelul de încredere cu care dorim să

garantăm rezultatul (de regulă la 0,95) şi eroarea maxim admisibilă (de exemplu de %3 ).

Având aceste date, se poate estima volumul eşantionului care estimează parametrul în

condiţiile stabilite.

Se utilizează relaţia erorii maxim admisibile: n

z 2/

. Din această relaţie se obţine

volumul eşantionului

2

22

2/zn

.

În relaţia de mai sus, se poate afla uşor valoarea 2/z din tabelul lui Laplace cunoscând

nivelul de încredere fixat. Parametrul 2

, care exprimă gradul de omogenitate al populaţiei, nu se

cunoaşte, însă se poate utiliza valoarea lui maximă, care este egală cu 0,25.

Exemplu

Pentru o probabilitate de 0,95 şi o eroarea maxim admisibilă de %3 , se calculează

volumul eşantionului. Ce se întâmplă dacă se utilizează o eroare de %2 ?

Rezolvare

Pentru o probabilitate de 0.95 se citeşte, tabelul Laplace, valoarea zα/2=1,96.

Pentru o eroare maximă admisibilă de %3 , volumul eşantionului este:

106766,10660009.0

25.084.3

03.0

25.096.1zn

2

2

2

22

2/

unităţi.

Pentru o eroare maximă admisibilă de %2 , volumul eşantionului este:

114

24000004.0

25.084.3

02.0

25.096.1zn

2

2

2

22

2/

unităţi.

Prin urmare, între eroarea maximă admisibilă şi volumul eşantionului există o legătură

inversă. Dacă dorim să avem o eroare maximă adminisbilă mai mică, trebuie să mărim volumul

eşantionului.

115

Teste1

1) A estima punctual înseamnă

a) a calcula o valoare la nivel de eşantion pe baza unui estimator

b) a găsi un punct cât mai aproape de parametru

c) a calcula probabilitatea cu care se obţine o estimaţie



Statistics

Current Salary

474

0

$34,000.00

$785.000

Valid

Missing

N

Mean

Std. Error of Mean

Intervalul de încredere pentru media populaţiei totale, pentru un nivel de încredere de 95% este:

a) (30000 ; 38000)

b) (32461,4 ; 35538,6)

c) (25400,5 ; 35600,5)

3) Eroarea de estimare a unei proporţii depinde de:

a) gradul de omogenitate a populaţiei

b) volumul eşantionului

c) nivelul de încredere stabilit

4) În urma unui test realizat asupra unui eşantion de 100 de studenţi, a rezultat că 65 dintre

aceştia au promovat examenul. Cu un nivel de încredere de 95% , intervalul de încredere al

proporţiei studenţilor promovaţi la nivelul populaţiei totale este:

a) (0,50; 0,75)

b) (0,64; 0,66)

c) (0,56; 0,74)

5) Într-un sondaj aleator simplu de 400 studenţi, pentru variabila nota la un test, s-a obţinut o

valoare medie de 8,25 şi o abatere standard de eşantion modificată egală cu 1,8. Intervalul de

încredere pentru parametrul medie, cu o probabilitate de 0,95, este

a) (7,5260 - 9,3424)

b) (8,1280 - 9,2020)

c) (8,0736 - 8,4264)

6) Eroarea maximă admisibilă este

a) direct proporţională cu volumul eşantionului

b) invers proporţională cu media eşantionului

c) egală cu 5%

7) Pentru a asigura condiţiile de calitate necesare estimării punctuale ale unui parametru,

estimatorul parametrului trebuie

1 Răspunsuri: 1 – a; 2 – b; 3 –a,b,c; 4- c; 5 – c, 6 – a, 7 – b.

116

a) să aibă media zero

b) să fie nedeplasat şi convergent

c) să aibă varianţă maximă

117

US 7. TESTAREA IPOTEZELOR STATISTICE

Cuprins

7.1 Etapele procesului testării statistice

7.2 Testarea ipotezelor privind un parametru

Obiective

- definirea noţiunilor

- prezentarea demersului testării statistice

- aplicarea demersului testării pentru parametrii medie, proporţie şi diferenţa a două medii

- realizarea de aplicaţii cu date reale

Competenţe

- însuşirea noţiunilor şi a demersului procedeului de testare statistică

- înţelegerea diferenţei dintre estimare şi testare

- dobândirea de abilităţi practice de utilizare a metodei testării pentru diferite situaţii reale

- însuşirea demersului testării cu ajutorul softului statistic specializat

Termen mediu: 2 h

Bibliografie







6. Yule, U.G.; Kendall, M.C. - Introducere în teoria statisticii, Editura Ştiinţifică, Bucureşti,

1969.


118

Testarea ipotezelor statistice este un procedeu prin care se testează semnificaţia egalităţii

dintre valoarea unui parametru şi o valoare de referinţă sau dintre doi parametri (două medii ale

populaţiei sau două proporţii de la nivelul unor populaţii).

7.1. Etapele procesului testării statistice

Etapele procesului testării unei ipoteze statistice sunt:

1. formularea ipotezelor (ipoteza nulă şi ipoteza alternativă);

2. alegerea pragului de semnificaţie sau a limitei erorii de speţa întâi (eroarea de a respinge

ipoteza nulă în condiţiile în care aceasta este adevărată);

3. alegerea statisticii test adecvate, care, în condiţiile acceptării ipotezei nule, are o lege de

repartiţie specificată;

4. determinarea unei valori teoretice a testului, în funcţie de legea de repartiţie şi de pragul de

semnificaţie ales;

5. calcularea unei valori a statisticii test pe baza datelor de la nivelul unui eşantion;

6. aplicarea regulii de decizie de acceptare sau de respingere a ipotezei nule (care în esenţă

constă în compararea valorii calculate a testului cu cea teoretică).

1. Formularea ipotezelor

O ipoteză este o presupunere cu privire la un parametru sau la legea de distribuţie a unei

variabile. În procesul testării, se formulează două ipoteze:

Ipoteza nulă, H0 : se presupune egalitatea unui parametru cu o valoare fixă sau se face o

precizare cu privire la legea de repartiţie a unei variabile.

Ipoteza alternativă, H1: este opusul ipotezei nule.

În funcţie de modul de formulare a ipotezelor, se pot construi mai multe tipuri de teste:

Test bilateral:

Test unilateral dreapta:

Test unilateral stânga:

2. Erori de testare şi alegerea pragului de semnificaţie

Decizia testului se ia cu o anumită probabilitate de eroare, care poate fi:

eroare de tip I (eroare de primă speţă - reprezintă probabilitatea de a respinge

ipoteza nulă atunci când aceasta este adevărată)

eroare de tip II (eroare de a doua speţă)

Erorile sunt evaluate cu ajutorul a două funcţii de probabilitate.

Pragul de semnificaţie reprezintă o limită fixată a erorii de tip I. Se notează cu şi se

fixează de cercetător în procesul de testare.

3. Alegerea testului şi a statisticii

01

00

:H

:H

01

00

:H

:H

01

00

:H

:H

119

Există două categorii de teste statistice: teste parametrice şi teste neparametrice.

Testului statistic se alege în funcţie de parametrul testat, de informaţiile disponibile,

metoda de sondaj etc. În funcţie de testul ales, se precizează statistica utilizată, împreună cu

proprietăţile acesteia, în special legea de repartiţie.

4. Determinarea unei valori teoretice a statisticii test utilizate Î, această etapă a testării, se acceptă faptul că ipoteza nulă este adevărată. În aceste

condiţii, cunoscând pragul de semnificaţie şi legea de distribuţie a statisticii, se citeşte o valoare

teoretică corespunzătoare din tabelul probabilistic. Pe baza valorii (valorilor) teoretice se stabilesc

regiunile de acceptare şi respingere a ipotezei nule.

De exemplu, pentru un test student bilateral, cele două regiuni sunt la dreapta, respectiv la

stânga valorilor teoretice din tabel, conform figurii de mai jos.

Figura 26. Regiunile de respingere şi de acceptare a ipotezei H0

5. Calcularea unei valori a statisticii test

La nivelul unui eşantion, se calculează o estimaţie a statisticii test, care se numeşte

valoarea calculată a testului.

6. Regula de decizie

Regula de decizie cu privire la acceptarea sau respingerea ipotezei nule se poate lua în

două moduri:

- prin compararea valorii calculate a testului cu valoarea teoretică: se verifică poziţia valorii

calculate a testului în funcţie de una din cele două regiuni stabilite în etapa 4

- prin compararea semnificaţiei testului cu pragul de semnificaţie.

Probabilitatea calculată a primit numele de semnificaţie a testului şi este notată cu p-value sau Sig.

De exemplu, pentru un test Student, aceasta este asociată valorii calculate a testului şi este dată de

relaţia: )tt(PtSig calc . În acest caz, regula de decizie este următoarea:

- dacă Sigt , se acceptă ipoteza nulă;

- dacă Sigt , se respinge ipoteza nulă, cu probabilitatea (1-).

7.2. Testarea ipotezelor privind un parametru

Testarea ipotezelor cu privire la un parametru are ca obiectiv testarea egalităţii dintre

media unei populaţii sau proporţia la nivelul unei populaţii faţă de valori de referinţă, cunoscute.

0 1n;

2

t

1n;

2

t

120

A. Testarea mediei unei populaţii

Ca şi în cazul estimării, există două cazuri: se cunoaşte sau nu parametrul dispersie.

a. Se cunoaşte parametrul - Testul Z


00 :H

01 :H

2. Alegerea pragului de semnificaţie

De regulă, se ia valoarea 0,05 (în SPSS, aceasta este valoarea implicită, dar poate fi

modificată de utilizator).

3. Alegerea statisticii test

n

ˆZ

4. Determinarea valorii teoretice a testului

Dacă se acceptă ipoteza nulă, statistica test este:

)1,0(N~

n

ˆZ 0

Pentru o probabilitate cunoscută , pentru repartiţia normală standard, se poate identifica

o valoare 2/z care respectă proprietatea:

)z(2)1()zZz(P 2/2/2/

Valoarea 2/z se citeşte din tabelul lui Lplace pe baza relaţiei 2

)1()z( 2/

.

HH

H

-z

1

0

1-

z

1

Z

Figura 27. Regiunea de respingere şi de acceptare a ipotezei H0

în cazul unui test Z bilateral

Observaţie

121

Reprezentarea regiunilor de respingere şi de acceptare a ipotezei H0 pentru un test

unilateral dreapta este realizată în figura de mai jos:

Figura 28. Regiunea de respingere şi de acceptare a ipotezei H0

în cazul unui test Z unilateral la dreapta

5. Determinarea valorii calculate a testului

La nivelul unui eşantion se obţine o estimaţie a statisticii test:

n

xz 0

calc

6. Luarea deciziei

Regula de decizie, pe baza valorii calculate a testului, este următoarea:

- dacă ]z,z[z22

calc , se acceptă ipoteza H0;

- dacă nu se realizează această condiţie, se respinge ipoteza nulă, cu probabilitatea (1-).

Dacă se ţine cont de semnificaţia testului, regula de decizie este următoarea:

- dacă tSig , se acceptă ipoteza nulă.

- dacă tSig , se respinge H0.

Exemplu

Din totalul firmelor mici şi mijlocii dintr-un judeţ în anul 2012, s-a extras aleatoriu un

eşantion de 75 de firme, pentru care s-au înregistrat profiturile anuale (milioane lei). La nivelul

eşantionului s-a obţinut lei.mil5.7x , iar dintr-o cercetare locală anterioară se cunoaşte că

.lei.mil3.1 Pentru un risc asumat de 5%, să se testeze dacă există diferenţe semnificative

între profitul mediu anual din 2012 şi cel din 2011, de 6.2 milioane lei.

Rezolvare

1. Formularea ipotezelor statistice

00 :H

01 :H

2. Alegerea pragului de semnificaţie a testului

.05,0

122


Se foloseşte statistica test Z:

n

ˆZ 0

.


Se citeşte din tabelul Laplace pentru un risc 05,0 : .96,1z 2/


Pe baza datelor de la nivelul eşantionului, se obţine: 66.875/3.1

2.65.7zcalculat

.

6. Luarea deciziei


- dacă ]z,z[z22



7. Interpretare

]96.1,96.1[66.8zcalculat , se respinge ipoteza Ho. Se poate garanta cu o

probabilitate de 0,95 că există diferenţe semnificative între profitul mediu anual din 2012 )( şi

profitul mediu obţinut în 2011 )( 0 .

b. Nu se cunoaşte parametrul - Testul t

În acest caz se utilizează testul Student, de forma:

n

'ˆ

ˆt

.

În condiţiile acceptării ipotezei nule, testul devine

n

'ˆ

ˆt 0

şi urmează o lege Student

cu (n-1) grade de libertate.

Pentru o probabilitate cunoscută şi pentru (n-1) grade de libertate, din tabelul Student

se citeşte o valoare 2/t care respectă proprietatea:

)1()ttt(P 2/2/ .

Valoarea calculată a testului este:

n

's

xt 0calc

.

Decizia se ia în mod analog cu situaţia testului Z.

Exemplu


observate după rata şomajului (%) în anul 2011. Valorile înregistrate sunt: 5.9, 8.4, 7.4, 7.1, 6.1,

6.4, 8.8, 8, 7.8, 7. La nivelul eşantionului s-au obţinut %29.7x şi %97.0's . Să se testeze dacă

123

există diferenţe semnificative între rata medie a şomajului din 2011 şi rata medie a şomajului din

2010, de 7.4%, pentru un risc asumat de 5%.

Rezolvare


00 :H

01 :H


.05,0


Se foloseşte statistica test t:

n

'ˆ

ˆt 0

.


Se citeşte din tabelul Student pentru un risc 05,0 : .262.2tt 9,025.01n,2/


Pe baza datelor obţinute la nivelul eşantionului, se obţine: 35.010/97.0

4.729.7tcalculat

.

6. Luarea deciziei


- dacă ]t,t[t22



7. Interpretare

]262.2,262.2[35.0tcalculat , se acceptă ipoteza Ho. Se poate garanta cu o

probabilitate de 0,95 că nu există diferenţe semnificative între rata medie a şomajului din 2011 la

nivelul României )( şi rata medie a şomajului din 2010 )( 0 .

Rezultatele acestei testări, obţinute cu ajutorul programului SPSS, sunt prezentate în

tabelul de mai jos.

Tabelul 7.1 Rezultatele testării unei medii cu o valoare cunoscută

One-Sample Test

-.357 9 .729 -.11000 -.8072 .5872Rata somajului

t df Sig. (2-tailed)

Mean

Difference Lower Upper

95% Confidence

Interval of the

Difference

Test Value = 7.4

124

Regula de decizie

SPSS permite luarea deciziei pe baza valorilor Sig. şi , după următoarea regulă de

decizie:

dacă tSig , atunci se respinge ipoteza H0;

dacă tSig , atunci se acceptă ipoteza H0.

Interpretare

05.0729.0.Sig , se acceptă ipoteza Ho. Se poate garanta cu o probabilitate de

95% că rata medie a şomajului în anul 2011 la nivelul României nu diferă semnificativ de rata

medie a şomajului din 2010.

B. Testarea proporţiei unei populaţii

Demersul testării este acelaşi cu al mediei li presupune cele două cazuri.

a. Se cunoaşte parametrul - Testul Z


00 :H

01 :H

2. Alegerea pragului de semnificaţie

De regulă, se ia valoarea 0,05 (în SPSS, aceasta este valoarea implicită, dar poate fi

modificată de utilizator).


n

ˆZ


Dacă se acceptă ipoteza nulă, statistica test este:

)1,0(N~

n

ˆZ 0

Pentru o probabilitate cunoscută , pentru repartiţia normală standard, se poate identifica

o valoare 2/z care respectă proprietatea:

)z(2)1()zZz(P 2/2/2/


La nivelul unui eşantion se obţine o estimaţie a statisticii test:

n

wz 0

calc

125

6. Luarea deciziei


- dacă ]z,z[z22



Dacă se ţine cont de semnificaţia testului, regula de decizie este următoarea:

- dacă tSig , se acceptă ipoteza nulă.

- dacă tSig , se respinge H0.

Exemplu

În urma realizării unui sondaj la nivelul firmelor dintr-un judeţ s-a înregistrat, pentru un

eşantion de 88 de firme, dacă acestea au facut sponsorizări în anul 2011. La nivelul eşantionului s-

a obţinut că proporţia firmelor care au facut sponsorizări este de 31%. Dintr-o cercetare anterioară

se cunoaşte că σπ = 2.4%. Pentru α = 0,05, să se testeze dacă există diferenţe semnificative între

ponderea înregistrată în 2011 şi cea din 2010, de 28%.

Rezolvare


00 :H

01 :H


.05,0



n

ˆZ 0

.


Se citeşte din tabelul Laplace pentru un risc 05,0 : .96.1z 2/


Pe baza datelor obţinute la nivelul eşantionului, se obţine: 1288/024.0

28.031.0zcalculat

.

6. Luarea deciziei

- dacă ]z,z[z22



7. Interpretare

96.1,96.112zcalculat , se respinge ipoteza Ho. Se poate garanta cu o probabilitate de

0,95 că există diferenţe semnificative între ponderea firmelor care au acordat sponsorizări în 2011

şi cea din 2010.

126

b. Nu se cunoaşte parametrul - Testul t

În acest caz se utilizează testul Student, de forma:

n

'ˆ

ˆt

.

În condiţiile acceptării ipotezei nule, testul devine

n

'ˆ

ˆt 0

şi urmează o lege Student cu

(n-1) grade de libertate.

Pentru o probabilitate cunoscută şi pentru (n-1) grade de libertate, din tabelul Student

se citeşte o valoare 2/t care respectă proprietatea:

)1()ttt(P 2/2/ .


n

's

wt 0

calc

, unde )w1(w's .

Decizia se ia în mod analog cu situaţia testului Z.

Exemplu


localităţi, la întrebarea „Aţi vizionat cel puţin un spectacol de teatru în ultima lună?”, 26% dintre

persoane au răspuns afirmativ. Pentru α = 0,05, să se testeze dacă există diferenţe semnificative

între ponderea persoanelor care au răspuns afirmativ la întrebare şi ponderea de 30%, înregistrată

la sfârşitul stagiunii trecute.

Rezolvare


00 :H

01 :H


.05,0



n

'ˆ

ˆt 0

.


Se citeşte din tabelul Student pentru un risc 05,0 : .96.1tt 999,025.01n,2/


Pe baza datelor de la nivelul eşantionului, se obţine:

07.31000/26.0126.0

30.026.0tcalculat

.

127

6. Luarea deciziei


- dacă ]t,t[t22



7. Interpretare

]96.1,96.1[07.3tcalculat , se respinge ipoteza Ho. Se poate garanta cu o

probabilitate de 0,95 că există diferenţe semnificative între ponderea persoanelor care au răspuns

afirmativ la întrebare şi ponderea înregistrată la sfârşitul stagiunii trecute.

C. Testarea egalităţii a două medii

Testarea diferenţei a două medii urmează aceeaşi logică cu testarea unei medii, deoarece

diferenţa a doi parametri poate fi tratată ca un singur parametru.

Ipotezele formulate în acest caz sunt:

211

210

:H

:H

sau

0:H

0:H

211

210

În funcţie de informaţia disponibilă cu privire la parametrii 2

1 şi 2

2 , se pot identifica

patru situaţii.

a. Dispersiile sunt diferite şi sunt cunoscute

În acest caz, se utilizează un test Z de form1a:

2

2

2

1

2

1

2121

nn

)()ˆˆ(Z

.


2

2

2

1

2

1

21calc

nn

xxZ

.

Exemplu

Din totalul studenţilor anului II din două centre universitare, A şi B, s-au extras două eşantioane,

de volume n1 = 80 studenţi şi n2 = 100 studenţi. Studenţii au fost observaţi după media anului I de

studii, şi s-au obţinut rezultatele: 2.8x1 puncte şi 9.7x2 puncte. Se cunoaşte că 7.12

1 şi

2.12

2 . Pentru un risc asumat 05,0 , să se testeze dacă există diferenţe semnificative între

mediile obţinute la nivelul tuturor studenţilor din cele două centre universitare.

Rezolvare


211

210

:H

:H


128

.05,0



2

2

2

1

2

1

2121

nn

)()ˆˆ(Z

.


Se citeşte din tabelul Laplace pentru un risc 05,0 : .96.1z 2/


Pe baza datelor de la nivelul eşantionului, se obţine: 66.1

100

2.1

80

7.1

9.72.8zcalculat

.

6. Luarea deciziei

- dacă 2

calc zz , se acceptă ipoteza H0;

- dacă 2

calc zz , se respinge ipoteza H0, cu probabilitatea (1-).

7. Interpretare

96.1z66.1z 2/calc , se acceptă ipoteza Ho. Se poate garanta cu o probabilitate de

0,95 că nu există diferenţe semnificative între mediile anuale ale studenţilor din cele două centre

universitare.

b. Dispersiile sunt diferite şi nu se cunosc

În acest caz, se utilizează un test Student de forma:

2

2

2

1

2

1

2121

n

'ˆ

n

'ˆ

)()ˆˆ(t

.


2

2

2

1

2

1

21calc

n

's

n

's

xxt

.

Exemplu

Pentru a analiza preţurile practicate de un producător de ciment şi de principalul său

competitor, din totalul punctelor de vânzare ale celor două companii au fost extrase două

eşantioane de volume n1 = 20 puncte de vânzare şi n2 = 17 puncte de vânzare. S-au înregistrat

preţurile la ciment (lei) din punctele de vânzare şi s-au obţinut, la nivelul eşantioanelor, 28x1

lei, 33x2 lei, 3's 2

1 şi 7's 2

2 . Să se testeze dacă există diferenţe semnificative între preţurile

medii practicate de cei doi producători, la nivelul tuturor punctelor de vânzare. Se consideră

.05,0

Rezolvare


129

211

210

:H

:H


.05,0



2

2

2

1

2

1

2121

n

'ˆ

n

'ˆ

)()ˆˆ(t

.


Se citeşte din tabelul Student pentru un risc 05,0 : 96.1tt 35,025.02nn,2/ 21 .


Pe baza datelor de la nivelul eşantionului, se obţine: 67.6

17

7

20

3

3328tcalculat

.

6. Luarea deciziei

- dacă 2

calc tt , se acceptă ipoteza H0;

- dacă 2

calc tt , se respinge ipoteza H0, cu probabilitatea (1-).

7. Interpretare

96.1t67.6t 2/calc , se respinge ipoteza Ho. Se poate garanta cu o probabilitate de

0,95 că există diferenţe semnificative între preţurile medii practicate de cei doi producători de

ciment.

c. Dispersiile sunt egale şi se cunosc

În acest caz, se utilizează un test Z de forma:

21

2121

n

1

n

1

)()ˆˆ(Z


21

21calc

n

1

n

1

xxZ

.

d. Dispersiile sunt egale şi nu se cunosc

În acest caz, se utilizează un test Student de forma:

21

2121

n

1

n

1'ˆ

)()ˆˆ(t

, unde

130

2nn

'ˆ)1n('ˆ)1n('ˆ

21

2

22

2

112

.


21

21calc

n

1

n

1's

xxt

, unde

2nn

's)1n('s)1n('s

21

2

22

2

112

.

Exemplu

Pentru a analiza veniturile persoanelor dintr-o regiune pe sexe, din populaţia regiunii s-au

extras, din fiecare gen, două eşantioane, de volume n1 = 850 persoane de sex feminin şi n2 = 750

persoane de sex masculin. S-au înregistrat veniturile anuale ale persoanelor ( mii lei) şi s-au

obţinut, la nivelul eşantioanelor, 18x1 mii lei, 27x2 mii lei. Se cunoaşte că 7.4's's 2

2

2

1 .

Să se testeze dacă există diferenţe semnificative între veniturile persoanelor pe sexe, la nivelul

întregii regiuni. Se consideră .05,0

Rezolvare


211

210

:H

:H


.05,0

3. Alegera statisticii test


21

2121

n

1

n

1'ˆ

)()ˆˆ(t

.


Se citeşte din tabelul Student pentru un risc 05,0 : 96.1tt 1598,025.02nn,2/ 21 .


Pe baza datelor de la nivelul eşantionului, se obţine:

7.41598

7.47497.4849

2nn

's)1n('s)1n('s

21

2

22

2

112

13.39

750

1

850

17.4

2718tcalculat

.

6. Luarea deciziei

- dacă 2

calc tt , se acceptă ipoteza H0;

- dacă 2

calc tt , se respinge ipoteza H0, cu probabilitatea (1-).

131

7. Interpretare

96.1t13.39t 2/calc , se respinge ipoteza Ho. Se poate garanta cu o probabilitate de

0,95 că există diferenţe semnificative între veniturile persoanelor pe sexe, la nivelul regiunii.

132

Teste1

1) Pentru un eşantion de 100 salariaţi repartizaţi după nivelul venitului lunar, s-au obţinut

rezultatele: lei300's;lei1500x . Cu un risc de 5%, se consideră că între venitul mediu al

salariaţilor populaţiei totale şi nivelul mediu de referinţă lei18000 :

a) nu există diferenţe semnificative

b) există diferenţe semnificative

c) nu există nici o legătură



Statistics

Current Salary

474

0

$34,000.00

$785.000

Valid

Missing

N

Mean

Std. Error of Mean

Pentru un nivel de încredere de 95%, valoarea calculată a testului şi decizia de a accepta ipoteza

că salariul mediu a unui angajat nu diferă semnificativ de 33000$ sunt:

a) tcalc =1,27 şi se acceptă ipoteza nulă

b) tcalc =1,27 şi se respinge ipoteza nulă, cu o încredere de 95%

c) tcalc =2,27 şi se respinge ipoteza nulă, cu o încredere de 95%

3)Decizia de a accepta sau a respinge o ipoteză nulă se ia prin compararea:

a) valorii calculate a testului cu o valoare teoretică a acestuia

b) estimaţiei cu parametrul

c) erorii limită cu pragul de semnificaţie

4) Într-un test statistic se acceptă ipoteza nulă dacă:

a) tcalc = tα

b) tcalc>tα

c) tcalc aparţine intervalului (-tα/2 ; tα/2)

5) Într-un sondaj electoral, un candidat a obţinut un procent de voturi estimat egal cu 52%. Ştiind

că volumul eşantionului este de 400 persoane, iar probabilitatea este de 0,95, atunci candidatul

a) câştigă

b) pierde

c) nu se poate decide

6) Testarea este un procedeu statistic care presupune

a) verificarea semnificaţiei diferenţelor dintre parametri

b) aflarea unei valori posibile a unui parametru

c) calcularea erorii maxime admisibile

1 Răspunsuri: 1 –b; 2 – a; 3 – a,b; 4 – c; 5 – b; 6 – a, 7 – c.

Bazele Statisticii Bb

Documents