-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
1
Statistica exercitii si probleme pentru seminar partea I
Ex. 1. Urmtoarea serie de date arat preul de vnzare (sute lei)
pentru 13 lucrri de grafic la o licitaie de obiecte de art: 51, 60,
72, 35, 32, 57, 63, 61, 48, 33, 67, 54, 37. Se cere:
a) s se calculeze i s se interpreteze indicatorii tendinei
centrale; b) s se stabileasc dac media este reprezentativ; c) s se
calculeze i s se interpreteze cuartilele acestei serii de date; d)
optiunea Descriptive Statistics din Data Analysis Excel; e) s se
analizeze asimetria acestei serii de date; f) stabilii valoarea de
adevr a urmtoarelor afirmaii, justificnd rspunsurile:
f1) 25 % dintre lucrarile licitate s-au vandut pentru un pret
mai mic de 48 sute de lei; f2) jumatate dintre lucrarile licitate
au un pret mai mic sau egal cu 54 sute lei; f3) 25 % dintre lucrari
s-au vandut cu cel putin 62 sute de lei; f4) pentru 75% dintre
obiecte s-a obinut un pret de cel putin 36 sute lei; f5) precizati
care dintre urmtoarele valori: 25, 29, 16, 40, 124, 85, 99,8 sute
lei sunt
outliers n raport cu datele iniiale; f6) coeficientul de variaie
este 26,33%; f7) media este reprezentativ.
Rezolvare: a)
o Populaia statistic este mulimea lucrarilor de grafic puse n
vnzare la licitaiile cu obiecte de art. o Unitatea statistic este o
lucrare de grafic pus n vnzare la o licitaie. o Variabila statistic
sau caracteristica de interes, notat cu X, arat preul de vnzare, n
sute lei, al unei
lucrri de grafic. o Pentru un eantion de volum n=13 uniti
statistice (lucrri de grafic), se cunoate preul de vnzare,
adic avem urmtoarea serie statistic simpl sau nesistematizat de
date numerice: {x1=51, x2=60, x3=72, x4=35, x5=32, x6=57, x7=63,
x8=61, x9=48, x10=33, x11=67, x12=54, x13=xn=37}.
o Pentru o serie simpl de date numerice { }n
xxx ,...,,21
,
media aritmetic (Mean) este n
x
n
xxx
x
n
i
i
n
=
=+++
=121
...
.
Nr. crt. Valorile i
x ale variabilei X - preul de vnzare (sute lei)
1 x1= 51 2 x2= 60 3 x3= 72 4 x4= 35 5 x5= 32 6 x6= 57 7 x7= 63 8
x8= 61 9 x9= 48
10 x10=33 11 x11=67 12 x12=54 13 x13=37
=
=
13
1i
ix 670
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
2
o n cazul nostru, 54,515385,5113
670
1313
...
13
11321===
+++=
=i
ix
xxx
x sute lei, adic preul mediu de
vnzare al unei lucrri de grafic este de 51,54 sute lei. o Pentru
a determina Mediana (Median) unei serii simple de date, se parcurg
urmtoarele etape:
Valorile seriei de date se ordoneaz cresctor: ( ) ( ) ( ) ( )nn
xxxx 121 ... , unde ( ) nix i ,1, =
reprezint a i-a valoare din irul ordonat cresctor de date
numerice (astfel, ( )1x este prima
valoare din irul ordonat cresctor, adic cea mai mic valoare, (
)2x este urmtoarea valoare n
ordine cresctoare i aa mai departe pn la ( )nx , care este cea
mai mare valoare).
Pentru aceast serie de date, cele n=13 valori ordonate cresctor
sunt: x(1)=32, x(2)=33, x(3)=35, x(4)=37, x(5)=48, x(6)=51,
x(7)=54, x(8)=57, x(9)=60, x(10)=61, x(11)=63, x(12)=67,
x(13)=72.
Se stabilete locul medianei: N=+
=+
72
113
2
1n
Mediana este a 7-a valoare din irul ordonat de date, adic ( )
547 == xMe sute de lei (valoarea
din mijlocul seriei ordonate de date).
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
4444444 34444444 21444444 3444444 21
%50
54
%50
13121110987654321
Me
xxxxxxxxxxxxx
Interpretarea: jumtate dintre unitile statistice din eantion au
nivelul variabilei de interes mai
mic sau egal cu Mediana, iar restul au nivelul variabilei de
interes cel puin egal cu Mediana, adic jumtate dintre lucrrile de
grafic licitate s-au vndut cu mai puin de 54 sute lei, iar restul
s-au vndut cu un pre mai mare de 54 sute lei.
o Modul (Mode) sau valoarea modal este acea valoare sau variant
de rspuns care apare cu cea mai
mare frecven. n cazul nostru se observ c niciuna dintre valorile
seriei de date nu are o frecven mai mare ca 1, adic avem numai
valori distincte, prin urmare, seria nu are valoare modal.
b) pentru a stabili dac media este reprezentativ, se calculeaz
coeficientul de variaie al seriei de date,
adic 100=x
s
vx
x, unde 2
xxss = este abaterea standard a seriei de date.
o Dispersia de selecie (sample variance) pentru o serie simpl de
date numerice asupra variabilei X este
( ) ( )( )
11
...1
2
22
12
=
++=
=
n
xx
n
xxxx
s
n
i
i
n
x.
Calculele intermediare sunt prezentate n tabelul de mai jos:
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
3
Nr. crt. Valorile ix ( )2
xxi
1 x1= 51 ( ) ( ) == 221 54,5151xx 0,2916
2 x2= 60 ( ) ( ) == 222 54,5160xx 71,5716
3 x3= 72 ( ) ( ) ==22
354,5172xx 418,6116
4 x4= 35 ( ) ( ) == 224 54,5135xx 273,5716 5 x5= 32 381,8116 6
x6= 57 29,8116 7 x7= 63 131,3316 8 x8= 61 89,4916 9 x9= 48
12,5316
10 x10=33 343,7316 11 x11=67 239,0116
12 x12=54 ( ) ( ) == 2212 54,5154xx 6,0516
13 x13=37 ( ) ( ) == 2213 54,5137xx 211,4116
=
=
13
1i
ix 670 ( ) =
=
13
1
2
i
ixx 2209,231
=x 51,54 =
=
113
231,22092x
s 184,1026
=== 1026,1842
xxss 13,5684
=xv 26,33%
adic dispersia (sample variance) este ( )
1026,18412
231,2209
113
13
1
2
2==
=
=i
i
x
xx
s ,
iar abaterea standard (standard deviation) este 5684,131026,1842
===xx
ss sute lei, cu interpretarea
c valorile individuale ale seriei se abat, n medie, cu 13,5684
sute lei fa de nivelul mediu de 51,84 sute lei al preului de vnzare
din eantion.
o Coeficientul de variaie este %35%33,2610054,51
5684,13100
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
4
c) Cuartilele seriei de date sunt
321,, QMeQQ = , iar pentru determinarea lor, seria de date
trebuie s fie
ordonat cresctor ( ) ( ) ( ) ( )nn xxxx 121 ... .
o Q1 cuartila de ordinul 1 sau cuartila inferioar se determin
astfel:
se stabilete locul lui Q1 : =+
=+
50,314
1131
4
1nN, dar 3 < 3,50 < 4
(locul lui 1Q cuartilei este ntre 3 i 4, astfel c
1Q se va gsi ntre a 3-a i a 4-a valoare
din irul ordonat cresctor)
( ) ( )413 xQx i ( ) ( )
362
3735
2
43
1=
+=
+
=
xxQ sute lei.
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )44444444444
344444444444 2144 344 21
%75
13121110987654
36
%25
321
1
xxxxxxxxxxxxx
Q
interpretarea: 25% dintre unitile statistice din eantion au
nivelul variabilei de interes mai mic sau egal cu
1Q , iar restul de 75% dintre unitile statistice din eantion au
nivelul
variabilei de interes cel puin egal cu1Q ; adic 25% dintre
lucrrile de grafic licitate s-au
vndut pentru un pre mai mic dect 36 sute lei, iar restul de 75%
dintre ele s-au vndut cu un pre mai mare de 36 sute lei.
o Q2=Me=54 sute lei este cuartila de ordinul 2 sau mediana
seriei de date statistice. o Q3 cuartila de ordinul 3 sau cuartila
superioar se determin astfel:
se stabilete locul lui Q3 : =+
=+
50,1034
1133
4
1nN, dar 10 < 10,50 < 11
(locul lui 1Q cuartilei este ntre 10 i 11, astfel c
3Q se va gsi ntre a 10-a i a 11-a
valoare din irul ordonat cresctor)
( ) ( )11310 xQx si ( ) ( )
622
6361
2
1110
3=
+=
+
=
xxQ sute lei,
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )44 344
2144444444444 344444444444 21
%25
131211
62
%75
10987654321
3
xxxxxxxxxxxxx
Q
interpretarea: 75% dintre unitile statistice din eantion au
nivelul variabilei de interes mai
mic sau egal cu 3Q , iar restul de 25% dintre unitile statistice
din eantion au nivelul
variabilei de interes cel puin egal cu 3Q ; adic 75% dintre
lucrrile de grafic licitate s-au
vndut pentru un pre mai mic dect 62 sute lei, iar restul de 25%
dintre ele s-au vndut cu un pre mai mare de 62 sute lei.
o
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )444 3444
214444444 34444444 2144 344 21
%25
131211
62
%50
10987654
36
%25
321
31
xxxxxxxxxxxxx
QQ
Jumatate din termenii din mijlocul seriei au valori cuprinse
intre Q1=36 sute lei si Q3=62 sute lei. Abaterea intercuatilic
(interquratile range) este IQR=Q3-Q1=26 sute lei.
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
5
d) pentru o serie statistica simpla de date numerice,
principalii indicatori ai tendintei centrale, variatiei si formei
distributiei se pot calcula in Excel astfel:
datele statistice se introduc intr-o foaie de lucru a unui
fisier Excel, asa cum se poate vedea in Figura nr. 1;
in Excel 2003, din meniul Tools se alege Data Analysis, iar apoi
se selecteaza Descriptive Statistics asa cum se poate vedea in
Figura nr. 1;
in Excel 2007 sau versiuni ulterioare, din meniul Data, se alege
Data Analysis, iar apoi se selecteazaDescriptive Statistics, asa
cum se poate vedea in Figura nr. 1;
Figura nr. 1. Introducerea datelor seriei simple intr-o foaie de
lucru si selectarea optiunii Descriptive
Statistics din Data Analysis.
in urmatoarea fereastra care se va deschide, asa cum se poate
observa in Figura nr. 2, se va completa: la sectiunea Input Range
se selecteaza cu mouse-ul sirul de celule care contin datele
seriei
statistice simple, la sectiunea Output options se alege o celula
din foaia de lucru unde vor aparea rezultatele
prelucrarii datelor, se bifeaza Summary Statistics, se da click
pe butonul OK;
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
6
Figura nr. 2. Fereastra Descriptive Statistics.
Rezultatele sunt prezentate intr-un tabel de forma:
Mean (media) 51,5385 x=
Standard Error 3,7632
Median (mediana) 54 Me=
Mode (modul) #N/A (nu exista)
Standard Deviation (abaterea standard) 13,56842
xxss ==
Sample Variance (dispersia de selectie) 184,10262
xs=
Kurtosis (coeficientul de boltire si aplatizare) -1,29426
CBA=
Skewness (coeficientul de asimetrie) -0,23938 CAS=
Range (Amplitudinea) 40minmaxxxA
x==
Minimum (valoarea minima) 32 ( )1min xx ==
Maximum (valoarea maxima) 72 ( )nxx == max
Sum (suma valorilor) 670 =
=
n
i
ix
1
Count (volumul esantionului) 13 n=
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
7
e) asimetria unei serii de date statistice se poate analiza din
mai multe puncte de vedere:
o prin compararea indicatorilor tendintei centrale: in cazul
nostru, comparam doar media aritmetica si mediana, deoarece modul
nu exista,
astfel: Mex < , ceea ce indica o asimetrie negativa, in seria
de date predominand valorile mai mari, adica intre lucrarile de
grafica licitate sunt mai numeroase cele care au o valoare de
vanzare mai mare;
o prin calculul si evaluarea semnului urmatorului coeficient de
asimetrie ( )
05442,03
31, adica Mediana este
mai apropiata de cuartila superioara decat de cea inferioara,
ceea ce arata ca seria prezinta asimetrie negativa.
f)
f1) 25 % dintre lucrarile licitate s-au vandut pentru un pret
mai mic de 48 sute de lei: afirmatie falsa deoarece cuartila de
ordinul intai este 36
1=Q sute lei;
f2) jumatate dintre lucrarile licitate au un pret mai mic sau
egal cu 54 sute lei: afirmatie adevarata deoarece mediana este
54=Me sute lei;
f3) 25 % dintre lucrari s-au vandut cu cel putin 62 sute de lei:
afirmatie corecta deoarece curatila superioara este 62
3=Q sute lei;
f4) pentru 75% dintre obiecte s-a obinut un pret de cel putin 36
sute lei; afirmatie adevarata deoarece cuartila inferioara este
36
1=Q sute lei
f5) precizati care dintre urmtoarele valori: 25, 29, 16, 40,
124, 85, 99,8 sute lei sunt outliers n raport cu datele iniiale:
Definitie: Spunem ca o valoare x este outlier pentru un set de date
statistice numerice dac:
IQRQx < 5,11
sau IQRQx +> 5,13
sau valoarea x este outlier pentru un set de date statistice
daca se gsete n afara intervalului
[ ]IQRQIQRQ + 5,1;5,131
.
n cazul nostru, [ ] [ ]101;35,1;5,131
=+ IQRQIQRQ , deci numai valoarea 124 este outlier n raport
cu
setul iniial de date statistice;
f6) coeficientul de variaie este 26,33%: afirmatie
adevarata;
f7) media este reprezentativ pentru colectivitate: afirmatie
adevarata deoarece coeficientul de variatie este mai mic de
35%.
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
8
Ex. 2. Se consider urmatoarea serie, reprezentand valoarea
inregistrata a 9 facturi emise de o societate comerciala in ultima
luna: 47; 58; 41; 36; 54; 42; 65; 43; 37 (mil. lei). Alegeti
afirmatiile false:
a) Cuartilele inferioara si superioara sunt 43 si respectiv 58
mil. lei. b) Abaterea intercuartilica este de 10 mil. lei; c)
Jumatate dintre termenii seriei, plasati pe mijocul distributiei,
se regasesc intre 39 si 56. d) Percentilele de ordinul 25 si 75
sunt 39 si respectiv 56 mil. lei e) In raport cu datele initiale,
valorile: 73, 29, 18, 73, 23 sunt toate outliers. f) Daca fiecare
valoare s-ar mari intai cu 4,25 lei, apoi de 2 ori, dispersia
noilor valori ar fi 396.
Ex. 3. Structura unui esantion de 90 de copii dupa nivelul maxim
atins al unui joc pe calculator este:
A
11%
B
13%
C
20%D
34%
E
22%
Ex. 4. Pentru 39 de actrite care au obtinut premiul Oscar se
cunoaste varsta, in ani impliniti, la momentul castigarii
premiului:
50, 44, 35, 80, 26, 28, 41, 21, 61, 38, 49, 33, 74, 30, 33, 41,
31, 35, 41, 42, 37, 26, 34, 34, 35, 26, 61, 60, 34, 24, 30, 37, 31,
27, 39, 34, 26, 25, 33 ani.
Se cere: a) sa se determine si sa se interpreteze indicatorii
tendintei centrale si cuartilele acestei serii de date; b) sa se
construiasca diagrama box-plot (sau diagrama cu mustati
box-and-whisker), punand in
evidenta daca seria are valori extreme; c) sa se calculeze
indicatorii variatiei si sa se stabileasca daca seria este omogena;
d) analizati asimetria; e) Descriptive Statistics.
Rezolvare: a) o Populatia statistica este multimea actritelor
care au castigat premiul Oscar. o Unitatea statistica este o
actrita. o Variabila sau caracteristica de interes, notata X, este
variabila ce arata varsta unei actrite la momentul
obtinerii premiului; variabila numerica, discreta. o Pentru un
esantion de volum 39=n de actrite se cunosc valorile variabilei X,
adica {x1=50, x2=44,
x3=35, x4=80, ..., xn=x39=33 ani}, care reprezinta o serie
simpla sau nesistematizata de date statistice numerice.
o Media unei serii simple de date numerice { }n
xxx ...,,,21
esten
x
n
xxx
x
n
i
i
n
=
=+++
=121
...
.
In cazul acestei serii, varsta medie a unei actrite din esantion
care a castigat premiul Oscar este
1025,3839
1486
3939
...
39
13921===
+++=
=i
ix
xxx
x ani.
Unde A nivelul cel mai slab, E nivelul cel mai inalt.
a) Construiti distributia de frecvente absolute si
reprezentati-o grafic.
b) Studiati tendinta centrala a distributiei folosind indicatori
adecvati.
c) Calculati media si dispersia unei variabile alternative, a
carei stare favorabila este data de copiii care au atins cel mult
nivelul C al jocului.
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
9
o Pentru a determina mediana, vom proceda astfel:
- seria simpla de date se ordoneaza crescator ( ) ( ) ( )nxxx
...21 , unde ( ) nix i ,1, = este
elementul cu rangul i din seria ordonata crescator,
- locul medianei este ( ) 34202
1
20===
+xMe
nN ani.
Jumatate dintre actritele din selectie au obtunut premiul Oscar
la o varsta de cel mult 34 de ani (jumatate dintre actritele din
esantion au castigat premiul Oscar la o varsta de peste 34 de
ani).
o Exista doua valori care au frecventa maxima si anume valorile
26 ani si 34 ani, care apar pentru 4 actrite fiecare.
Nr. crt. Varsta actritelori
x Varsta actritelor, in ordine crescatoare ( )ix
1 x1=50 x(1)=21 2 x2=44 x(2)=24 3 x3=35 x(3)=25 4 x4=80 x(4)=26
5 x5=26 x(5)=26 6 28 26
7 41 26
8 21 27
9 61 28
10 38 x(10)=30=Q1 11 49 30
12 33 31
13 74 31
14 30 33
15 33 33
16 41 33
17 31 34
18 35 34
19 41 34
20 42 x(20)=34=Me 21 37 35
22 26 35
23 34 35
24 34 37
25 35 37
26 26 38
27 61 39
28 60 41
29 34 41
30 24 x(30)=41=Q3 31 30 42
32 37 44
33 31 49
34 27 x(34)=50 35 39 x(35)=60 36 34 x(36)=61 37 26 x(37)=61 38
25 x(38)=74 39 x39=33 x(39)=80
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
10
o Pentru determinarea cuartilelor procedam astfel:
- locul cuartilei de ordinul 1, Q1, este ( ) 301014
1
101===
+xQ
nN ani; un sfert
dintre actrite au castigat premiul Oscar la o varsta mai mica
sau egala cu 30 de ani, iar restul la cel putin 30 de ani;
- locul cuartilei de ordinul 3, Q3, este ( ) 413034
1
303===
+xQ
nN ani; trei sferturi
dintre actrite au castigat premiul Oscar la o varsta mai mica
sau egala cu 41 de ani, iar restul la cel putin 41 de ani.
o Abaterea intercuartilica este 1113== QQIQR ani si arata
lungimea intervalului in care se gasesc
jumatate dintre valorile din mijlocul seriei de date.
b) Diagrama cu mustati (box-and-whisker) sau diagrama box-plot
pentru o serie de date statistice numerice se construieste punand
in evidenta urmatoarele cinci elemente si eventualele valori
extreme sau outliers:
- cuartila inferioara sau de ordinul 1, Q1=30 ani; - mediana sau
cuartila de ordinul al 2-lea, Q2=Me=34 ani; - cuartila superioara
sau de ordinul al 3-lea, Q3=41 ani; - limita sau marginea
inferioara a diagramei box-plot este cea mai mica dintre
valorile
seriei de date cu proprietatea ca este mai mare sau egala cu
IQRQ 5,11
, adica
( ) ( ){ }IQRQxnix iiplotbox == 5,1,1,mininflim 1 : o
5,135,1
1= IQRQ
o cea mai mica dintre valorile seriei de date, cu proprietatea
ca este 5,13 , este x(1)=21 ani, deci marginea inferioara este
egala cu 21 ani,
( )121inflim xplotbox == ;
- limita sau marginea superioara a diagramei box-plot este cea
mai mare dintre valorile seriei de date cu proprietatea ca este mai
mica sau egala cu IQRQ + 5,1
3, adica
( ) ( ){ }IQRQxnix iiplotbox +== 5,1,1,maxsuplim 3 : o
5,575,1
3=+ IQRQ
o cea mai mare dintre valorile seriei de date, cu proprietatea
ca este 5,57 , este x(34)=50 ani, deci marginea superioara este
egala cu 50 ani,
( )3450suplim xplotbox == .
Se observa ca intervalul cuprins intre marginea inferioara si
cea superioara diagramei box-plot,
adica intervalul de numere reale [21; 50] nu contine toate
valorile observate, in afara lui ramanand valorile x(35)=60,
x(36)=61, x(37)=61, x(38)=74, x(39)=80 ani.
Valoarea x este outlier pentru seria de date statistice numerice
daca x se gaseste in afara intervalului [ ] [ ]5,57;5,135,1;5,1
31=+ IQRQIQRQ , x(35)=60, x(36)=61, x(37)=61, x(38)=74, x(39)=80
sunt
outliers si vor fi reprezentate distinct in diagrama
box-plot.
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
11
Fig. . Diagrama box-plot sau diagrama cu mustati
(box-and-whisker).
Fig. . Diagrama box-plot in SPSS.
c) Dispersia de selectie (sample variance) pentru o serie simpla
de date numerice asupra variabilei X este
( ) ( )( )
11
...1
2
22
12
=
++=
=
n
xx
n
xxxx
s
n
i
i
n
x,
adica ( )
7260,178139
5897,6791
139
39
1
2
2=
=
=
=i
i
x
xx
s ,
30
(Q1)
34
(Me)
41
(Q3)
50 60 61 74 80
* * * *
*
21
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
12
abaterea standard (standard deviation) este 3688,132 ==xx
ss ani.
Coeficientul de variatie este %35%09,35100 >==x
s
vx
x, ceea ce indica faptul ca seria de date
nu este omogena, iar media nu este reprezentativa pentru
colectivitate, ca indicator al tendintei centrale.
Nr. crt. Varsta actritelor i
x xxi ( )2
xxi
1 x1=50 11,8974 141,5489 2 x2=44 5,8974 34,7797 3 x3=35 -3,1026
9,6259 4 x4=80 41,8974 1755,3951 5 x5=26 -12,1026 146,4720 6 28
-10,1026 102,0618
7 41 2,8974 8,3951
8 21 -17,1026 292,4977
9 61 22,8974 524,2925
10 38 -0,1026 0,0105
11 49 10,8974 118,7541
12 33 -5,1025 26,0361
13 74 35,8974 1288,6259
14 30 -8,1025 65,6515
15 33 -5,1025 26,0361
16 41 2,8974 8,3951
17 31 -7,1025 50,4464
18 35 -3,1025 9,6259
19 41 2,8974 8,3951
20 42 3,8974 15,1900
21 37 -1,1025 1,2156
22 26 -12,1025 146,4720
23 34 -4,1025 16,8310
24 34 -4,1025 16,8310
25 35 -3,1025 9,6259
26 26 -12,1025 146,4720
27 61 22,8974 524,2925
28 60 21,8974 479,4977
29 34 -4,10256 16,8310
30 24 -14,1025 198,8823
31 30 -8,1025 65,6515
32 37 -1,1025 1,2156
33 31 -7,1025 50,4464
34 27 -11,1025 123,2669
35 39 0,8974 0,8053
36 34 -4,1025 16,8310
37 26 -12,1025 146,4720
38 25 -13,1025 171,6771
39 x39=33 -5,1025 26,0361
=
=
39
1i
ix 1486 ( )
=
=
39
1i
ixx 0 ( )
=
=
39
1
2
i
ixx 6791,5897
=x 38,1025 =2
xs 178,7260
==2
xxss 13,3688
=xv 35,09%
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
13
d) Asimetria unei serii de distribuie de frecvene se poate
stabili: - prin compararea indicatorilor tendintei centrale, - prin
analiza distantei intre mediana si cele doua cuartile inferioara si
superioara, - prin calculul si interpretarea valorii unui indicator
specific, coeficientul de asimetrie, - se observ din reprezentarea
grafic prin histogram sau poligonul frecvenelor.
- Cum xMe =
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
14
e) Indicatorii tendintei centrale, principalii indicatori ai
variatiei si ai formei distributiei pentru o serie simpla de date
numerice pot fi calculati in Excel si in SPSS, output-urile fiind
de forma:
Output-ul Descriptive Statistics in Excel Output-ul Descriptive
Statistics in SPSS
Varsta actritelor
Mean (media) =x 38.1025
Standard Error 2.1407
Median Me=34
Mode Mo=26
Standard Deviation (abaterea standard) ==
2
xxss 13.3688
Sample Variance (dispersia de selectie) =
2
xs 178.7260
Kurtosis 2.3830
Skewness (coeficientul de asimetrie) =CAS 1.5734
Range (Amplitudinea) == minmax xxAx 59
Minimum =min
x 21
Maximum =max
x 80
Sum =
=
39
1i
ix 1486
Count n=39
Statistics
Varsta actritelor Oscar
N Valid 39
Missing 0
Mean =x 38.10
Std. Error of Mean 2.141
Median Me=34.00
Mode Mo=26a
Std. Deviation ==2
xxss 13.369
Variance =2
xs 178.726
Skewness =CAS 1.573
Std. Error of Skewness .378
Kurtosis 2.383
Std. Error of Kurtosis .741
Range == minmax xxAx 59
Minimum =minx 21
Maximum =maxx 80
Sum =
=
39
1i
ix 1486
Percentiles 25 =1Q 30.00
50 == MeQ2 34.00
75 =3Q 41.00
a. Multiple modes exist. The smallest value is shown
Observatie: Analiza boltirii/aplatizrii Boltirea(kurtosis, n
engl.) exprim nlimea curbei (cocoaei) comparativ cu distribuia
normal teoretic. ntlnim, astfel distribuii leptocurtice, ascuite
(cu cocoaa nalt) i distribuii platicurtice, aplatizate.
Coeficientul de boltire sau aplatizare (kurtosis) este o msur a
mprtierii fiecrei observaii n jurul unei valori centrale i se
determin, pe eantion, cu formula:
( )
( )3
22
1
4
=
=
x
n
i
i
sn
xx
CBA , unde ( )
1
1
2
2
=
=
n
xx
s
n
i
i
x.
Definiia este bazat pe momentul centrat de ordinul 4.
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
15
Interpretarea valorii coeficientului de aplatizare si
boltire:
Dac 0>CBA , avem distribuie leptocurtic, valorile varibilei
fiind concentrate n jurul indicatorilor tendinei centrale
Dac 0=CAB , ceea ce indica o distributie leptocurtica (cu
cocoasa, asa cum se poate vedea si din histograma sau poligonul
frecventelor). Ex. 5. Un agent al companiei de asigurari W vinde
contracte de asigurare de locuinte. In luna iulie a incheiat: 2
contracte cu prime anuale de 50 Eur, 3 contracte cu prime anuale de
60 Eur, 6 contracte cu prime de 70 Eur, 9 contracte cu prime de 90
Eur, 16 contracte cu prime anuale de 120 Eur, 8 contracte cu prime
anuale de 130 Eur si 6 contracte cu prime de 140 Eur. Se cere:
a) Construii seria de distribuie de frecvene i analizai grafic
tendina de normalitate a acesteia. b) Caracterizai omogenitatea i
asimetria distribuiei contractelor n funcie de valoarea
primelor
anuale. c) Calculati media si abaterea standard a variabilei
alternative care evidentiaza contractele cu prime
anuale de valoare mai mica sau egala cu 90 Eur. Rezolvare: a) o
Populatia statistica este multimea contractelor de asigurare de
locuinte din portofoliul companiei W. o Unitatea statistica este un
contract de asigurare de locuinta. o Variabila statistica sau
caracteristica de interes, notata X, este variabila ce arata
marimei primei
anuale, in Eur, pentru un contract de asigurare de locuinta
incheiat de un agent al companiei; variabila numerica,
continua.
o Agentul a incheiat intr-o luna n=50 de contracte, seria de
date statistice referitoare la primele anuale ale acestor contracte
fiind sistematizata intr-o serie de distributie de frecvente pe r=7
variante distincte. Astfel distributia celor n=50 de contracte dupa
valoarea primei anuale, in Eur, este:
Nr. crt.
Valoarea kx Eur
a unei prime anuale
Numarul de contracte, k
n ,
(frecventa absoluta)
1 =1x 50 Eur =1n 2 contracte
2 =2x 60 Eur =2n 3
3 =3x 70 Eur =3n 6
4 =4x 90 Eur =4n 9
5 =5x 120 Eur =5n 16
6 =6x 130 Eur =6n 8
7 =7x 140 Eur =7n 6
=
==
7
1
50
k
knn contracte
sau
=======
=======
6816963contracte2
120130120907060Eur50:
7654321
7654321
nnnnnnn
xxxxxxxX ,
unde =
==
7
1
50
k
knn contracte.
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
16
o Reprezentarea grafica a acestei serii de distributie este
poligonul frecventelor absolute.
Poligonul frecventelor absolute - distributia celor 50 de
contracte
incheiate de agentul de asigurari dupa valoarea primei
anuale
0
2
4
6
8
10
12
14
16
18
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150
Prima anuala de asigurare a unui contract, in Eur
Frecventa absoluta (numarul de contracte)
o Poligonul frecventelor sugereaza ca distributia are tendinta
de normalitate, dar prezinta asimetrie la stanga, coada poligonului
freventelor absolute fiind mai alungita spre stanga.
o Poligonul frecventelor se mai poate reprezenta si cu ajutorul
frecventelor relative
Nr.
crt.
Valoarea kx Eur
a unei prime anuale
Numarul de contracte, k
n ,
(frecventa absoluta) Frecventa relativa [ ]1,0* =
n
n
nk
k
1 =1x 50 Eur =1n 2 contracte =*
1n 0,04
2 =2x 60 Eur =2n 3 =*
2n 0,06
3 =3x 70 Eur =3n 6 =*
3n 0,12
4 =4x 90 Eur =4n 9 =*
4n 0,18
5 =5x 120 Eur =5n 16 =*
5n 0,32
6 =6x 130 Eur =6n 8 =*
6n 0,16
7 =7x 140 Eur =7n 6 =*
7n 0,12
=
==
7
1
50
k
knn contracte
=
=
7
1
*1
k
kn
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015
Conf. univ. dr. Mihaela Covrig
17
Poligonul frecventelor relative
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150
Prima anuala, in Eur, pentru un contract de asigurare
Frecventa
relativa
b)
o Media pentru o serie de distributie de frecvente pe r variante
distincte ale variabilei de interes este
n
nx
nn
nxnx
x
r
k
kk
r
rr
=
=
++
++=
1
1
11
...
...
,
unde { }rkxk
,1, = sunt variantele distincte observate ale variabilei, iar
=
=
r
k
knn
1
volumul esantionului.
In cazul nostru, 2,10650
5310
50
7
1==
=
=k
kknx
x Eur este valoarea medie a unei prime anuala
corespunzatoare unui contract de asigurare de locuinta incheiat
de respectivul agent de vanzari.
o Mediana pentru o serie de distributie de frecvente pe r
variante distincte se calculeaza parcurgand urmatorii pasi:
Cele r variante distincte sunt ordonate crescator r
xxx
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015
Conf. univ. dr. Mihaela Covrig
18
Nr.
crt.
Valoarea
distincta,
kx Eur
kn ,
(frecventa
absoluta)
kknx
kcknnF ++= ...
1 ( )
kknxx
2
1 =1x 50 =1n 2 = 11 nx 100 == 11 nFc 2 ( ) = 12
2nxx 6316,88
2 =2x 60 =2n 3 = 22 nx 180 =+= 212 nnFc 5 ( ) = 22
2nxx 6403,32
3 =3x 70 =3n 6 420 =++= 3213 nnnFc 11 7862,64
4 =4x 90 =4n 9 810 =++= 414 ... nnFc 20 2361,96
5 =5x 120 =5n 16 1920 =++= 515 ... nnFc 36 3047,04
6 =6x 130 =6n 8 1040 =++= 616 ... nnFc 44 4531,52
7 =7x 140 =7n 6 840 ==++= nnnFc 717 ... 50 ( ) = 72
7nxx 6854,64
=
==
7
1
50
k
knn
=
=
7
1k
kknx 5310
( )=
=
7
1
2
k
kknxx 37378
=x 106,2 =2
xs 762,8163265
==
2
xxss 27,61912972
=xv 26,01%
o Modul sau valoarea modala pentru o serie de distributie de
frecvente pe r variante distincte este acea varianta sau valoare
care apare cu frecventa absoluta sau relativa cea mai mare:
Frecventa absoluta cea mai mare este:
{ }rknnk
,1,max165
=== .
valoarea modala este deci a 5-a varianta sau valoare distincta
de raspuns a variabilei de interes, 120
5== xMo Eur, aceasta fiind valoarea cea mai des intalnita a unei
prime anuale
pentru contractele incheiate de respectivul agent.
o Relatia in care se gasesc indicatorii tendintei centrale,
MoMex =< , ca si reprezentatrea grafica pentru poligonul
frecventelor absolute sau relative, arata ca distributia
contractelor dupa valoarea primelor anuale prezinta asimetrie
negativa, in serie predominand valorile mai mari ale primelor
anuale, iar coada distributiei este alungita spre stanga.
o Dispersia in esantion (de selectie) pentru o serie de
distributie de frecvente pe r intervale de variatie este
( ) ( )( )
( )
11...
...1
2
1
2
1
2
12
=
++
++=
=
n
nxx
nn
nxxnxx
s
r
k
kk
r
rr
x,
unde { }rkxk
,1, = sunt variantele distincte observate ale variabilei, =
=
r
k
knn
1
volumul esantionului.
In cazul nostru,
( )8163,762
150
37378
150
7
1
2
2=
=
=
=k
kk
x
nxx
s , iar abaterea standard sau abaterea medie
patratica este 6191,272 ==xx
ss Eur, care arata cu cat se abat, in medie, valorile observate
fata de
nivelul mediu in esantion al primelor anuale.
o Coeficientul de variatie in esantion este
%30%01,261002,106
6191,27100
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
19
c) Definim evenimentul favorabil ca evenimentul ca un contract
de asigurare are o prima anuala de valoare mai mica sau egala cu 90
Eur. Variabila alternativa care evidentiaza contractele ale caror
prime
anuale sunt de valoare mai mica sau egala cu 90 Eur este
mmnY
10: ,
unde 1=Y pentru unitatile statistice din esantion care verifica
evenimentul favorabil, iar m este numarul de unitati statistice din
esantion care verifica evenimentul favorabil,
204321=+++= nnnnm contracte,
iar 0=Y pentru unitatile statistice din esantion care nu
verifica evenimentul favorabil, mn este
numarul de unitati statistice din esantion pentru care nu se
verifica evenimentul favorabil, 30=mn de contracte cu prime anuale
mai mari de 90 Eur.
Media variabilei alternative este 4,050
20===
n
my , adica 40% dintre contracte au valori ale
primelor anuale mai mici sau egale cu 90 Eur.
Dispersia variabilei alternative este 24,012 =
=n
m
n
m
sy
, iar abaterea standard
48,01
=n
m
n
m
sy
Ex. 6. Distributia a 1100 de absolventi ai Universitatii din
Florida dupa salariul castigat, in $, in primul an
dupa terminarea studiilor este urmatoarea serie de distributie
de frecvente pe intervale de variatie:
Nr. crt. Intervalul de variatie al salariului, $ Numarul de
absolventi 1 [7200; 12500] 30 2 (12500; 17800] 69 3 (17800; 23100]
302 4 (23100; 28400] 308 5 (28400; 33700] 263 6 (33700; 39000] 95 7
(39000; 44300] 20 8 (44300; 49600] 6 9 (49600; 54900] 5 10 (54900;
60200] 1 11 (60200; 65500] 1
Se cere: a) sa se reprezinte grafic aceasta serie de
distributie; b) sa se determine si sa se interpreteze indicatorii
tendintei centrale; c) sa se reprezinte grafic poligonul
frecventelor absolute cumulate crescator si sa se estimeze
proportia absolventilor care: i) au obtinut un salariu mai mic
de 21000 $ in primul an de dupa finalizarea studiilor, ii) au
obtinut un salariu mai mic decat media in primul an de dupa
finalizarea studiilor, iii) au castigat in primul an intre 25000 $
si 40000 $, iv) au castigat mai mult de 52000 $;
d) sa se stabileasca daca media este reprezentativa pentru
colectivitate; e) sa se analizeze asimetria acestei
distributii.
Rezolvare: a) Populatia statistica este multimea absolventilor
Universitatii din Florida, promotiile anilor 1989 si
1990, asa cum se specifica in fisierul University of Florida
graduate salaries.sav al programului SPSS.
Unitatea statistica este un absolvent.
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
20
Variabila sau caracteristica de interes, notata X, este
variabila ce arata salariul unui absolvent, in $, din primul an de
dupa finalizarea studiilor, variabila numerica, continua.
Pentru un esantion de volum 1100=n de absolventi s-au
inregistrat valorile variabilei, iar setul de date s-a sistematizat
intr-o serie de distributie de frecvente pe 11=r intervale de
variatie de marime egala, data in enuntul problemei.
Reprezentarea grafica a acestei serii de distributie de
frecvente pe intervale de variatie se poate realiza prin histograma
si poligonul frecventelor absolute.
Nr. crt.
Intervalul k de variatie (Salariul anual al unui
absolvent, in $)
Frecventa absoluta
kn a intervalului k
(numarul de absolventi)
Limita inferioara
( )infkx
a intervalului k
Limita superioara
( )supkx
a intervalului k
Centrul kx
al intervalului k
1 [7200; 12500] 30 7200 12500 9850
2 (12500; 17800] 69 12500 17800 15150
3 (17800; 23100] 302 17800 23100 20450
4 (23100; 28400] 308 23100 28400 25750
5 (28400; 33700] 263 28400 33700 31050
6 (33700; 39000] 95 33700 39000 36350
7 (39000; 44300] 20 39000 44300 41650
8 (44300; 49600] 6 44300 49600 46950
9 (49600; 54900] 5 49600 54900 52250
10 (54900; 60200] 1 54900 60200 57550
11 (60200; 65500] 1 60200 65500 62850
=
==
11
1k
knn 1100
Histograma
30
69
302308
263
95
20
6 5 1 1
0
50
100
150
200
250
300
350
[ 7200; 1250
0]
(125
00; 17800]
(1780
0; 2
3100]
(2310
0; 2
840
0]
(28400; 33700]
(3370
0; 3
900
0]
(39000; 44300]
(44300;
49600]
(4960
0; 5
4900]
(54900; 602
00]
(602
00; 65500]
Salariul, in $ (intervalele de variatie)
Frecventa absoluta (numarul de absolventi)
Fig. ..... Histograma Distributia celor 1100 de absolventi ai
Universitatii din Florida dupa salariul
castigat in primul an de dupa finalizarea studiilor.
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
21
Poligonul frecventelor absolute
30
69
263
95
302308
206 5 1 1
0
50
100
150
200
250
300
350
0 10000 20000 30000 40000 50000 60000 70000
Salariul, in $ (centrele intervalelor de variatie)
Frecventa absoluta (numarul de
absolventi)
Fig. ..... Poligonul frecventelor absolute Distributia celor
1100 de absolventi ai Universitatii din
Florida dupa salariul castigat in primul an de dupa finalizarea
studiilor.
b) Indicatorii tendintei centrale: media, mediana si modul.
Nr. crt.
Intervalul k (Salariul anual al
unui absolvent, in $)
Centrul
kx
Frecventa absoluta k
n
(numarul de absolventi) kk
nx
Frecventa absoluta cumulata crescator a intervalului k,
kcknnF ++= ...
1
1 [7200; 12500] 9850 30 295500 30
2 (12500; 17800] 15150 69 1045350 99
3 (17800; 23100] 20450 302 6175900 401
4 (23100; 28400] 25750 308 7931000 709
5 (28400; 33700] 31050 263 8166150 972
6 (33700; 39000] 36350 95 3453250 1067
7 (39000; 44300] 41650 20 833000 1087
8 (44300; 49600] 46950 6 281700 1093
9 (49600; 54900] 52250 5 261250 1098
10 (54900; 60200] 57550 1 57550 1099
11 (60200; 65500] 62850 1 62850 1100
=
==
11
1k
knn 1100
=
=
11
1k
kknx 28563500
=x 25966,82
o Media pentru o serie de distributie de frecvente pe r
intervale de variatie este
n
nx
nn
nxnx
x
r
k
kk
r
rr
=
=
++
++=
1
1
11
...
...
,
unde { }rkxk
,1, = sunt centrele celor r intervale, iar =
=
r
k
knn
1
volumul esantionului.
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
22
82,259661100
28563500
1100
11
1==
=
=k
kknx
x $ a castigat, in medie, un absolvent in primul an.
o Mediana pentru o serie de distributie de frecvente pe r
intervale de variatie se calculeaza parcurgand urmatorii pasi:
Se determina locul medianei, adica 5,5502
1=
+n.
Se calculeaza frecventele absolute cumulate crescator ale
intervalelor de variatie
kcknnF ++= ...
1, rk ,1= .
Intervalul median este primul interval cu proprietatea ca
frecventa sa absoluta cumulata crescator depaseste locul
medianei
5,550401
5,55099
5,55030
3
2
1
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
23
Pentru reprezentarea grafica a poligonului freventelor absolute
cumulate crescator vom pune in
evidenta limitele superioare ( )supkx ale intervalelor de
variatie si frecventele lor absolute cumulate,
impreuna cu limita inferioara a primului interval de variatie (
) inf1x , in cazul nostru 7200 $, a carui
frecventa absoluta cumulata este 0, ( )( ) ( ) 07200inf1 == cc
FxF , deoarece pentru nicio unitate statistica din esantion,
nivelul variabilei nu este mai mic decat ( ) inf1x .
Limitele superioare ale intervalelor de variatie,
( )supkx
( )( ) kckkc nnFxF ++== ...1sup , adica numarul de absolventi
din esantion
care au castigat un salariu mai mic sau egal cu ( )supkx $
( ) inf1x =7200 ( )( ) ( )7200inf1 cc FxF = =0
( )sup1x =12500 ( )( ) ( )12500sup1 cc FxF = =30
( )sup2x =17800 ( )( ) ( )17800sup2 cc FxF = =99
( )sup3x =23100 ( )( ) ( )23100sup3 cc FxF = =401
( )sup4x =28400 ( )( ) ( )28400sup4 cc FxF = =709
( )sup5x =33700 ( )( ) ( )33700sup5 cc FxF = =972
( )sup6x =39000 ( )( ) ( )39000sup6 cc FxF = =1067
( )sup7x =44300 ( )( ) ( )44300sup7 cc FxF = =1087
( )sup8x =49600 ( )( ) ( )49600sup8 cc FxF = =1093
( )sup9x =54900 ( )( ) ( )54900sup9 cc FxF = =1098
( )sup10x =60200 ( )( ) ( )60200sup10 cc FxF = =1099
( )sup11x =65500 ( )( ) ( )65500sup11 cc FxF = =1100
Poligonul freventelor absolute cumulate crescator
99
709
972
1100
1099
1098109310871067
401
300
0
200
400
600
800
1000
1200
0 10000 20000 30000 40000 50000 60000 70000
Salariul, in $ (limitele superioare ale intervalelor de
variatie)
Frecventele absolute cumulate
(numarul cumulat de absolventi)
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
24
i) ( )21000cF este numarul de absolventi care au obtinut un
salariu mai mic de 21000 $ in primul an
de dupa finalizarea studiilor.
Valoarea 21000 $ se gaseste in intervalul de variatie (17800;
23100] $, iar ( )21000cF se determina
prin interpolare liniara, utilizand urmatoarea egalitate de
rapoarte, asa cum se poate observa in figura de mai jos:
( ) ( )( ) ( )1780023100
1780021000
1780023100
1780021000
cc
cc
FF
FF
=
( )99401
9921000
5300
3200
=
cF
( ) 28133,28121000 =cF absolventi, adica o proportie de
%54,25100
1100
281= dintre cei 1100
de absolventi din esantionul considerat au avut un salariu anual
mai mic de 21000 $.
Fig. .... Interpolare liniara - detaliu din figura reprezentand
poligonul frecventelor absolute cumulate
crescator, pentru intervalul (17800; 23100] $ in care se gaseste
21000 $.
ii) ( )82,25966cF este numarul de absolventi care au obtinut un
salariu mai mic decat nivelul mediu
=x 25966,82 $ al salariului in esantion.
Din relatia ( ) ( )( ) ( )2310028400
2310082,25966
2310028400
2310082,25966
cc
cc
FF
FF
=
,
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
25
obtinem ca ( ) 5688,56782,25966 =cF absolventi,
adica o proportie de %63,511001100
568= dintre cei 1100 de absolventi din esantionul considerat
au
avut un salariu anual mai mic de nivelul mediu.
iii) ( ) ( ) 55935,5592500040000 =ccFF este numarul de
absolventi care au castigat in primul an
intre 25000 $ si 40000 $, adica 50,81% dintre cei 1100 de
absolventi.
iv) ( ) ( ) 573,452000110052000 ==ccFFn absolventi au castigat
mai mult de 52000 $, adica o
proportie de 0,45%.
d) Media variabilei de interes in esantion este =x 25966,82
$.
Nr. crt.
Intervalul k (Salariul anual al
unui absolvent, in $)
Centrul
kx
Frecventa absoluta k
n
(numarul de absolventi) ( )
kknxx
2
1 [7200; 12500] 9850 30 ( ) = 12
1nxx 7792556607
2 (12500; 17800] 15150 69 8073248049
3 (17800; 23100] 20450 302 9191461480
4 (23100; 28400] 25750 308 14479361,02
5 (28400; 33700] 31050 263 6795583074
6 (33700; 39000] 36350 95 10241990557
7 (39000; 44300] 41650 20 4919242698
8 (44300; 49600] 46950 6 2641763057
9 (49600; 54900] 52250 5 3454027755
10 (54900; 60200] 57550 1 997497258,9
11 (60200; 65500] 62850 1 1360368967
=
==
11
1k
knn 1100 ( )
=
=
11
1
2
k
kknxx 55482218864
=2
xs 50484275,58
=xs 7105,2287
Dispersia in esantion (de selectie) pentru o serie de
distributie de frecvente pe r intervale de variatie este
( ) ( )( )
( )
11...
...1
2
1
2
1
2
12
=
++
++=
=
n
nxx
nn
nxxnxx
s
r
k
kk
r
rr
x,
unde { }rkxk
,1, = sunt centrele celor r intervale, =
=
r
k
knn
1
volumul esantionului.
( )58,50484275
11100
45548221886
11100
11
1
2
2=
=
=
=k
kk
x
nxx
s , iar abaterea standard este 2287,7105=x
s $, care
arata cu cat se abat, in medie, valorile observate fata de
nivelul mediu al salariului din esantion.
Coeficientul de variatie in esantion este
%30%36,2710082,25966
2287,7105100
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
26
e) Asimetria unei serii de distribuie de frecvene se observ din
reprezentarea grafic prin histogram sau poligonul frecvenelor, si
prin modalitatea n care sunt situai, unul fa de cellalt,
indicatorii tendinei centrale.
Histograma
30
69
302308
263
95
20
6 5 1 1
0
50
100
150
200
250
300
350
[ 7200
; 125
00]
(1250
0; 1
7800]
(178
00; 23100]
(23100; 284
00]
(2840
0; 3
3700]
(337
00; 3
9000]
(39000; 443
00]
(44300; 49600]
(4960
0; 5
4900]
(549
00; 60200]
(60200; 655
00]
Salariul, in $ (intervalele de variatie)
Frecventa absoluta (numarul de absolventi)
Poligonul frecventelor absolute
30
69
263
95
302308
206 5 1 1
0
50
100
150
200
250
300
350
0 10000 20000 30000 40000 50000 60000 70000
Salariul, in $ (centrele intervalelor de variatie)
Frecventa absoluta (numarul de
absolventi)
Reprezentarea grafica seriei de distributie sugereaza ca aceasta
are tendinta de normalitate si ca in
seria de date predomina valorile mai mici ale variabilei de
interes, castigul salarial intr-un an, adica este asimetrica spre
dreapta (cu coada mai lung a distribuiei spre valorile mari, care
apar cu frecventa mai mica).
Indicatorii tendintei centrale se gasesc in urmatoarea relatie
xMeMo
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
27
Ex. 7. La o banca se analizeaza distributia a 500 de debitori
restantieri dupa situatia datelor de intarziere a
rambursarii creditelor. Datele au fost sistematizate astfel:
Intervale de variatie a numarului de zile de intarziere a
platii
Ponderea cumulata a debitorilor (%)
mai putin 25 de zile 25
25-35 de zile 75
35-45 de zile 85
45-55 de zile 93
55-65 de zile 98
peste 65 de zile 100
Se cere: a) sa se scrie distributia de frecvente pe intervale de
variatie; b) sa se reprezinte grafic distributia de frecvente
absolute; c) sa se calculeze si sa se analizeze indicatorii
tendintei centrale si sa se stabileasca daca durata
medie de intarziere a platilor este reprezentativa; d) sa se
calculeze media si abaterea standard pentru variabila alternativa
care evidentiaza debitorii ce
au intarziat mai mult de 45 de zile cu efectuarea platilor.
Rezolvare: a) o Populatia statistica mutimea debitorilor cu
intarziere in efectuarea platilor pentru rambursarea unor
credite. o Unitatea statistica un debitor. o Variabila sau
caracteristica de interes, X, este variabila ce arata numarul de
zile de intarziere a
efectuarii platii catre banca de catre un deitor; variabila
numerica, discreta. o S-a realizat o selectie de volum 500=n de
debitori restantieri pentru care s-a inregistrat numarul de
zile de intarziere, datele obtinute fiind sistematizate intr-o
serie de distributie de frecvente pe 6=r
intervale de variatie de marime egala. Notam cu:
rknk
,1, = , frecventa absoluta a intervalului k de variatie (numarul
de debitori restantiei pentru care
numarul de zile de intarziere apartine intervalului k de
variatie), nnnr=++ ...
1;
[ ] rkn
nn
k
k,1,1;0
*== , frecventa relativa a intervalului k de variatie, 1...
**
1=++
rnn ;
rkn
nn
k
k,1,100%
*== , frecventa relativa exprimata procentual a intervalului k
de variatie sau
ponderea debitorilor cu numarul de zile de intarziere din
intervalul sau clasa k,
%100%...%**
1=++
rnn ;
rknnFkck
,1,...1
=++= , este frecventa absoluta cumulata crescator a intervalului
k;
rknnFkck
,1,...**
1
*=++= , este frecventa relativa cumulata crescator a
intervalului k;
rknnFkck
,1%,...%%**
1
*=++= , este frecventa relativa exprimata procentual cumulata
crescator a
intervalului k (ponderea cumulata a intervalului k).
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
28
Nr. crt.
Intervalul k de variatie a
numarului de zile de intarziere a
platii
Ponderea cumulata a debitorilor (%)
%...%%**
1
*
kcknnF ++=
Ponderea intervalului k,
%*
kn
Frecventa relativa,
100
%*
* k
k
n
n =
Frecventa absoluta,
*
*
500k
kk
n
nnn
=
==
1 15-25 de zile == %%*
1
*nF
ck25% =%*
1n 25% =
*
1n 0,25 =1n 125
2 25-35 de zile =+= %%%*
2
*
1
*
2nnF
c75% =%*
2n 50% =
*
2n 0,50 =2n 250
3 35-45 de zile =++= %...%%*
3
*
1
*
3nnF
c85% =%*
3n 10% =*
3n 0,10 =3n 50
4 45-55 de zile =++= %...%%*
4
*
1
*
4nnF
c93% =%*
4n 8% =
*
4n 0,08 =4n 40
5 55-65 de zile =++= %...%%*
5
*
1
*
5nnF
c98% =%*
5n 5% =*
5n 0,05 =5n 25
6 65-75 de zile =++= %...%%*
6
*
1
*
6nnF
c100% =%*
6n 2% =*
6n 0,02 =6n 10
=
=
6
1
*%
k
kn 100%
=
=
6
1
*
k
kn 1
=
==
6
1
500
k
knn
Distributia celor 500 de debitori dupa numarul de zile de
intarziere a platii este urmatoarea serie de distributie de
frecvente pe intervale:
Nr.
crt.
Intervalul k de variatie
a numarului de zile
de intarziere a platii
Numarul de debitori
(frecventa absoluta),
kn
Centrul k
x al
intervalului k de
variatie
1 15-25 de zile =1n 125 debitori =1x 20
2 25-35 de zile =2
n 250 =2x 30
3 35-45 de zile =3n 50 =3x 40
4 45-55 de zile =4
n 40 =4x 50
5 55-65 de zile =5n 25 =5x 60
6 65-75 de zile =6n 10 =6x 70
=
==
6
1
500
k
knn debitori
b)
Histograma
125
250
50
40
25
10
0
50
100
150
200
250
300
15-25
de zile
25-35
de zile
35-45
de zile
45-55
de zile
55-65
de zile
65-75
de zile
Numarul de zile de intarziere
Numarul de debitori
Fig. ..... Distributia celor 500 de debitori dupa numarul de
zile de
intarziere a platii
Poligonul frecventelor absolute
0
50
100
150
200
250
300
0 10 20 30 40 50 60 70 80
Numarul zilelor de intarziere
Num
arul de d
ebitori
Fig. .... Poligonul frecventelor absolute pentru distributia
celor
500 de debitori dupa numarul de zile de intarziere a
platilor
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015 Conf. univ. dr. Mihaela Covrig
29
c)
Nr.
crt. Intervalul k
Numarul de
debitori, k
n
Centrul
kx kk
nx ck
F ( )kk
nxx 2
1 15-25 de zile =
1n 125 =
1x 20 =
11nx 2500 =1cF 125 ( ) = 1
2
1nxx 19220
2 25-35 de zile =2n 250 =2x 30 7500 =2cF 375 1440
3 35-45 de zile =3n 50 =3x 40 2000 =3cF 425 2888
4 45-55 de zile =4n 40 =4x 50 2000 465 12390,4
5 55-65 de zile =5n 25 =5x 60 1500 490 19044
6 65-75 de zile =
6n 10 =
6x 70 =
66nx 700 =
6cF 500 ( ) =
6
2
6nxx 14137,6
=
==
6
1
500
k
knn
=
=
6
1k
kknx 16200
( )=
=
6
1
2
k
kknxx =69120
=x 32,4 =2
xs 138,5170
==
2
xxss 11,7693
=xv 36,33%
o Media este 500
16200
...
...
6
1
61
611=
=
++
++=
=
n
nx
nn
nxnx
xk
kk
r , deci 4,32=x zile este numarul mediu de zile
de intarziere a platilor pentru un debitor restantier.
o Locul medianei este 5,2502
1=
+n; primul interval cu proprietatea ca
2
1+n
Fck
este intervalul 25-35
de zile, deoarece 5,2501251
-
Statistic seminar, Facultatea de Economie Teoretic i Aplicat,
ASE, anul I, 2014-2015
Conf. univ. dr. Mihaela Covrig
30
o Dispersia in esantion este ( ) ( )
( )
( )
1500
69120
15001...
...
6
1
2
61
6
2
61
2
12
=
=
++
++=
=k
kk
x
nxx
nn
nxxnxx
s , deci
5170,1382=
xs , iar abaterea standard 7693,112 ==
xxss zile, care arata cu cate zile se abat, in
medie, valorile observate ale seriei de date fata de numarul
mediu de zile de intarziere.
o Coeficientul de variatie in esantion este %35%33,361004,32
7693,11100 >===
x
s
vx
x, ceea ce arata ca
distributia nu este omogena si media, ca indicatot al tendintei
centrale, nu este reprezentativa pentru
colectivitate.
d) Definim evenimentul favorabil ca evenimentul ca un debitor
intarzie cu platile mai mult de 45 de
zile. Variabila alternativa care evidentiaza debitorii ce au
intarziat mai mult de 45 de zile cu efectuarea
platilor este
mmnY
10: ,
unde 1=Y pentru unitatile statistice din esantion care verifica
evenimentul favorabil, iar m este
numarul de unitati statistice din esantion pentru care se
verifica evenimentul favorabil,
75654=++= nnnm debitori,
iar 0=Y pentru unitatile statistice din esantion care nu
verifica evenimentul favorabil, mn este
numarul de unitati statistice din esantion pentru care nu se
verifica evenimentul favorabil,
425=mn debitori.
Media variabilei alternative este 15,0500
75===
n
my , adica 15% dintre debitori au intarziat mai
mult de 45 de zile.
Dispersia variabilei alternative este 1275,012 =
=n
m
n
m
sy
, iar abaterea standard
36,01
=n
m
n
m
sy
.
Observatii:
In Excel 2007 sau versiuni ulterioare, submeniul Data Analysis
se instaleaza astfel:
- intr-o foie obisnuita de lucru, dati click pe Office Button
(cerculetul stanga sus) - click pe Excel Options - apoi click pe
Add Ins - selectati cu un singur click Analisys Toolpack din partea
deapta a ferestrei de la Add Ins si apoi click
GO
- apare o noua fereastra in care bifati Analysis ToolPack si de
asemenea Analysis ToolPack VBA, iar apoi click pe OK
- se instaleaza aceasta optiune si va aparea ca submeniul Data
Analysis din meniul principal Data.
In Excel 2003, submeniul Data Analysis se instaleaza astfel:
- intr-o foie obisnuita de lucru, din meniul principal Tools,
alegeti Add Ins - apare o fereastra in care bifati Analysis
ToolPack si de asemenea Analysis ToolPack VBA, iar apoi
click pe OK
- se instaleaza aceasta optiune si va aparea ca submeniul Data
Analysis din meniul principal Tools.