8/17/2019 Curs2 3 4 Serii Univariate 2016
1/33
- anul universitar 2015-2016-
8/17/2019 Curs2 3 4 Serii Univariate 2016
2/33
Programa analitică
1. Noţiuni introductive2. Analiza unei serii statistice unidimensionale, folosind
metode grafice şi numerice (variabile numerice sau,
dispersiei şi indicatori ai formei; variabile nenumericesau calitative).
3. Analiza unei serii statistice bidimensionale.
8/17/2019 Curs2 3 4 Serii Univariate 2016
3/33
Programa analitică5. Probabilităţi şi distribuţii teoretice6. Estimarea parametrilor unei populaţii7. Testarea statistică8. Indicatori ai seriilor de timp.
8/17/2019 Curs2 3 4 Serii Univariate 2016
4/33
2. Analiza unei serii statisticeunidimensionale
2.1. Variabile cantitative
A. Variabilă discretă
A.1. Prezentarea seriei (distribu ţ iei) statistice
- seria simplă X:(xi), cu i=1,m , când n1=n2= … =ni.
- seria cu frecvenţe diferite X : , când ni≠n j.
X : , cu f i=ni /n.
i
i
n
x
i
i
f
x
8/17/2019 Curs2 3 4 Serii Univariate 2016
5/33
• Frecven ţ e absolute cumulate crescător (N i )sau descrescător (N i )
- exprimă num
ărul de unit
ăţ i statistice cumulate “pân
ă
la”sau “peste” nivelul considerat al caracteristicii, adicăvalori ≤ xi, respectiv ≥ xi.
↑
↓
∑=
− =+↓↓=i
h
hiii nn N N 1
1
∑=
+ =+↑↑=m
ih
hiii nn N N 1
8/17/2019 Curs2 3 4 Serii Univariate 2016
6/33
• Frecven ţ e relative cumulate crescător (F i )
sau descrescător (F i )
- exprimă ponderea unit ăţ ilor statistice cumulate “pânăla” sau “peste” nivelul considerat al caracteristicii, adicăvalori ≤ xi, respectiv ≥ xi.
↑
↓
∑=
− =+↓↓=i
h
hiii f f F F 1
1
∑=
+ =+↑↑=m
ih
hiii f f F F 1
8/17/2019 Curs2 3 4 Serii Univariate 2016
7/33
A.2. Analiza seriei folosind metode numerice
Presupune calculul indicatorilor statisticii descriptive,cunoscuţi şi sub denumirea de caracteristici numerice aleunei distribuţii.
A.2.1. Indicatori ai tendinţei centrale (mărimi medii)
a. Definire:
- mediile sunt acele valori în jurul cărora se repartizeazăunităţile unei populaţii.
- cele mai importante mărimi medii sunt media aritmetică,modul şi mediana.
8/17/2019 Curs2 3 4 Serii Univariate 2016
8/33
A.2. Analiza seriei folosind metode numerice
b. Media aritmetică ( )
- Media aritmetică este valoarea pe care am observa-o dacăunităţile statistice ar înregistra aceleaşi valori ale variabilei(dacă nu ar exista variaţii ale valorilor înregistrate de
x
unităţile statistice).
8/17/2019 Curs2 3 4 Serii Univariate 2016
9/33
Mod de calcul în cazul seriilor simple şi seriilor cu frecvenţediferite (variabilă discretă).
Media simplă:
Media ponderată.n
x
x ii∑
=
sau
Observa ţ ie:Media aritmetică este sensibilă la prezenţa valorilor extreme(outliers).
∑
⋅∑=
ii
ii
i
n
n x
x ii
i f x x ⋅∑=
8/17/2019 Curs2 3 4 Serii Univariate 2016
10/33
Cele mai importante proprietăţi ale mediei aritmetice:
1. Media unei distribuţii este o valoare internă:xmin≤ ≤xmax. x
2. Media este o mărime normală: suma abaterilor valorilorindividuale ale unei variabile X de la media lor este egală cuzero.
8/17/2019 Curs2 3 4 Serii Univariate 2016
11/33
c. Modul (Mo)
este valoarea variabilei cea mai frecvent observată într-odistribuţie, adică valoarea xi care corespunde frecvenţeimaxime (nimax).
Observa ie:
modul poate fi aflat doar în cazul seriilor cu frecvenţediferite. o distribuţie poate avea una, două sau mai multe valori
modale (serii unimodale, bimodale sau plurimodale).
Interpretare: Cele mai multe unităţi înregistrează valoareamodală.
8/17/2019 Curs2 3 4 Serii Univariate 2016
12/33
d. Mediana (Me)
- este acea valoare a variabilei unei serii ordonate, crescător saudescrescător, până la care şi peste care sunt distribuite înnumăr egal unităţile colectivităţii: jumătate din unităţi (50%)
au valori mai mici decât mediana, iar jumătate (50%) au valorimai mari decât mediana.
- corespunde locului unităţii mediane calculate astfel:
2
1nU Me +=
8/17/2019 Curs2 3 4 Serii Univariate 2016
13/33
Aflarea medianei se face diferit în funcţie de tipul seriei:
1. Serii simple:
- număr impar de termeni.- număr par de termeni.
2. Serii cu frecven ţ e diferite
- se calculează unitatea mediană (U Me).- se calculează - se află prima valoare
- valoarea xi corespunzătoare acesteia este Me.
Observa ţ ie:
mediana nu este influenţată de valorile extreme.
↓i N Me
i U N ↓≥
8/17/2019 Curs2 3 4 Serii Univariate 2016
14/33
f. Quartilele
- sunt valori ale variabilei care împart volumul eşantionului în 4 părţiegale.
- reprezentare grafică şi mod de calcul ( Q1 , Q2 , Q3).
g. Decile
- sunt valori ale variabilei care împart volumul eşantionului în 10 părţiegale.
- decila unu (D1) şi decila 9 (D
9).
8/17/2019 Curs2 3 4 Serii Univariate 2016
15/33
A.2.2. Indicatori ai dispersiei (variaţiei)
Definire:
- dispersia exprimă gradul de variaţie a valorilor individualeale unei variabile faţă de nivelul mediu.
- a recierea fenomenului de dis ersie al unei distribu ii
permite identificarea gradului de reprezentativitate a medieiunei distribuţii.
8/17/2019 Curs2 3 4 Serii Univariate 2016
16/33
Indicatori sintetici ai dispersiei:
1. Abaterea medie liniară
∑ ⋅−
=i
i
i n x x
d x x
d ii∑ −
= ,
arată cu cât variază, în medie, valorile xi ale variabilei faţăde nivelul mediu al distribuţiei, în sens pozitiv şi negativ.
i
in
8/17/2019 Curs2 3 4 Serii Univariate 2016
17/33
2. Varianţa
, respectiv ∑∑ ⋅−
=
i
i
i
i
i
n
n x x
s
2
2
)(
n
x x
s ii∑ −
=
2
2
)(
Varianţa este întotdeauna pozitivă, nu are unitate demăsură şi nu se interpretează.
Prin ridicarea la pătrat a abaterilor valorilor xi faţă
de medie creşte “influenţa” valorilor extremeasupra nivelului varianţei.
8/17/2019 Curs2 3 4 Serii Univariate 2016
18/33
3. Abaterea standard (s) arată cu cât variază, în medie, valorile xi ale variabilei faţă
de nivelul mediu al distribuţiei, în sens pozitiv şi negativ. se calculează ca radical din varianţă.
se exprimă în aceeaşi unitate de măsură cu cea a variabilei.
,
)( 2
n
x x
s ii∑ −
=
∑
∑ ⋅−=
i
i
i
i
i
n
n x x
s
2)(
8/17/2019 Curs2 3 4 Serii Univariate 2016
19/33
4. Coeficientul de variaţie (v)
se exprimă în procente.
100s
v ⋅=
valori ridicate ale acestui coeficient (v>50%) arată odistribuţie eterogenă, care se caracterizează printr-ovariaţie mare a valorilor xi faţă de nivelul mediu şi o medienereprezentativă.
este sensibil faţă de valoarea mediei: cu cât media este maiapropiată de zero, cu atât coeficientul de variaţie este maidificil de folosit (tinde spre infinit).
8/17/2019 Curs2 3 4 Serii Univariate 2016
20/33
5. Intervalul interquartilic
I Q=Q3-Q1.- cuprinde 50% din volumul eşantionului.
În mod sintetic, cele mai importante caracteristici numericeale unei distribuţii pot fi “cuplate” astfel:
media - abaterea standard - coeficientul de variaţie;
mediana - intervalul interquartilic.
8/17/2019 Curs2 3 4 Serii Univariate 2016
21/33
A.2.3. Indicatori ai formei
1. Asimetria:
- reprezintă o deviere de la forma simetrică a unei distribuţii.
- pe cale grafică: curba frecvenţelor, diagrama box-plot.- pe cale numerică: - prin calculul indicatorilor de asimetrie
(Skewness).
Coeficientul de asimetrie Fisher: , cu33
1s
γ =n
x xi
i
3
3
)(∑ −= µ
8/17/2019 Curs2 3 4 Serii Univariate 2016
22/33
Rela ţ ii între cele trei mărimi medii
Arată forma unei distribuţii:
1. Când distribuţia este simetrică. Me Mo x ==
2. Când distribuţia este asimetrică ladreapta (asimetrie pozitivă).
3. Când distribuţia este asimetrică la
stânga (asimetrie negativă).
Mo Me x >>
Mo Me x
8/17/2019 Curs2 3 4 Serii Univariate 2016
23/33
2. Boltirea
- este definită prin compararea distribuţiei empirice cudistribuţia normală din punctul de vedere al variaţieivariabilei X i a frecven ei n .
Boltirea poate fi apreciată:– pe cale grafică: curba frecvenţelor.
- numeric: prin calculul indicatorilor boltirii (kurtosis).
Coeficientul de boltire Fisher :
, cu33 44
2
2
4
2 −=−=s µ
µ γ
n
x xi
i
4
4
)(∑ −= µ
8/17/2019 Curs2 3 4 Serii Univariate 2016
24/33
A.3. Analiza seriei folosind metode grafice
a. Poligonul frecven ţ elor:
- construirea acestuia presupune găsirea locului geometric alpunctelor Ai de coordonate ( xi ,ni) sau ( xi ,f i) şi unireaacestora prin segmente de dreaptă.
- aprox meaz orma une s r u .b. Histogramac. Curba frecven ţ elor
- presupune ajustarea printr-o linie curbă, continuă a
histogramei.- aproximează mai bine forma de distribuţie a colectivităţii
după variabila considerată, comparativ cu histograma.
8/17/2019 Curs2 3 4 Serii Univariate 2016
25/33
8/17/2019 Curs2 3 4 Serii Univariate 2016
26/33
d. Reprezentarea diagramei “box-plot” sau “box-and-whiskers”
Forma diagramei ( D1 , Q1 , Q2 , Q3, D9);
- permite aprecierea nivelului mediu ( Me), dispersiei şiasimetriei unei distribuţiei;
- facilitează compararea mai multor distribuţii (prin
reprezentarea simultană a diagramelor).
8/17/2019 Curs2 3 4 Serii Univariate 2016
27/33
Diagrama box-plot
Analysis weighted by NRSTUD
NOTA
11109876543
1
8/17/2019 Curs2 3 4 Serii Univariate 2016
28/33
identificarea valorilor extreme şi analiza influenţei lor asupra
rezultatelor statistice (diagrama box-plot).
8/17/2019 Curs2 3 4 Serii Univariate 2016
29/33
Indicatorii statisticii descriptive în Excel
Column1
Mean 8.6Standard Error 0.347735
Median 8
Mode 10
Standard Deviation 1.904622Sample Variance 3.627586
Kurtosis -0.14315
Skewness -0.40554
Range 8Minimum 4
Maximum 12
Sum 258
Count 30
8/17/2019 Curs2 3 4 Serii Univariate 2016
30/33
B. Variabilă continuă B.1. Prezentarea seriei statistice
- gruparea unităţilor statistice este realizată pe intervale devariaţie.
Observa ie:
- Gruparea pe intervale de variaţie duce la pierderea unei părţia informaţiei iniţiale.
B.2. Prelucrarea seriei statistice folosind metode graficea. Histograma
8/17/2019 Curs2 3 4 Serii Univariate 2016
31/33
b. Poligonul frecvenţelor
c. Curba frecvenţelor
. .
- se calculează în mod identic, prin “discretizarea” variabilei(calculul mijlocului intervalelor de variaţie).
8/17/2019 Curs2 3 4 Serii Univariate 2016
32/33
2. Analiza unei serii univariate
2.2. Variabilă calitativă
I. Tipuri de variabile
A. Varia ile nominaleB. Variabile ordinale
8/17/2019 Curs2 3 4 Serii Univariate 2016
33/33
II. Indicatori specifici si reprezentare grafică
a) Variabile nominale:
• Pentru a reprezenta structura pe categorii la nivelul unuieşantion se calculează frecvenţe relative.• Reprezentarea frecvenţelor pentru un eşantion se realizează
folosind diagramele: Bar Chart sau Pie Chart ..
b) Variabile ordinale:• Reprezentarea frecvenţelor pentru un eşantion se realizează
folosind diagramele: Bar Chart sau Pie Chart .• Frecvenţe absolute şi relative.• Indicatori specifici: modul şi quartilele.