Serii Univariate
Post on 07-Dec-2015
314 Views
Preview:
DESCRIPTION
Transcript
BAZELE STATISTICIIBAZELE STATISTICII- anul universitar 2014-2015-
Programa analitică
1. Noţiuni introductive
2. Analiza unei serii statistice unidimensionale, folosindmetode graficeşi numerice (variabile numerice saucantitative: indicatori ai tendinţei centrale,indicatori aicantitative: indicatori ai tendinţei centrale,indicatori aidispersieişi indicatori ai formei; variabile nenumericesaucalitative).
3. Analiza unei serii statistice bidimensionale.
4. Indicatori ai seriilor de timp.
Programa analitică5. Probabilităţi şi distribuţii teoretice6. Estimarea parametrilor unei populaţii7. Testarea statistică
2. Analiza unei serii statisticeunidimensionale2.1. Variabile cantitative
A. Variabilă discretă
A.1. Prezentarea seriei (distribuţiei) statistice
- seria simplă X:(xi), cu i=1,m, când n1=n2= … =ni.
- seria cu frecvenţe diferiteX: , când ni≠nj.
X: , cu fi=ni/n.
i
i
n
x
i
i
f
x
• Frecvenţe absolute cumulate crescător (Ni ) sau descrescător (Ni )
- exprimă numărul de unităţi statisticecumulate “până la”sau “peste” nivelul considerat al caracteristicii, adică
valori ≤ xi, respectiv≥ xi.
↑
↓
∑=
− =+↓↓=i
hhiii nnNN
11
∑=
+ =+↑↑=m
ihhiii nnNN 1
• Frecvenţe relative cumulate crescător (Fi )sau descrescător (Fi )
- exprimă ponderea unităţilor statistice cumulate “pânăla” sau “peste” nivelul considerat al caracteristicii, adică
valori ≤ xi, respectiv≥ xi.
↑
↓
∑=
− =+↓↓=i
hhiii ffFF
11
∑=
+ =+↑↑=m
ihhiii ffFF 1
A.2. Analiza seriei folosind metode numerice
Presupune calculul indicatorilor statisticii descriptive,cunoscuţi şi sub denumirea de caracteristici numerice aleunei distribuţii.
A.2.1. Indicatori ai tendinţei centrale (mărimi medii)A.2.1. Indicatori ai tendinţei centrale (mărimi medii)
a. Definire:- mediile sunt acele valori în jurul cărora se repartizează
unităţile unei populaţii.- cele mai importante mărimi medii sunt media aritmetică,
modulşi mediana.
A.2. Analiza seriei folosind metode numerice
b. Media aritmetică ( )
- Media aritmetică este valoarea pe care amobserva-o dacăunităţile statistice ar înregistra aceleaşi valori ale variabilei(dacă nu ar exista variaţii ale valorilor înregistrate de
x
unităţile statistice).
Mod de calcul în cazul seriilor simpleşi seriilor cu frecvenţediferite (variabilă discretă).
� Media simplă:
� Media ponderată.n
xx i
i∑=
sau
Observaţie:Media aritmetică este sensibilă la prezenţa valorilor extreme(outliers).
∑
⋅∑=
ii
ii
i
n
nxx i
ii fxx ⋅∑=
Cele mai importante proprietăţi ale mediei aritmetice:
1. Media unei distribuţii este o valoare internă:
xmin≤ ≤xmax.
2. Media este o mărime normală: suma abaterilor valorilor
x
2. Media este o mărime normală: suma abaterilor valorilorindividuale ale unei variabileX de la media lor este egală cuzero.
c. Modul (Mo)� este valoarea variabilei cea mai frecvent observată într-o
distribuţie, adică valoarea xi care corespunde frecvenţeimaxime (nimax).
Observaţie:Observaţie:� modul poate fi aflat doar în cazul seriilor cu frecvenţe
diferite.� o distribuţie poate avea una, două sau mai multe valori
modale (serii unimodale, bimodale sau plurimodale).
Interpretare: Cele mai multe unităţi înregistrează valoareamodală.
d. Mediana (Me)
- este acea valoare a variabilei unei serii ordonate, crescător saudescrescător, până la care şi peste care sunt distribuite înnumăr egal unităţile colectivităţii: jumătate din unităţi (50%)au valori mai mici decât mediana, iar jumătate (50%) au valorimai mari decât mediana.
- corespunde locului unităţii mediane calculate astfel:
2
1nU Me +=
Aflarea medianei se face diferit în funcţie de tipul seriei:
1. Serii simple:- număr impar de termeni. - număr par de termeni.
2. Serii cu frecvenţe diferite- se calculează unitatea mediană (UMe).- se calculează - se află prima valoare- valoarea xi corespunzătoare acesteia este Me.
Observaţie:mediana nu este influenţată de valorile extreme.
↓iNMe
i UN ↓≥
f. Quartilele
- sunt valori ale variabilei care împart volumul eşantionului în 4 părţiegale.
- reprezentare grafică şi mod de calcul (Q1, Q2, Q3).
g. Decile
- sunt valori ale variabilei care împart volumul eşantionului în 10 părţiegale.
- decila unu (D1) şi decila 9 (D9).
A.2.2. Indicatori ai dispersiei (variaţiei)
Definire:
- dispersia exprimă gradul de variaţie a valorilor individualeale unei variabile faţă de nivelul mediu.
- aprecierea fenomenului de dispersie al unei distribuţii- aprecierea fenomenului de dispersie al unei distribuţiipermite identificarea gradului de reprezentativitate a medieiunei distribuţii.
Indicatori sintetici ai dispersiei:
1. Abaterea medie liniară
, respectiv ∑
∑ ⋅−=
ii
i
n
nxx
dn
xxd i
i∑ −= , respectiv
� arată cu cât variază, în medie, valorile xi ale variabilei faţăde nivelul mediu al distribuţiei, în sens pozitivşi negativ.
∑i
innd =
2. Varianţa
, respectiv ∑
∑ ⋅−=
ii
ii
i
n
nxxs
2
2
)(
n
xxs i
i∑ −=
2
2
)(
Varianţa este întotdeauna pozitivă, nu are unitate de măsură şi nu se interpretează.
Prin ridicarea la pătrat a abaterilor valorilorxi faţăde medie creşte “influenţa” valorilor extremeasupra nivelului varianţei.
3. Abaterea standard (s)� arată cu cât variază, în medie, valorile xi ale variabilei faţă
de nivelul mediu al distribuţiei, în sens pozitivşi negativ.� se calculează ca radical din varianţă.
seexprimă în aceeaşi unitatedemăsură cuceaavariabilei.� seexprimă în aceeaşi unitatedemăsură cuceaavariabilei.
,)( 2
n
xxs i
i∑ −=
∑
∑ ⋅−=
ii
ii
i
n
nxxs
2)(
4. Coeficientul de variaţie (v)
� se exprimă în procente.
100x
sv ⋅=
� valori ridicate ale acestui coeficient (v>50%) arată odistribuţie eterogenă, care se caracterizează printr-ovariaţie mare a valorilor xi faţă de nivelul mediuşi o medienereprezentativă.
� este sensibil faţă de valoarea mediei: cu cât media este maiapropiată de zero, cu atât coeficientul de variaţie este maidificil de folosit (tinde spre infinit).
5. Intervalul interquartilic
IQ=Q3-Q1.
- cuprinde 50% din volumul eşantionului.
� În mod sintetic, cele mai importante caracteristici numericeale unei distribuţii pot fi “cuplate” astfel:
� media - abaterea standard - coeficientul de variaţie;
� mediana - intervalul interquartilic.
A.2.3. Indicatori ai formei1. Asimetria:
- reprezintă o deviere de la forma simetrică a unei distribuţii.
Asimetria poate fi apreciată:Asimetria poate fi apreciată:
- pe cale grafică: curba frecvenţelor, diagrama box-plot.
- pe cale numerică: - prin calculul indicatorilor de asimetrie(Skewness).
Coeficientul de asimetrie Fisher: , cu 33
1s
µγ =n
xxi
i3
3
)(∑ −=µ
Relaţii între cele trei mărimi medii
Arată forma unei distribuţii:
1. Când distribuţia este simetrică.MeMox ==2. Când distribuţia este asimetrică la
dreapta (asimetrie pozitivă).
3. Când distribuţia este asimetrică lastânga (asimetrie negativă).
MoMex >>
MoMex <<
2. Boltirea
- este definită prin compararea distribuţiei empirice cudistribuţia normală din punctul de vedere al variaţieivariabileiX şi a frecvenţei ni.variabileiX şi a frecvenţei ni.
Boltirea poate fi apreciată:
– pe cale grafică: curba frecvenţelor.
- numeric: prin calculul indicatorilor boltirii (kurtosis).
Coeficientul de boltire Fisher:
, cu 3344
22
42 −=−=
s
µµµγ
n
xxi
i4
4
)(∑ −=µ
A.3. Analiza seriei folosind metode graficea. Poligonul frecvenţelor:- construirea acestuia presupune găsirea locului geometric al
punctelor Ai de coordonate (xi,ni) sau (xi,fi) şi unireaacestora prin segmente de dreaptă.
- aproximează formauneidistribuţii .- aproximează formauneidistribuţii .b. Histogramac. Curba frecvenţelor- presupune ajustarea printr-o linie curbă, continuă a
histogramei.- aproximează mai bine forma de distribuţie a colectivităţii
după variabila considerată, comparativ cu histograma.
d. Reprezentarea diagramei “box-plot” sau “box-and-whiskers”
� Forma diagramei (D1, Q1, Q2, Q3, D9);
� Avantaje:� Avantaje:
- permite aprecierea nivelului mediu (Me), dispersiei şiasimetriei unei distribuţiei;
- facilitează compararea mai multor distribuţii (prinreprezentarea simultană a diagramelor).
Diagrama box-plot
Analysis weighted by NRSTUD
NOTA
11109876543
1
� identificarea valorilor extreme şi analiza influenţei lor asupra rezultatelor statistice (diagrama box-plot).
Indicatorii statisticii descriptive în ExcelColumn1
Mean 8.6
Standard Error 0.347735
Median 8
Mode 10Mode 10
Standard Deviation 1.904622
Sample Variance 3.627586
Kurtosis -0.14315
Skewness -0.40554
Range 8
Minimum 4
Maximum 12
Sum 258
Count 30
B. Variabilă continuăB.1. Prezentarea seriei statistice
- gruparea unităţilor statistice este realizată pe intervale devariaţie.
Observaţie:Observaţie:
- Gruparea pe intervale de variaţie duce la pierderea unei părţia informaţiei iniţiale.
B.2. Prelucrarea seriei statistice folosind metode grafice
a. Histograma
b. Poligonul frecvenţelor
c. Curba frecvenţelor
B.3. Indicatori ai statisticii descriptiveB.3. Indicatori ai statisticii descriptive
- se calculează în mod identic, prin “discretizarea” variabilei(calculul mijlocului intervalelor de variaţie).
2. Analiza unei serii univariate
2.2. Variabilă calitativă
I. Tipuri de variabileA. Variabile nominaleA. Variabile nominaleB. Variabile ordinale
II. Indicatori specifici si reprezentare grafică
a) Variabile nominale:• Pentru a reprezenta structura pe categorii la nivelul unui
eşantion se calculează frecvenţe relative.• Reprezentarea frecvenţelor pentru un eşantion se realizează
folosind diagramele:Bar ChartsauPie Chart.• Indicatorispecifici: modul.• Indicatorispecifici: modul.
b) Variabile ordinale:• Reprezentarea frecvenţelor pentru un eşantion se realizează
folosind diagramele:Bar ChartsauPie Chart.• Frecvenţe absoluteşi relative.• Indicatori specifici: modulşi quartilele.
top related