Statistica descriptivă
DEFINIȚIE
Constă în culegerea,
organizarea, sintetizarea
și prezentarea datelor
Descrie o situație
Rezultatele finale sunt
reprezentate de tabele sau
grafice
Statistica inferențială
DEFINIȚIE
Constă în generalizarea de la eșantion la
polulație.
Utilzează estimarea și ipotezele statistice.
Se obțin relații între variabile și predicții.
Descrie șansa producerii
unui eveniment
Rezultatele finale sunt
exprimate prin probabilități
Obiective:
observarea
organizarea
sintetizarea
colectarea
date
Datele: reprezintă materia primă pentru informații.
Acestea pot consta în fapte, numere, constatări, observații, statistici și alte
evidențe care nu prezintă vreun înțeles de sine stătător.
Informațiile: prezintă întodeaua o anumită semnificație obținută în urma procesării
unei cantități de date după criterii.
Culegerea datelor
Organizarea și
sintetizarea datelor
Prezentarea datelor
Observarea
Colectarea datelor
directă
numărare
experiment
interviu
indirectă
Date înregistrate
Lucrări publicate
anterior
Observarea reprezintă un proces
complex de:
• identificare,
• măsurare
• înregistrare a fenomenelor de
manifestare.
Ea consta in culegerea anumitor date pe
baza unor reguli / criterii unitare de la
unitățile colectivitatii cercetate.
Suportul pentru observarea datelor îl reprezintă
chestionarul.
Recesământul animalelor
Chestionarul este o listă de intrebări de diferite forme care sunt puse oral sau în scris in vederea culegerii de informației relative la un subiect
Rezultatele în urma observaţiilor făcute asupra indivizilor unei selecţii pot fi prezentate prin:
Organizarea și prezentarea
datelor
Tabele statistice
Tabele cu distribuții de
frecvențăReprezentări
grafice
Serii statistice
SISTEMATIZAREA DATELOR
Serii statistice
Tabele
Grafice
Seria statistică reprezintă un mod organizat de
prezentare a datelor, sub forma a două şiruri: primul
se referă la criteriul de sistematizare iar al doilea
cuprinde datele numerice
Tabelele transmit informațiile care au fost transformate în
cuvinte sau numere, în rânduri și coloane.
Tabelele sunt cele mai potrivite pentru prezentarea
informațiilor individuale și pot prezenta atât informații
cantitative, cât și calitative.
Tabelele pot conține datele efective sau frecvențele de
apariție
În timp ce tabelele pot fi utilizate pentru prezentarea tuturor
informațiilor, graficele simplifică informațiile complexe prin utilizarea
imaginilor și sublinierea modelelor sau a tendințelor de date și sunt
utile pentru rezumarea, explicarea sau explorarea datelor
cantitative.
Premergător tabelului, datele sunt prezentate în serii
statisice.
Mulţimile de observaţii se numesc serii statistice sau şiruri
statistice.
În funcţie de numărul de variabile studiate o serie poate fi:
▪ univariate, cînd se observă o singură variabilă
▪ bivariată cînd se observă două variabile;
▪ multivariată cînd se observă mai multe variabile.
TAS mmHg 140 110 120 160 130 150 140
TAD (mm Hg 60 80 70 80 90 75 60
Serie statistică BIVARIATĂ de volum 2 a tensiunii arteriale
Sex f f m f m f f
greutate 58 62 85 92 102 75 62
Înălțime 1,52 1,65 1,87 1,70 1,92 1,48 1,60
TAS mmHg 140 110 120 160 130 150 140
TAD (mm Hg 60 80 70 80 90 75 60
Serie statistică MULTIVARIATĂ de volum 5
F M M F F F M M F M
Serie statistică UNIVARIATĂ
Un tabel este un aranjament de informații
din rânduri și coloane care conțin celule care facilitează
compararea informațiilor.
Nr.crt. Vârsta
(ani)
sex Greutate
(kg)
Înălțime
(cm)
1 6 F 15.70 102
2 9 F 12.80 108
3 11 M 16.10 101
4 16 F 18.5 100
5 8 M 16 106
6 5 M 14.5 104
7 10 F 15 103
•Un aranjament dreptunghiular de date în care acestea sunt
poziționate pe rânduri și coloane.
•Fiecare rând și coloană ar trebui să fie etichetate.
•Rânduri și coloanele pot avea totaluri care ar fi indicat să se
găsească pe ultimul rând sau pe ultima coloană.
Exemplu: tabel
Un tabel statistic este mai expresiv decât o masă sistematizată de date, în
condițiile in care la construcția lui se respectă câteva reguli fundamentale,
și anume:
• să aibă un titlu clar și concis care să sugereze natură
datelor prezentate, timpul și spațiul la care se referă
datele cuprinse în tabel;
• să se indice unitatea de masură. Dacă este comună pentru toate datele prezentate în tabel,
această poate fi menționata în titlul general al tabelului.
Dacă nu este comună, această trebuie indicată în fiecare
caz în parte în titlurile interioare);
• să se menționeze sursă datelor (sub tabel);
să fie astfel construit încât să poată fi înțeles, fără explicații
suplimentare, care preced sau urmează tabelul statistic;
• toate rubricile tabelului să fie completate cu cifre sau
simboluri.
• formatarea tabelelor trebuie să fie sugestivă
Frecvența unei anumite date este numărul de ori
când apare valoarea datelor.
Exemplu: Dacă 120 de vaci dintr-o fermă au procentul de grasime
în lapte egal cu 4,2%, atunci valoarea (scorul) de 4,2 are frecvența
de 120.
Un tabel de frecvențe este construit prin aranjarea
valorilor de date colectate în ordinea crescândă a
mărimii cu frecvențele corespunzătoare ale
acestora
Tabelul de frecvență (Repartiția de frecvență )
este o modalitate de rezumare unui set de date.
este o evidență care arată cât de des fiecare valoare (sau un set de valori) a variabilei în cauză apare în experiment.
xi ni
x1 n1
x2 n2
...... .......
xk nk
xi - caracteristica observată
ni - frecvenţa de apariţiei a caracteristicii xi , - frecvenţă absolută
n1+n2+ .....+nk=n
n este numărul total al observaţiilor
Frecvența absolutăFrecvenţă absolută a unei valori x dintr-o serie statistică S este numărul de
repetări ale valorii x în seria S. Deci suma frecvenţelor absolute ale tuturor
valorilor distincte dintr-o serie statistică este egală cu talia seriei.
Frecvența cumulatăFrecvenţa absolută cumulată a unei valori x dintr-o serie statistică S este
suma frecvenţelor absolute ale valorilor seriei mai mici sau egale cu x.
Frecvența relativăFrecvenţa relativă a unei valori x dintr-o serie statistică S este raportul dintre
frecvanţa absolută a valorii x şi talia seriei. De obicei frecvenţa relativă este
prezentată în procente
Frecvența relativă cumulatăFrecvenţa relativă cumulată crescătoare a unei valori x dintr-o serie statistică
S este raportul dintre frecvenţa absolută cumulată crescătoare a valorii x şi
talia seriei.
Frecvența relativă procentuală
Frecvența relativă procentuală cumulată
Se parcurg următorii pași:
Pasul1:
Se construiește un tabel cu trei coloane. În prima coloană,
scriu toate valorile datelor (eventual în ordine crescătoare).
Pasul 2:
Se parcurge prima coloană și se marchează cu cîte o linie
fiecare apariție a fiecărei valori disticte din prima coloana.
Când se ajunge la a cincea linie, aceasta le barează pe
primele patru. Vom continua acest proces până când toate
valorile de date din listă sunt numărate.
Etapa 3:
Se numără câte grupe de cinci linii sunt în coloana a doua.
În urma unui sondaj făcut într-un sat, la fiecare 20 de gospodării
oamenii au fost întrebați câte vaci au în gospodărie. Rezultatele au
fost înregistrate după cum urmează:
1, 2, 1, 0, 3, 4, 0, 1, 1, 1, 2, 2, 3, 2, 3, 2, 1, 4, 0, 0
Ordonate cfrescător: 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4
Număr de vaci (x) numără Frecvența(f)
0 IIII 4
1 IIII I 6
2 IIII 5
3 III 3
4 II 2
1. Tabel de evidenţă primară sau tabel de efective
Valorile se pun în ordinecrescătoare sau descrescătoare(crescătoarea):
2. 10, 10, 9, 9, 8, 8, 8, 8, 8, 7, 7, 7, 6, 6, 6, 6, 6, 6, 6, 5, 4, 4, 4, 4, 2
3. Se întocmeşte un tabel cu două colane (ni, fi)
n fa
10 II 2
9 II 2
8 IIII 5
7 III 3
6 IIII II 7
5 I 1
4 IIII 4
3 0
2 I 1
Numărul purceilor la la aII-a fătare la un eșantion de 25 de
scrofițe:
5, 2, 10,7, 6, 10, 9, 8, 9, 8, 6, 4, 6, 4, 10, 8, 6, 8, 8, 7, 6, 7, 6, 6,
4, 4
Valoare fa
10 2
9 2
8 5
7 3
6 7
5 1
4 4
3 0
2 1
Total fa=25
fa frecvența de apariție (frecvența absolută)
10, 10, 9, 9, 8, 8, 8, 8, 8, 7, 7, 7, 6, 6, 6, 6, 6, 6, 6, 5, 4, 4, 4, 4, 2
Frecvenţă absolută a unei valori x
dintr-o serie statistică S este numărul
de repetări ale valorii x în seria S.
Suma frecvenţelor absolute ale
tuturor valorilor distincte dintr-o
serie statistică este egală cu talia
seriei.
Valoare faf c
10 2 2
9 2 4
8 5 9
7 3 12
6 7 19
5 1 20
4 4 24
3 0 24
2 1 25
Total fa=25
+
=
Frecvenţa absolută
cumulată crescătoare a
unei valori x dintr-o serie
statistică S este suma
frecvenţelor absolute ale
valorilor seriei mai mici
sau egale cu x.
Valoarea ultimei
Frecvențe cumulate este
egală cu volumul
eșantionului
Valoare fafc fr fr
10 2 2 0,08 8%
9 2 4 0,08 8%
8 5 9 0,2 20%
7 3 12 0,12 12%
6 7 19 0,28 28%
5 1 20 0,04 4%
4 4 24 0,16 16%
3 0 24 0 0%
2 1 25 0,04 4%
Total fa=25 1 100%
𝑓𝑟 =𝑓𝑎σ𝑓𝑎
fr1 =2
25=0,08
Frecvenţa relativă a unei
valori x dintr-o serie
statistică S este raportul
dintre frecvanţa absolută a
valorii x şi talia seriei.
De obicei frecvenţa relativă
este prezentată în
procente.
Suma frecvențelor relative
este întodeauna egală cu 1
sau 100%
Valoare fa fc fr frc
10 2 2 0,08 0,08
9 2 4 0,08 0,16
8 5 9 0,2 0,36
7 3 12 0,12 0,48
6 7 19 0,28 0,76
5 1 20 0,04 0,80
4 4 24 0,16 0,96
3 0 24 0 0,96
2 1 25 0,04 1
Total fa=
25
∑fr=1
+
=
Frecvenţa relativă
cumulată crescătoare
a unei valori x dintr-o
serie statistică S este
raportul dintre
frecvenţa absolută
cumulată crescătoare
a valorii x şi talia
seriei.
Valoare fa fc fr frc fr%
10 2 2 0,08 0,08 8%
9 2 4 0,08 0,16 8%
8 5 9 0,2 0,36 20%
7 3 12 0,12 0,48 12%
6 7 19 0,28 0,76 28%
5 1 20 0,04 0,80 4%
4 4 24 0,16 0,96 16%
3 0 24 0 0,96 0%
2 1 25 0,04 1 4%
Total fa=25 ∑fr=1 fr%=100
Valoare fa fc fr frc fr% fr%c
10 2 2 0,08 0,08 8% 8%
9 2 4 0,08 0,16 8% 16%
8 5 9 0,2 0,36 20% 36%
7 3 12 0,12 0,48 12% 48%
6 7 19 0,28 0,76 28% 76%
5 1 20 0,04 0,80 4% 80%
4 4 24 0,16 0,96 16% 96%
3 0 24 0 0,96 0% 96%
2 1 25 0,04 1 4% 100%
Total fa=25 ∑fr=1 fr%=100
+
=
• Se ordonează datele crescător
• Se determină frecvența fiecărei valori
• Se includ valorile distincte și frecvențele într-un tabel pe
două coloane
• Se pot alcătui tabele cu mai multe coloane, adăgându-
se în dreapta următoarele:
oFrecvența cumulată
oFrecvența relativă
oFrecvența relativă cumulată
oFrecvența relativă procentuală
oFrecvența relativă procentuală cumulată
EX: Analizăm procentul de grăsime în lapte pe un număr de 6850 de vaci. Distribuția sortată crescător.
xi ni xi ni xi ni2,5 1 3,2 233 3,9 198
2,55 1 3,25 337 3,95 1042,6 1 3,3 373 4 85
2,65 1 3,35 451 4,05 252,7 3 3,4 497 4,1 20
2,75 5 3,45 534 4,15 182,8 9 3,5 547 4,2 16
2,85 11 3,55 562 4,25 102,9 19 3,6 571 4,3 3
2,95 34 3,65 462 4,35 23 79 3,7 425 4,4 2
3,05 89 3,75 317 4,45 23,1 114 3,8 260 4,5 1
3,15 170 3,85 258 total 6850
41 de intrări în tabela de frecventă
Analiza de frecvențe grupate
Alegem un număr de calse, categorii▪ Recomandabil, între 5 și 15 (convențional)
Alegem mărimea intervalului de clasă:◦ Principii
Toate intervalele trebuie să fie egale
Limitele intervalelor trebuie să cuprindă toate
valorile(între limitele intervalelor alăturate să nu existe
“goluri” sau suprapuneri)
◦ Aplicăm următoarea procedură...
Se determină limita inferioară a primului
interval (trebuie să fie un multiplu al
mărimii intervalului)
Alegem valoarea 2,5 ca limită inferioară
Se împarte valoarea obținută la mărimea
posibilă a intervalului de clasă (0.2, 0.4,
0.5, sau 1 sau 2) pentru a realiza numărul
de clase al noii distribuții
2/0.05= 40 clase (prea mult)
2/0,1=20 clase (variantă posibilă)
2/0,2= 10 clase (variantă acceptată)
Se face diferența dintre valoarea cea mai
mare și valoarea cea mai mică4,5-2,5=2
Se selectează mărimea intervalului care
conduce la un număr de clase cuprins
între 5 și 15
Vom alege 0,2 pentru că produce o
distribuție cu 10 clase care este mai ușor de
analizat și manipulat.
Se determină limita superioară a
părimului interval
Dacă mărilea intervalului este 0.2, limita
superioară va fi 2,5+0,2=2.7 [2,5, 25,5, 2.6,
2.65, 2,7)
Se construiesc intervalele de clasă pentru fiecare interval
Limitele de
clasă
Centrul
clasei
Frecvenţa
absolută
Frecvența
cumulată
Frecvenţa
relativă
Frecvența
relativă
cumulată
Frecvența
relativă
procentuală
Frecvența
relativă
procentuală
cumulată
2,5 -2,69 2,6 4 4 0,0006 0,0006 0,06% 0,06%
2,7 - 2,89 2,8 28 32 0,0041 0,0047 0,41% 0,47%
2,9 - 3,09 3 221 253 0,0323 0,0369 3,23% 3,69%
3,10 - 3,29 3,2 854 1107 0,1247 0,1616 12,47% 16,16%
3,30 - 3,49 3,4 1855 2962 0,2708 0,4324 27,08% 43,24%
3,5 - 3,69 3,6 2142 5104 0,3127 0,7451 31,27% 74,51%
3,70 - 3,89 3,8 1260 6364 0,1839 0,9291 18,39% 92,91%
3,90 - 4,09 4 412 6776 0,0601 0,9892 6,01% 98,92%
4,10 - 4,29 4,2 64 6840 0,0093 0,9985 0,93% 99,85%
4,30 - 4,5 4,4 10 6850 0,0015 1,0000 0,15% 100,00%
TOTAL 6850 1,0000 100,00%
0
500
1000
1500
2000
2500
2,5 -
2,69
2,7 -
2,89
2,9 -
3,09
3,10 -
3,29
3,30 -
3,49
3,5 -
3,69
3,70 -
3,89
3,90 -
4,09
4,10 -
4,29
4,30 -
4,5
Frecventa
absolută
% grasime
Date grupate
0
100
200
300
400
500
600
2,5
2,6
2,7
2,8
2,9 3
3,1
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9 4
4,1
ni
% grasime
Date observate
xi ni xi ni xi ni
116 1 122 4 127 3
116,5 1 112,5 5 128 1
117 1 123 6 128,5 1
118 1 123,5 4 129 2
119 2 124 4 129,5 2
119,5 1 124,5 3 130 1
120 2 125 4 131 1
120,5 2 125,5 2 133 1
121 2 126 3 136 1
121,5 2 126,5 3 total 66
Analizând înălţimea la greabăn a unui număr de 66
vaci s-a obţinut următorul tabel de efective:
29 intrări
139-116=40
7 clase
Lățimea clasei=3
Limitele clasei fa fr fr%
[116-119) 4 0,061 6%
[119-122) 11 0,167 17%
[122-125) 26 0,394 39%
[125-128) 15 0,227 23%
[128-131) 7 0,106 11%
[131-134) 2 0,030 3%
[134-137) 1 0,015 2%
TOTAL 66 1 100%
Tabelul frecvențelor grupate
0
1
2
3
4
5
6
7
116 117 119 120 121 122 123 124 125 126 127 128,5 129,5 131 136
Înălțimea la grabăn (cm)
Date observate
0
5
10
15
20
25
30
[116-119) [119-122) [122-125) [125-128) [128-131) [131-134) [134-137)
Înălțimea la grabăn (cm)
Date grupate
37
https://www.youtube.com/watch?v=asEuFvWGJDs
In EXCEL: Function: FREQUENCY f(x)
Data_array este o matrice sau o referință la un set de valori pentru
care doriți să numărați frecvențele. Dacă data_array nu conține nici o
valoare, FREQUENCY întoarce o matrice de zerouri.
Bins_array este o matrice sau o referință la intervalele în care doriți
să grupați valorile din data_array. Dacă bins_array nu conține nici o
valoare, FREQUENCY întoarce numărul de elemente din data_array.
Matricea răspuns
Răspunsul funcțíei FREQUENCY este o matrice.
Numărul de elemente din matricea întoarsă este cu unul mai
mare decât numărul de elemente din bins_array.
FREQUENCY ignoră celulele necompletate și textul.
1. Se selectează domeniul din foaia de calcul unde se va
obține matricea răspuns.
2. Se editează funcția FREQUENCY3. Apăsați F2, apoi apăsați CTRL+SHIFT+ENTER.
Cum se face?
116 121 122,5 123,5 125 127
116,5 121 122,5 124 125,5 128
117 121,5 123 124 125,5 128,5
118 121,5 123 124 126 129
119 122 123 124 126 129
119 122 123 124,5 126 129,5
119,5 122 123 124,5 126,5 129,5
120 122 123 124,5 126,5 130
120 122,5 123,5 125 126,5 131
120,5 122,5 123,5 125 127 133
120,5 122,5 123,5 125 127 136
BIN frecvanta
<=116 116 1
<=119 119 5
<=122 122 13
<=125 125 26
<=128 128 12
<=131 131 7
<=134 134 1
>=134 1
=FREQUENCY(B33:B98;G33:G39)
MIN=116,5
MAX=136
13
2
Data Analisys
Următoarele valori reperezintă ziua de incubare în urma unui posibil contact etiologic
până la manifestarea unei boli infectioase: 7, 3, 5, 9, 8, 10, 6, 8, 4, 5, 3, 7, 6, 5, 4, 8, 8,
7, 10, 10, 3, 3, 5, 6, 7. Care dintre aceste valori corespunde unei frecvente relative
egale cu 0,12.
a. 6
b. 8
c. 7
Seria statistică a zilelor de incubatie pentru o boală infecto-contagioasă este următoarea: 7, 3, 5, 9, 10, 6, 8, 4, 5, 3, 7, 6, 5, 4, 8, 8, 7, 10, 10, 3, 3, 5, 6, 7, și 8. Procentul de pacienti cu mai putin de 8 zile de incubatie este:
a. 68%
b. 52%
c. 84%
Seria statistică a zilelor de incubatie pentru o patologie infecto-contagioasă este7, 3, 5, 9, 10, 6, 8, 4, 5, 3, 7, 6, 5, 4, 8, 8, 7, 10, 10, 3, 3, 5, 6, 7, și 8. Frecventa absolută cumulată crescător egală cu 6 corespunde la:
a. 4 zile
b. 6 zile
c. 7 zile
Seria statistică a zilelor de incubatie pentru o boală infecto-contagioasă este următoarea: 7, 3, 5, 9, 10, 6, 8, 4, 5, 3, 7, 6, 5, 4, 8, 8, 7, 10, 10, 3, 3, 5, 6, 7, și 8. Procentul de pacienti cu mai putin de 8 zile de incubatie este:
a. 68%
b. 52%
c. 84%