Mediul de lucru SPSS
Rolul acestui scurt capitol introductiv este acela de a readuce în
memoria studentului principalele comenzi din programul
statistic SPSS – programul cu care se va lucra în cadrul cursului
de Metode cantitative.
Informaiile cuprinse în acest curs fac referire la versiunea SPSS
10.0 sub Windos. Pornim desigur de la premisa c! toi studenii "tiu
s! utilizeze sistemul de operare Windos# fie "i numai la nivel
elementar.
Programul SPSS 10.0 conine zece meniuri. Prezent$m în continuare
coninutul fiec$ruia dintre acestea.
File – cuprinde în special comenzile utilizate pentru crearea
unor documente noi "i desc%iderea sau salvarea documentelor create
anterior
Edit – cuprinde comenzile utilizate pentru editarea
documentelor &"tergere# copiere# lipire etc.'
View – din acest meniu se pot seta caracteristicile vizuale
ale documentelor Data – cu a(utorul comenzilor acestui
meniu se realizeaz! o serie de operaiuni de baz!
asupra datelor statistice &inserare# sortare# agregare#
fuzionare fi"iere etc.' Transform – cuprinde comenzi utilizate
pentru transform!ri &cantitative sau calitative' ale
datelor &crearea de noi variabile plec)nd de la cele e*istente#
recodificarea datelor# ierar%izarea datelor etc.'
Analyze – în acest meniu se g$sesc toate comenzile necesare
pentru realizarea analizelor statistice
Graphs – este meniul în care se g$sesc comenzile pentru
grafice &SPSS permite realizarea c)torva zeci de tipuri de
grafice'
Utilities – este un meniu pe care nu+l vom folosi la acest
curs. ,l cuprinde în special comenzi care permit automatizarea
facilit!ilor din SPSS
Window – permite manipularea ferestrelor în care este desc%is
programul SPSS Help – asigur! accesul la asistena
&a(utorul' pentru utilizatori
-ntruc)t meniul Analyze va fi de departe cel mai utilizat în
cadrul acestui curs# vom detalia în continuare comenzile e*istente
în acest meniu.
Reports – este un submeniu care conine comenzi pentru
elaborarea rapoartelor sintetice asupra datelor
Descriptive tatistics – comenzile din acest submeniu se
folosesc în principal pentru generarea indicatorilor statistici
pentru variabilele studiate
!"stom Ta#les – submeniu folosit atunci c)nd dorim sa
construim tabele pornind de la datele dintr+un fi"ier
1
!ompare $eans – submeniu folosit pentru realizarea testelor de
comparare a mediilor &Student# / univariat$'
General %inear $odel – comenzile din acest submeniu servesc
la e*ecutarea analizei / multivariat$
!orrelate – cuprinde comenzile pentru studierea corelaiei
bivariate "i pariale dintre variabile
Re&ression – submeniu util pentru realizarea diverselor
tipuri de analiz$ de regresie &liniar$ "i neliniar$'
%o&linear – cuprinde comenzi utlie pentru analizele de
regresie de tip logaritmic !lassify – cuprinde procedurile
utilizate pentru gruparea obiectelor din baza de date
&analiza
de tip cluster # analiza discriminantului' Data
Red"ction – cuprinde procedurile utilizate pentru gruparea
variabilelor studiate
&analiza factorial$# analiza corespondenelor' cale –
cuprinde proceduri avansate pentru lucrul cu scalele de m$surare
&scalarea
multidimensional$# analiza încrederii' 'onparametric Tests –
a"a cum îi arat$ numele# acest submeniu grupeaz$ toate
testele
neparametrice &binomial# %i p$trat# Wilco*on etc.' Time
eries – cuprinde procedurile de analiz$ a seriilor de timp
"rvival – cuprinde procedurile utilizate în analizele de
supravieuire $"ltiple Response – cu a(utorul comenzilor din
acest submeniu sunt gestionate datele
provenind din întreb$rile cu r$spunsuri multiple $issin&
Val"e Analysis – procedura utilizat$ pentru analiza valorilor
lips$
2omenzile pentru gestionarea fi"ierelor în SPSS sunt foarte
asem$n$toare cu cele din orice aplicaie Windos. stfel# pentru
crearea "nei noi #aze de date comenzile utilizate sunt3
File ( 'ew ( Data
Primul lucru pe care trebuie s!+l facem este s! definim variabilele
&c)mpurile' noii baze de date. -n parte din st)nga (os putem
observa butoanele Data View)Varia#le View. p!s)nd butonul Varia#le
View# SPSS ne prezint! ecranul de dialog pentru definirea
variabilelor. Pentru fiecare variabil! va trebui s! specific!m#
printre altele3
• numele • tipul &numeric# caracter etc.' • lungimea
&num!rul de caractere' • num!rul de zecimale &pentru
variabilele numerice' • descrierea variabilei &opional' •
valori posibile &opional' etc. dat! variabilele introduse#
ap!s!m pe butonul Data View pentru a putea introduce datele
în
fi"ier.
Pentru deschiderea "nei #aze de date e*istente vom utiliza
comenzile3
File ( +pen ( Data
SPSS+ul ne va desc%ide o caset! de dialog pentru desc%iderea unui
fi"ier.
-n momentul în care rul!m o analiz! asupra unui set de date#
SPSS+ul ne prezint! rezultatele acestei analize sub forma unui
fi"ier special numit o"tp"t, 5i"ierele de output pot fi
desigur salvate "i apelate ulterior prin comanda3
File ( +pen 6 +"tp"t
spectele practice legate de lucrul cu fi"ierele# precum "i de
utilizarea procedurilor de analiz$ vor fi l$murite la
seminar.
Capitolul 2
Aspecte teoretice - recapit"lare
I. ariabil!# scor# distribuie
variabil este acea proprietate a unui fenomen care poate lua
diferite valori. 7e e*emplu3 zilele sapt!m)nii &luni# mari# 8#
duminic!'# în!limea# venitul impozabil# notele studenilor la
e*amenul de Statistic! etc.
rice variabil! este descris! de un set de valori. aloarea
particular! pe care o ia variabila pentru un anumit membru al
populaiei studiate poart! numele de scor . ,*emple de
scoruri ale diverselor variabile3 persoana 9 are în!limea de 1.:;
metri# persoana < are un salariu lunar de 1=00 de lei# studentul
> a obinut nota ? la e*amenul de Statistic!.
Distribuia unei variabile este dat! de frecvena de
apariie a diverselor scoruri &sau valori' care descriu
variabila respectiv!. 5recvena poate fi absolut$ sau relativ$.
7istribuia poate fi ilustrat$ cu a(utorul unui tabel de frecvene#
sau reprezentat! grafic prin intermediul unei histograme.
rice distribuie statistic$ este definit! prin trei
caracteristici3
1. modalitatea# care se refer! la num!rul de ma*ime &ale
frecvenelor' pe care îl prezint! distribuia. 7istribuiile cu un
singur ma*im &cum este cea de mai sus' se numesc unimodale# iar
cele cu mai multe ma*ime se numesc multimodale.
@
@. boltirea (kurtosis)# care ne arat! c)t de mult variaz!
scorurile. distribuie Aturtit!B &sau Aaplatizat!B' prezint!
toate valorile posibile ale scorurilor# de la cele mai mici la cele
mai mari# pe c)nd în cazul unei distribuii AascuiteB scorurile
variaz! mai puin &valorile e*treme au frecvene de apariie
reduse'.
II. Indicatorii ¶metrii' unei distribuii
ce"ti indicatori se împart în dou! mari categorii3 indicatorii
tendinei centrale "i indicatorii împrtierii. om prezenta pe
scurt principalii indicatori din fiecare categorie.
A. Indicatorii tendinei centrale
ce"ti indicatori e*prim! tendina scorurilor unei variabile de a se
grupa în (urul unor valori semnificative. 2ei trei indicatori ai
tendinei centrale luai în discuie aici sunt media# mediana "i
modul .
∑
∑ ⋅
=
m
unde cu x am notat valorile# iar cu n frecenele
absolute de apariie.
Mediana este acea valoare care împarte o distribuie în
dou! p!ri egale. Pentru a o determina# trebuie mai înt)i s! a"ez!m
scorurile în ordine cresc!toare. -n cazul în care num$rul de
scoruri este par# mediana va fi media artimetica a scorurilor din
mi(loc. 7ac$ num$rul de scoruri este impar# mediana este dat! de
valoarea scorului din mi(loc al seriei.
S! presupunem c! "tim c! mediana salariilor lucr!torilor dintr+o
firm! este de =@00 de lei. 2um interpret!m acest faptC -n felul
urm!tor3 umtate din lucr!tori au un salariu de p)n! la
=@00 de lei# iar cealalt umtate au un salariu de peste =@00 de
lei.
Modul unei distribuii este acea valoare a
distribuiei care are cea mai mare frecven! de apariie. -n cazul
anterior# modul distribuiei este egal cu 4# deoarece acest puncta(
apare cel mai des &de cinci ori'. -n e*emplul ilustrat în
tabelul 1# modul distribuiei este @# deoarece aceast! valoare apare
cel mai des &de 1: ori'. 7up! cum precizam anterior# e*ist!
posibilitatea ca o distribuie s! prezinte mai multe moduri#
caz în care o vom numi multimodal.
B. Indicatorii împrtierii
2el mai des folosit indicator al împr!"tierii unei variabile este
dispersia sau variana. ,a este notat$ cu D4 sau uneori cu
!ar "i se calculeaz$ cu formula3
E
σ
2u c)t valoarea dispersiei este mai mare# cu at)t distribuia
respectiv! este mai împr!"tiat!.
Abaterea ptratic sau abaterea standard nu
este altceva dec)t r!d!cina p!trat! a dispersiei3
4 σ σ =
baterea p!tratic! se noteaz! uneori cu S7 &de la cuvintele
engleze"ti Astandard deviationB – abatere standard'. 7e
remarcat c! abaterea standard are aceea.i "nitate de m/s"r/ ca .i
varia#ila, Se poate demonstra c! ma(oritatea scorurilor unei
variabile &"i anume cam :;F' se g!sesc în interiorul
intervalului care are drept capete valorile m+ D "i mG D. ceste
scoruri se mai numesc scoruri medii# normale sau
tipice pentru acea distribuie. alorile care se g!sesc în afara
intervalului &m+ DH mG D' poart! numele de valori
atipice.
tunci c)nd cunoa"tem media "i abaterea standard a unui e"antion dat
de volum n# putem determina dispersia de selecie &sau
eroarea standard ' pentru e"antionul respectiv# cu
formula3
n m
σ σ =
ceast$ eroare standard reprezint$ de fapt abaterea mediilor tuturor
e"antioanelor de acela"i volum n de la media populaie totale.
Pentru a determina un interval de încredere al acestei din urm$
medii# cu un nivel de încredere de ?=F# vom calcula3
m # $%&' m σ
III. Distribuia normal
2unoscut! "i sub denumirea de distribuia auss+Japlace# distribuia
normal! este f!r! îndoial! cea mai important! dintre toate tipurile
de distribuie înt)lnite în statistic!. Principala sa
caracteristic!3 curba frecvenelor se prezint! sub form! de clopot
&de unde "i denumirea de Aclopotul lui aussB'. Iat$ formula
prin care se e*prim! legea normal!3
4
4
4
− −
=
=
unde p&*' este probabilitatea &frecvena' de apariie a unei
valori oarecare *# iar m "i sunt de(a notaii
familiare &media "i abaterea p!tratic! a distribuiei'. "adar#
ace"ti doi parametri &media "i abaterea standard' definesc
complet o distribuie normal!. S! mai spunem c! distribuia normal!
de
medie m "i abatere D se noteaz! prescurtat astfel3 '#& 4
K
σ m " .
IV. Distribuia normal standard. Scorurile z
5ie o variabil! aleatoare ce are media m "i abaterea standard
. Pentru o valoare oarecare x a acestei variabile#
scorul * se calculeaz! astfel3
σ
− =
Se observ! c! acest scor are un caracter sintetic# reunind într+o
singur! formul! media "i abaterea standard a distribuiei. Scorurile
z n" a" "nitate de m/s"r/, Locmai acest lucru face
posibil! compararea sau adunarea lor.
7istribuia scorurilor z se nume"te distribuie normal standard
&sau normat)% ,a are media
" .
Generarea indicatorilor statistici i a rapoartelor în
SPSS
-n cadrul acestei sectiuni vom e*emplifica pas cu pas urm$toarele
proceduri3
1. generarea indicatorilor statistici "i a tabelului de frecvene#
cu a(utorul comenzilor +re,uencies
"i DescriptivesH
4. generarea indicatorilor statistici pe substraturi ale populaiei#
cu a(utorul comenzii -xploreH
@. crearea tabelelor încruci"ate# folosind comanda .rosstabsH E.
crearea rapoartelor cu a(utorul unor opiuni din submeniul
/eports.
Pentru realizarea e*emplelor practice vom folosi baza de date
Employee data,sav0 care prezint! informaii privind cei
EME de salariai ai unei b!nci din Statele Nnite# informaii obinute
în urma unui studiu organizat la începutul anilor 1??0.
0% 1enerarea indicatorilor statistici i a tabelului de
frecvene
om cere în continuarea programului SPSS S$ ne furnizeze principalii
parametri statistici pentru variabila salar2#
reprezent)nd salariul curent &anual' al lucr!torilor din banc!.
-n acest scop apel!m comanda3
Analyze > Descriptive Statistics > Freuencies
:
SPSS+ul desc%ide o caset! de dialog &o vom vizualiza atunci
c)nd vom face aplicaiile practice'. legem pentru analiz!
variabila salar2 "i ap!s!m butonul tatistics. /i se
desc%ide o nou! caset! de dialog în care select!m rm!toarele opiuni
pentru calcul3 3uartiles4 Mean# Median# Mode# 5td%
Deviation &abaterea standard'# !ariance# 5%-%
mean &abaterea de selecie'# 5kewness# 6urtosis.
p!s!m butonul !ontinue "i apoi butonul "# ,
-n fi"iereul de output SPSS+ul ne prezint! rezultatele
urm!toare3
+ tabelul frecvenelor pentru variabila salar2
&red!m aici doar o mic! parte a lui# pentru economie de
spaiu'3
Current Salary Frequency Percent Valid
Percent Cumulative
Percent Valid $15,750 1 .2 .2 .2
$15,900 1 .2 .2 .4 $16,200 .6 .6 1.1 $16,50 1
.2 .2 1. $16,500 1 .2 .2 1.5 $16,650 1 .2 .2 1.7
$16,!00 1 .2 .2 1.9 $16,950 .6 .6 2.5 $17,100
2 .4 .4 .0 $17,250 1 .2 .2 .2 " " " " " #tal
474 100.0 100.0
-n prima coloan! se g!sesc valorile variabilei# în cea de+a doua
frecvenele absolute# iar în cea de+a treia frecvenele relative
&în procente'. Nltima coloan! prezint! frecvenele relative
cumulate.
7in acest tabel se poate vedea# de e*emplu# c! nivelul salariului
de 1:?=0 de dolari apare la trei salariai# reprezent)nd 0.:F din
totalul salariailor.
+ tabelul indicatorilor statistici3
&ean $4,419.57 Std. )rrr * &ean $7!4.1
&edian $2!,!75.00 &de $0,750
Se-ne'' 2.125 Std. )rrr * Se-ne'' .112
urt'i' 5.7! Std. )rrr * urt'i' .224
Percentile' 25 $24,000.00 50 $2!,!75.00 75
$7,162.50
naliza în detaliu a acestui tabel o vom face la seminar.
7ac! nu ne intereseaz! s! obinem tabelul de frecvene al variabilei#
putem folosi pentru statistica descriptiv! comanda &care are o
pla(! de opiuni mai redus!'3
Analyze > Descriptive Statistics > Descriptives
7up$ ce ap$s$m butonul "ptions al casetei de dialog de la
aceast$ procedur$# SPSS+ul ne d$ posibilitatea de a alege
indicatorii statistici pe care+i dorim calculai. /oi vom alege#
pentru ilustrare# doar indicatorii Mean# 5tandard
Deviation "i 5%-% mean. Iat$ tabelul pe care ni+l afi"eaz$
programul3
+e'cri/tive Stati'tic' % &ean Std. +eviatin
Stati'tic Stati'tic Std. )rrr Stati'tic
Current Salary 474 $4,419.57 $7!4.1 $17,075.66 Valid %
li't-i'e 474
00% 1enerarea indicatorilor statistici pe straturi
S$ presupunem acum c$ dorim s$ analiz$m comparativ salariile
b$rbailor "i cele ale femeilor din populaia studiat$. Pentru a
realiza aceasta# ne st$ la dispoziie procedura -xplore# pe
care o apel$m astfel3
Analyze > Descriptive Statistics > $%plore
SPSS+ul ne cere s$ preciz$m care sunt variabilele dependente
&adic$ variabilele pentru care se vor calcula parametrii'#
precum "i care sunt variabilele+factor &cele dup$ care sunt
definite straturile'. -n cazul nostru# variabila dependent$ este
salar2# iar factorul este gender .
-n afar$ de tabelele de sinteza# îi vom solicita programului SPSS
s$ ne furnizeze "i graficul de tip Abo*plotB# precum "i un test de
normalitate pentru variabila studiat$.
Red$m în continuare c)teva din rezultatele acestei analize
&discuiile asupra lor vor avea loc la seminar'.
-n tabelul de mai (os se g$sesc principalii indicatori statistici
ai variabilei salar2# pe cele dou$ substraturi3 b$rbai "i
femei.
+e'cri/tive' ender Stati'tic Std. )rrr
Current Salary
953 Cn*idence nterval *r &ean
-er und
Std. +eviatin $7,55!.02 &inimum $15,750 &a8imum
$5!,125
an(e $42,75 nterquartile an(e $7,012.50
Se-ne'' 1.!6 .166 urt'i' 4.641 .0 &ale &ean
$41,441.7! $1,21.97 953 Cn*idence nterval *r
&ean -er und
Variance !02196.0 Std. +eviatin $19,499.21
&inimum $19,650 &a8imum $15,000
an(e $115,50 nterquartile an(e $22,675.00
Se-ne'' 1.69 .152 urt'i' 2.7!0 .02
Rezultatele testului de normalitate Oolmogorov+Smirnov se g$sesc în
tabelul ce urmeaz$3
#e't' * %rmality lm(rv:Smirnv
ender Stati'tic d* Si(. Current Salary Female .146 216
.000
&ale .20! 25! .000
-n sf)r"it# figura de mai (os prezint$ graficul Abo*plotB
pentru variabila salar2# pe cele dou$
segmente de anga(ai studiate &b$rbai "i femei'.
?
25!216% ;
ender
&aleFemale
C u r r
e n t S
a l a r
y
160000
140000
120000
100000
!0000
60000
40000
20000
0
000% .rearea tabelelor încruciate
Labelele încruci"ate sunt foarte utile atunci c)nd dorim s$ studiem
leg$tura dintre dou$ variabile categoriale. supra lor vom reveni
într+un capitol ulterior# atunci c)nd vom studia testele
neparametrice. cum vom ar$ta doar# foarte pe scurt# cum se
genereaz$ un asemenea tabel.
S$ presupunem c$ ne intereseaz$ s$ studiem interdependena dintre
variabile gender "i
variabile obcat &ambele categoriale' pentru a
vedea unde se înt)lnesc ma(oritatea managerilor din banc$3 în
r)ndul b$rbailor sau în r)ndul femeilor. Pentru aceasta vom apela
opiunea3
Analyze > Descriptive Statistics > !rosstabs
om cere programului s$ afi"eze categoriile variabile
gender pe liniile# iar pe cele ale
variabilei obcat pe coloane. lte opiuni nu
formul$m# deocamdat$.
Rezultatul analizei este afi"at în tabelul de mai (os. ender <
)m/lyment Cate(ry Cr''ta=ulatin Cunt
)m/lyment Cate(ry
ender Female 206 10 216 &ale 157 27 74 25!
#tal 6 27 !4 474
7up$ cum se poate observa# marea ma(oritate a managerilor
sunt b$rbai &ME'# iar
femeile sunt mult mai puin reprezentate în structurile de conducere
&numai 10'.
0!% .rearea de rapoarte sintetice
piunea /eports din meniul 7nal2*e conine o
serie de comenzi care permit crearea unei mari variet$i de
rapoarte. /oi nu vom intra în toate detaliile aici# ci vom genera
doar un raport sintetic privind principalii indicatori ai
variabilei salar2# at)t pe subgrupul b$rbailor c)t "i pe cel
al femeilor.
om selecta opiunile3
Analyze > &eports > !ase Su''aries
-n c)mpul !ariables vom introduce variabile de studiu
& salar2'# iar în c)mpul 1rouping
!ariable(s)# variabile gender . poi vom deselecta
opiunea 8imit cases to first pentru a+i cere
programului s$ calculeze indicatorii pentru toate cazurile
din e"antion# precum "i opiunea Displa2
cases &pentru a evita afisarea valorii variabilei la
fiecare caz în parte'. -n continuare ap$s$m butonul
Statistics "i cerem s$ fie generai – pentru fiecare
subgrup – urm$torii indicatori3 num$rul de cazuri &de(a
selectat'# media# mediana "i abaterea standard. poi ap$s$m
butoanele !ontinue "i "# . Labelul de mai (os# care
conine rezultatul final al analizei# nu are nevoie de prea multe
e*plicaii.
Ca'e Summarie' Current Salary
ender % &ean &edian Std. +eviatin Female 216
$26,01.92 $24,00.00 $7,55!.02
&ale 25! $41,441.7! $2,!50.00 $19,499.21 #tal 474
$4,419.57 $2!,!75.00 $17,075.66
Capitolul 3
Aspecte teoretice - recapit"lare
2orelaia statistic$ este util$ pentru a analiza leg!tura dintre
dou$ variabile aleatoare# cantitative sau ordinale.
2orelaia este m$surat$ de regul$ cu a(utorul unuia dintre urm$torii
coeficieni3
11
• coeficientul de corelaie AroB al lui Pearson • coeficientul de
corelaie al lui Spearman • coeficientul de corelaie AtauB al lui
Oendall.
2oeficientul lui Pearson se folose"te numai atunci c)nd ambele
variabile luate în studiu sunt cantitative &metrice'. 2eilali
doi coeficieni se pot folosi at)t pentru variabile metrice# c)t "i
ordinale &ei mai sunt numii "i coeficieni de corelaie
neparametrici'.
2oeficientul de corelaie al lui Pearson ¬at cu 9' se
determin! dup! formula3
41
4411 ''&&
m xm x∑ −− =
unde cu m "i s+au notat mediile# respectiv
abaterile standard ale celor dou$ variabile# iar cu n
num$rul de cazuri din e"antion.
2oeficientul de corelaie 9 poate lua valori cuprinse în
intervalul +1H 1Q. naliza sa presupune luarea în calcul a
trei elemente3
• valoarea absolut a coeficientului. 2u c)t aceasta este mai
aproape de 1# cu at)t corelaia este mai str)ns!. aloarea 0
&zero' înseamn$ absena oric$rei corelaii.
• semnul coeficientului. alorile pozitive indic! o
leg!tur! direct! între variabile# iar valorile negative o
leg!tur! indirect!.
• semnificaia coeficientului. ceasta poate fi
determinat$ cu a(utorul testului t . aloarea acestui test
pentru coeficientul de corelaie se calculeaz$ cu formula3
41
4
n t
tenie Nn coeficient de corelaie mare n" indic! neap!rat
e*istena unei leg!turi de cauzalitate între cele dou! variabileH
pur "i simplu ne arat! faptul c! dou! fenomene Amerg împreun!B#
f!r! a fi în mod necesar interdependente.
2oeficientul de corelatie al lui Spearman &numit "i coeficient
de corelaie al rangurilor' se determin$ cu formula3
'1&
: 1
4
4
i
unde D este diferena rangurilor observate în cele dou$
variabile ordinale.
2oeficientul de corelaie a rangurilor este cuprins între 0 "i 1. 2u
c)t este mai apropiat de 1# cu at)t leg$tura dintre variabile este
mai puternic$.
i pentru coeficientul lui Spearman se poate calcula statistica
t # în vederea determin$rii gradului de semnificaie. 5ormula
este urm$toarea3
14
−
− =
2oeficientul de corelaie Oendall ¬at cu : ' se
calculeaz$ cu e*presia3
nn
4 τ
unde cu . am notat aici suma scorurilor pentru toate
cele n(n;$)<= combinatii posibile. Scorul este considerat
G1 ori de c)te ori o combinaie este concordant$ &are acela"i
clasament' "i +1 ori de c)te ori o combinaie este discordant$
&clasamentele difer$'.
2oeficientul lui Oendall ia valori între +1 "i 1. Interpretarea sa
este e*act la fel ca aceea a coeficientului Pearson.
Analiza corela1iei 2n 3
-n cele ce urmeaz$ vom studia procedurile din programul SPSS
utilizate pentru calculul coeficienilor de corelaie. om folosi din
nou# ca "i în capitolul anterior# variabilele din fi"ierul Employee
data,sav.
S$ presupunem c$ ne intereseaz$ leg$tura dintre salariul actual al
anaga(ailor din banc$ "i nivelul lor de educaie &e*primat în
ani de studii'. salariul de început al lucr!torilor din banc!.
Pentru a calcula coeficienii de corelaie apel!m comanda3
Analyze > !orrelate > (ivariate
dat! ce SPSS+ul desc%ide caseta de dialog pentru calculul
corelaiei# select$m din fereastra din dreapta variabilele care ne
intereseaz! &cel puin dou!'. -n cazul nostru# ele vor fi
salar2 "i educ. 7ac! alegem trei sau mai multe variabile
pentru aceast! analiz!# programul ne va calcula corelaile dintre
aceste variabile luate dou! c)te dou!. poi cerem programului s$
calculeze toi cei trei coeficieni de corelatie &Pearson#
Spearman "i Oendall'. Loate celelalte opiuni care ne intereseaz$
sunt de(a selectateH a"adar# putem ap!sa butonul
+4 pentru a rula analiza.
utput+ul se prezint! în felul urm!tor3
Crrelatin' Current Salary )ducatinal evel
year' Current Salary Pear'n Crrelatin 1.000 .661
Si(. 2:tailed . .000 % 474 474
)ducatinal evel year'
Pear'n Crrelatin .661 1.000
Si(. 2:tailed .000 . % 474 474 <<
Crrelatin i' 'i(ni*icant at t>e 0.01 level 2:tailed.
Crrelatin'
1.000 .554
year' Crrelatin Ce**icient
.554 1.000
Si(. 2: tailed
year' Crrelatin Ce**icient
.6!! 1.000
.000 .
% 474 474 << Crrelatin i' 'i(ni*icant at t>e
.01 level 2:tailed.
Primul tabel conine valoarea coeficientului Pearson# iar cel de+al
doilea valorile coeficienilor de corelaie neparametrici.
Interpretarea în detaliu a datelor din aceste tabele va fi f$cut$
la seminar. ici dorim doar s$ subliniem urm$torul lucruH pentru
fiecare coeficient de corelaie# SPSS+ul calculeaz$ automat valoarea
ASigB# cu a(utorul c$reia putem stabili dac$ respectivul coeficient
este semnificativ sau nu. 7ac! parametrul A2orrelation Sig.B este
mai mic dec)t nivelul de semnificaie ales iniial de noi &de
regul$ =F'# atunci putem accepta faptul c! avem de+a face cu o
corelaie semnificativ$ statistic.
7up$ cum se poate observa# programul SPSS marc%eaz! cu dou!
asteriscuri &TT' valorile semnificative la un nivel de 0.01
&sau 1F'. alorile semnificative la un nivel de 0.0= &sau
=F' sunt marcate cu un singur asterisc &T'.
Capitolul 4
Teste statistice
Aspecte teoretice - recapit"lare
-n cadrul studiilor statistice# suntem adesea interesai în a
compara mediile unei variabile pentru dou$ populaii diferite
&pentru a vedea dac$ e*ist$ diferene semnificative între ele'#
sau media unui e"antion cu media populaie din care province acesta
&pentru a vedea dac$ e"antionul este reprezentativ pentru
populatia din care face parte'. -n acest scop putem folosi fie
testul * # fie testul t .
0% >estul *
Lestul z se folose"te atunci c?nd cunoatem dispersia populaiei din
care provine eantionul
studiat &lucru care se înt)mpl$ rareori'. 5$r$
a intra în toate aspectele de detaliu privind testarea unei ipoteze
statistice# vom reaminti
doar principiul de baz$ al testului * 3 valoarea
calculat$ a statisticii * se compar$ cu cea
tabelar$ &aleas$ în functie de nivelul de semnificaie dorit'.
7ac$ valoarea calculat$ este mai mare dec)t cea tabelar$ &în
valoare absolut$'# atunci vom respinge ipoteza nul$ "i vom spune c$
e*ist$ diferene semnificative între grupurile studiate. -n caz
contrar vom accepta ipoteza nul$# afirm)nd c$ diferenele sunt
nesemnificative.
S$ ne amintim acum modul de calcul al statisticii * .
tunci c)nd se pune problema compar$rii medie unui e"antion cu media
populaiei din care a
fost e*tras# statistica * se calculeaz$ cu
formula3
m
c
m *
σ
µ − =
unde m este media e"antionului# @ este media
întregii populaii# iar m este abaterea de selecie
&e*plicat$ în capitolul 4'.
7ac$ trebuie s$ compar$m mediile a dou$ grupuri diferite# vom
folosi urm$toarea formul$3
41
41
mm
c
mm *
σ
nde m$ "i m= sunt mediile celor dou$ e"antioane# iar la
numitor se g$se"te o abatere p$tratic$ &estimat$' a diferenelor
dintre aceste medii# calculat$ astfel3
4
4
4
1
4
00% >estul t
-n marea ma(oritate a situaiilor din realitate# nu cunoa"tem
dispersia populaiei din care provine e"antionul# a"adar
testul z nu ne mai este util. om folosi a"adar testul
t .
-n analiza statistic$ sunt cunoscute trei tipuri de test t 3
univariat# bivariat pe e"antioane independente "i bivariat pe
e"antioane perec%i. Je vom descrie pe scurt în r)ndurile ce
urmeaz$.
1=
. Lestul t univariat &pentru un singur e"antion'
cest test se folose"te pentru a compara media unui e"antion cu
media populaiei totale# atunci c)nd cunoa"tem doar media populaiei
&nu "i dispersia'.
Statistica t se calculeaz$# pentru acest caz# e*act la
fel ca statistica * 3
m
µ − =
7iferena const$ în faptul c$ abaterea de selecie &valoarea de
la numitor' nu se mai calculeaz$ pornind de la abaterea standard a
populatie & ' – care este necunoscut$ – ci de la o
estimare a acestei abateri & s'. "adar# formula
pentru sm este3
n
U. Lestul t bivariat pe e"antioane independente
cest test este folosit pentru a detecta e*istena unor diferene
semnificative între mediile a dou! e"antioane &grupuri'
independente. aloarea statisticii t calculate
este3
41
41
mm
41
41
11
1
2. Lestul t bivariat pe e"antioane perec%i
7ou! e"antioane se numesc perechi sau
dependente atunci c)nd modul de alegere a unit!ilor unui
e"antion este determinat de modul de alegere a unit!ilor celuilalt.
-ntre unit!ile din dou! e"antioane perec%i se poate stabili o
coresponden biunivoc. Statistica t utilizat$ pentru
evaluarea semnificatiei diferentei dintre medii se calculeaz$ cu
formula3
1:
unde V
d este media diferenelor d i dintre valorile
perec%i# iar sd este abaterea p$tratic$ a
acestor diferene.
Utilizarea pro&ram"l"i 3 pentr" test"l t
5i"ierul pe care+l vom folosi un aceast$ seciune este tot Employee
data,sav, om ilustra în continuare# cu a(utorul a c)te unui
e*emplu# modul de analiz$ pentru fiecare din cele trei tipuri de
test t .
. Lestul t univariat
S! presupunem c! deinem urm$toarea informatie3 c! salariul mediu al
unui anga(at dintr+o banc$ american$ este de @:.000 de
dolari. Respect! e"antionul nostru &de EME de anga(ai' condiia
de reprezentativitate din acest punct de vedereC 7ac! o respect!#
atunci salariul mediu pe acest e"antion nu va fi semnificativ
diferit de cel de la nivelul populaiei. -n unul din capitolele
anterioare am calculat acest salariu mediu "i am v!zut c! era egal
cu @EE1?.=M dolari. S! vedem dac! este semnificativ diferit de cel
de @:000 de dolari. om fi*a pentru studiul nostru un nivel de
semnificaie de =F# adic! un nivel de încredere de ?=F. 11
Pentru a rula testul t univariat vom apela
comanda3
Analyze > !o'pare Means > "ne)Sa'ple * *est
-n caseta! de dialog care apare# în fereastra A>est
!ariable(s)B vom introduce variabila salar2# iar în
c)mpul A>est !alueB com introduce valoarea @:000. p!s)nd
butonul +4 obinem urm$torul tabel3
Ane:Sam/le #e't #e't Value ; 6000
t d* Si(. 2: tailed
&ean +i**erence
-er //er Current
Salary :2.015 47 .044 :$1,5!0.4 :$,121.60 :$9.27
2oloana a patra a acestui tabel este cea mai important!#
deoarece pe baza ei putem lua
decizia de acceptare sau respingere a ipotezei nule. Regula de
decizie este urm!toarea3 dac! valoarea lui ASig.B din aceast!
coloan! este mai mic! dec)t nivelul de semnificaie ales de noi#
atunci vom respin&e ipoteza nul! &cu alte cuvinte#
vom afirma c! între cele dou! valori e*ist! o diferen!
semnificativ!'H în caz contrar# vom accepta ipoteza
nul!.
1M
-ntruc)t avem 0.0EEX0.0= vom respinge ipoteza nul! "i vom spune c!
salariul mediu pe e"antion este semnificativ diferit de salariul
mediu pe populaia total!# cu un nivel de încredere de ?=F. "adar#
e"antionul nu poate fi considerat reprezentativ din acest punct de
vedere.
U. Lestul t bivariat pentru dou! e"antioane independente
S! presupunem# c! dorim s! verific!m dac! salariul mediu al
b!rbailor din banc! este semnificativ diferit de cel al femeilor.
Pentru aceasta vom folosi testul bivariat pe e"antioane
independente# apelat cu comanda3
Analyze > !o'pare Means > +ndependent)Sa'ples *
*est
-n fereastra A>est !ariablesB vom introduce din nou
variabila salar2# iar în c)mpul A1rouping !ariableB vom
introduce variabila gender . bserv!m c! se activeaz!
butonul Define Gro"ps, 7ac! îl ap!s!m se desc%ide o nou!
caset! de dialog. ici# în c)mpul A1roup $B vom introduce AmB
&f!r! asteriscuri'# iar în c)mpul A1roup =B vom introduce
AfB &deasemenea f!r! asteriscuri'. p!s!m butonul
!ontin"e "i observ!m c! în c)mpul A1rouping !ariableB din
prima caset! de dialog apare3 Agender(Cm Cf)B. -n acest fel am
definit cele dou! e"antioane. p!s!m +4 pentru a rula
analiza.
Iat! o poriune &cea mai relevant$' din tabelul de analiz! pe
care ni+l furnizeaz$ SPSS+ul3
nde/endent Sam/le' #e't evene?' #e't *r
)quality * Variance' t:te't *r )quality * &ean'
F Si(. t d* Si(. 2:tailed
Current Salary
)qual variance'
11.6!! 44.262 .000
Informaiile din acest tabel vor fi comentate "i interpretate
la seminar.
2. Lestul t bivariat pentru dou! e"antioane perec%i
S! presupunem în continuare c! dorim s! determin!m dac! e*ist! o
diferen! semnificativ! între salariul mediu iniial al lucr!torilor
"i salariul mediu actual. Lestul t pentru e"antioane
perec%i ne este de util în acest scop. Procedura pe care trebuie s$
o apel$m este3
1;
Analyze > !o'pare Means > Paired)Sa'ples *
*est
cum va trebui s! introducem în fereastra AEaired
!ariablesB variabilele supuse analizei. om selecta simultan
&folosind butonul 2LRJ al tastaturii' variabilele
salar2 "i salbegin. p!s)nd +4 obinem
urm!torul output3
Paired Sam/le' #e't Paired +i**erence' t d* Si(. 2:
tailed
S! privim ultima coloan$3 avem acolo valoarea parametrului ASigB#
utilizat pentru aprecierea semnificaiei statistice. -ntruc)t acest
parametru este mai mic dec)t 0.0=# vom deduce c! între salariul
actual "i cel iniial e*ist! o diferen! semnificativ!. Yedia acestei
diferene pentru populaia total$ &
[email protected]; dolari' poate fi
g$sit$ din coloana a treia a tabelului.
Capitolul 5
Operaii cu date i variabile
Se pot înt)lni în practic$ foarte multe situaii în care# înainte de
a trece la analiza statistic$ propriu+zis$# este necesar s$
oper$m o serie de transform$ri sau modific$ri asupra datelor "isau
variabilelor din baza de date. ceasta se înt)mpl$ fie din cauz$ c$
analistul este interesat doar de un anumit segment al datelor
&un anumit subgrup din populaia total$'# fie din cauz$ c$
informaiile din baza de date nu sunt prezente în forma cea
mai convenabil$ pentru analist.
Iat$ c)teva posibile e*emple de astfel de situaii3 • dorim s$
analiz$m corelaia dintre anumite variabile pe un singur segment al
anga(ailor
&de pild$# numai pentru anga(aii b$rbai'H • dorim s$ obinem
anumite informaii statistice# simultan# pentru mai multe segmente
de
anga(ai &de e*emplu# at)t pentru b$rbai# c)t "i pentru femei'
în scopul de a compara mai u"or aceste informaiiH
• dorim s$ creem o nou$ variabil$ pornind de la una sau mai multe
variabile de(a e*istente &de e*emplu# avem num$rul de ore
lucrate pe lun$ "i salariul orar# "i dorim s$ le înmulim
pentru a calcula salariul lunar'H
• dorim s$ transform$m o variabil$ numeric$ într+una categorial$
&de e*emplu# pentru a+i împ$ri pe anga(ai în trei grupuri3 cu
salarii mici# medii "i mari'H
1?
• dorim s$ sort$m datele dup$ un anumit criteriu &de e*emplu#
s$+i sort$m pe anga(ai în funcie de nivelul de educaie'.
-n continuare# vom vedea cum se rezolv$ efectiv problemele de acest
fel cu a(utorul facilit$ilor disponibile în programul SPSS. Uaza de
date folosit$ va fi# ca "i în capitolele precedente# Employee
data,sav,
ortarea datelor
,ste una din cele mai simple operaiuni cu datele. ,a ne permite s$
sort$m cazurile din baza de date# ascendent sau descendent# în
functie de variabila pe care am ales+o. ceast$ variabil$ poate fi
numeric$ sau categorial$.
Sortarea se realizeaz$ apel)nd comanda3
Data > Sort !ases
-n fereastra din dreapta a casetei de dialog se introduc
variabilele dup$ care se face sortarea. 7ac$ dorim# de e*emplu#
s$+i sort$m pe anga(ati dup$ saalriu "i categorie# un ordine
ascendent$'# vom selecta variabilele salar2 "i
obcat4 precum "i opiunea A7scendingB. Ja final# anga(aii
se vor reg$si grupai pe cele trei categorii profesionale
&funcionari# salariai# manageri'# iar în cadrul fiec$rei
categorii vor fi ierar%izai în ordinea cresc$toare a
salariilor.
Sortarea este util$# de e*emplu# dac$ dorim s$ aplic$m procedura
-xplore &vezi capitolul 4' pe un grup anume de
anga(ai – de e*emplu# cei care au salariul mai mic sau cel mult
egal cu =0000 de dolari pe an. Prin comanda 5ort .ases vom
ordona anga(aii dup$ salariu# în mod ascendent# iar apoi vom
rula procedura -xplore numai pentru acele cazuri care
îndeplinesc condiia noastr$.
electarea caz"rilor
S! presupunem în cele ce urmeaz$ c! ne intereseaz!# dintr+un anumit
motiv# s$ rul$m o serie de analize statistice numai pentru anga(aii
de se* masculin. -n acest caz va trebui ca din e"antion s! select!m
doar salariaii care aparin acestui grup. Pentru a face acest lucru
vom folosi comanda3
Data > Select !ases
SPSS+ul desc%ide o caset! de dialog pentru selectare. -n partea
dreapt! vom alege opiunea A0f condition is satisfiedB "i vom
ap!sa butonul 5f, Se desc%ide o nou! caset! în care vom
introduce condiia noastr! sub forma3
genderFBmB &a"adar# urmeaz! s! fie reinui doar
salariaii b!rbai'. p!s!m butonul !ontin"e "i apoi +4,
bserv!m c! acele cazuri din baza de date pentru care are loc
genderFBfB &a"adar# cele corespunz!toare
salariailor femei' au fost AbarateB &a"adar vor fi e*cluse de
la analiz!'. Yai mult# în partea din dreapta (os a ferestrei
SPSS+ului se poate citi meniunea A+ilter onB# ceea ce înseamn! c!
respectivei baze de date i+a fost aplicat un filtru.
S! calcul!m acum# cu titlu de e*emplu# coeficientul de corelaie
între salariul de început "i cel actual la nivelul unui acestui
AsegmentB al populaiei noastre – anga(aii b$rbai.
plic!m procedura pentru analiza corelaiei# a"a cum a fost
prezentat$ în capitolul @# "i obinem urm$torul rezultat3
40
Current Salary
Si(. 2:tailed %
1.000 .!60<<
Si(. 2:tailed %
25! 25!
<< Crrelatin i' 'i(ni*icant at t>e 0.01 level
2:tailed.
Se observ$ c$ num$rul total de cazuri pentru care a fost rulat$
analiza este de 4=; &a"adar# numai salariaii de se*
masculin'..
Pentru a înl$tura filtrul definit pentru o baz$ de date# atunci
c)nd nu mai avem nevoie de el# va trebui s$ apel$m din nou
comanda3
Data > Select Cases
-n caseta de dialog care apare se selecteaz! opiunea A7ll
casesB "i apoi se apas! butonul +4,
Divizarea fi.ier"l"i
S! presupunem c! într+o baz$ de date oarecare cazurile pot fi
împ$rite în 10 subgrupuri distincte# iar cercet$torul dore"te s$
ruleze o anumit$ analiz$ pentru fiecare subgrup în parte. 7ac$
ar folosi procedura de selectare a cazurilor# descris$
anterior# ar trebui s$ repete aceast$ procedur$ de 10 ori# ceea ce
ar fi incomod. Pentru a evita acest lucru# el poate utiliza o
comand$ de divizare a fi"ierului &Afile splitB' pus$ la
dispoziie de SPSS.
7ac$ este necesar$# de e*emplu# determinarea coeficientul de
corelaie dintre salariul iniial "i cel actual at)t pentru b$rbai#
c)t "i pentru femei# se va apela mai înt)i la comanda de divizare a
fi"ierului3
Data > Split File
pare din nou o caset! de dialog# în care vom selecta opiunea
A.ompare 1roupsB. -n fereastra denumit! A1roups Gased onB vom
introduce variabila gender . dat! ce ap!s!m butonul
+4 # vom observa c! în partea din dreapta (os a ferestrei SPSS
apare meniunea A5plit +ile HnB. Rul)nd din nou comanda pentru
analiza corelaiei obinem do"6 tabele# c)te unul pentru fiecare
subgrup analizat3
Gender = Female
1.000 .759<<
Si(. 2:tailed %
Si(. 2:tailed %
216 216
<< Crrelatin i' 'i(ni*icant at t>e 0.01 level
2:tailed. a ender ; Female
Gender = Male
Current Salary
Si(. 2: tailed
Si(. 2: tailed
.!60<< 1.000 .000 .
25! 25! << Crrelatin i' 'i(ni*icant at t>e 0.01
level 2:tailed. a ender ; &ale
tunci c)nd fi"ierul este AdivizatB în funcie de o anumit$
variabil$# toate analizele statistice vor fi rulate pe subgrupuri#
în funcie de valorile respectivei variabile.
Pentru a transforma un fi"ier AdivizatB într+unul normal# vom apela
din nou comanda plit File# iar în caseta de dialog vom alege
opiunea A7nal2*e all cases4 do not create groupsB.
Recodificarea varia#ilelor
Pot fi imaginate multe situaii în care este necesar s$ recodific$m
una dintre variabilele din baza de date. S$ ne g)ndim# de
e*emplu# la un posibil caz în care dorim s$ transform$m o variabil$
numeric$ într+una categorial$.
S! presupunem c! dorim s! constat$m dac! e*ist! o diferen!
semnificativ! între salariul mediu al lucr!torilor cu studii medii
&ma*im 14 ani' "i cel al lucr!torilor cu studii superioare
&peste 14 ani'. -ntruc)t variabila education nu este
categorial!# ci numeric!# va trebui s! o recodific!m. Pentru
aceasta vom e*ecuta comanda3
*rans,or' > &ecode > +nto Di,,erent -ariables
44
m ales opiunea A0nto Different !ariablesB deoarece dorim s$
p$str$m "i valorile iniiale ale variabilei respective. -n caz
contrar# am fi ales opiunea alternativ$ A0ntro 5ame
!ariablesB.
In fereastra principal! a casetei de dialog vom introduce variabila
pe care dorim s! o recodific!m – educ – iar în c)mpul din
dreapta introducem numele noii variabile create – o vom numi
educ= – "i apoi ap!s!m butonul !han&e pentru a salva
aceast! nou! variabil!. ,a va fi ulterior variabila dup! care
vom face gruparea în cadrul testului t . p!s!m apoi butonul
+ld and 'ew Val"es,
/oua caset! de dialog ne permite recodificarea valorii vec%ii
variabile. stfel# salariailor care au ma*im 14 ani de studii
le vom atribui codul 1# iar celor care au peste 14 ani le vom
atribui codul 4. 7up! terminarea operaiunii de recodificare ap!s!m
butonul !ontin"e "i apoi +4, SPSS+ul a salvat în baza de
date variabila educ=# care are numai dou! valori3 1 "i 4.
-n aceste condiii# este foarte u"or s$ rul$m testul
t pentru compararea mediilor a dou$ grupuri
independente# utiliz)nd pentru grupare noua variabil$ categorial$
educ=.
!alc"larea valorilor "nei noi varia#ile
-n cazul în care avem nevoie# pentru analiz$# de o variabil$ care
nu e*ist$ ca atare în baza de date# dar ale c$ror valori pot fi
calculate utiliz)nd variabilele e*istente# programul SPSS ne d$
posibilitatea de a obine aceast$ nou$ variabil$.
-n baza noastr$ de date e*ist$ dou$ variabile care se refer$ la
vec%imea anga(atului. ,ste vorba de obtime &vec%imea
la locul de munc$ actual' "i prevexp &e*periena
anterioar$'. mbele sunt e*primate în luni. S$ presupunem c$ dorim
s$ calcul$m e*periena total$ a anga(ailor# însum)nd pur "i simplu
valorile acestor dou$ variabile. Pentru aceasta apel$m
comanda3
*rans,or' > !o'pute
-n c)mpul din dreapta sus al casetei de dialog vom introduce
numele noii variabile &de e*emplu# exper '. poi vom
introduce în fereastra din dreapta e*presia de calcul a noii
variabile3 obtime I prevexp.
7up$ ce ap$s$m butonul +4 # programul creaz$ noua variabil$
exper .
2omanda !omp"te poate fi folosit$ "i în alte scopuri.
Programul ne pune la dispoziie un numar foarte mare de funcii
predefinite &circa M0'# funcii care pot fi utilizate cu
variabilele numerice# "ir de caractere sau dat$. 7e e*emplu# dac$
avem dou$ variabile# conin)nd prenumele "i numele anga(ailor# putem
utiliza funcia .H".7> &concatenare' pentru a
creea o nou$ variabil$ care s$ conin$ numele complet al
anga(atului.
Capitolul 6
Teste neparametrice
Lestele neparametrice reprezint$ o categorie aparte de teste
statistice# folosite în situatia în care datele implicate în
analiz$ sunt de tip categorial# cum ar fi se*ul# mediul de via!
&urbanrural'# tipul de cafea preferat etc.
Aspecte teoretice - recapit"lare
Lestele neparametrice pe care le vom studia la acest curs sunt3
testul binomial# testul %i p$trat# testul de normalitate
Oolmogorov+Smirnov# testele Yann+W%itneZ "i Wilco*on W pentru
compararea a dou$ e"antioane independente# testul Wilco*on >
pentru compararea a dou$ e"antioane perec%i. S$ le prezent$m
în continuare pe scurt.
1. Lestul binomial
cest test este folosit în cazul variabilelor categoriale care pot
lua doar dou! valori &cum ar fi# de e*emplu# se*ul'.
Rolul lui este de a compara proporia celor dou! valori în e"antion
cu proportia din populaia total! sau cu o alt! proporie
teoretic! dat!.
-ntruc)t# pentru un volum suficient de mare al e"antionului#
distribuia binomial$ poate fi apro*imat$ cu una normal$# testul
binomial se realizeaz$ cu a(utorul statisticii * .
5ormula de calcul a acesteia este3
n p p
π π
unde p este proporia observat$# iar J este
proporia teoretic$. aloarea calculat$ a statisticii
* se compar$ cu cea tabelar$ corespunz$toare
nivelului de semnificaie dorit de cercet$tor.
4. Lestul %i p$trat &
K= '
cest test se folos"te atunci c)nd studiem variabile categoriale
av)nd trei sau mai multe categorii. ,*ist$ dou$ tipuri de teste %i
p$trat3 univariat "i bivariat.
∑ =
− =
χ
unde cu Hi s+au notat valorile observate ale distribuie# iar
cu > i valorile teoretice. aloarea teoretic$ a
statisticii %i p$trat se caut$ în tabele corespunz$tor nivelului de
semnificaie ales
"i num$rului de grade de libertate &acesta este num$rul de
categorii al variabilei minus unu'. >estul hi pLtrat
bivariat este folosit pentru a studia leg$tura dintre
dou$ variabile categoriale.
Statistica se calculeaz$ cu formula3
∑∑ −
7ac$ aceast$ valoare este mai mare dec)t valoarea tabelar$
&teoretic$' vom putea afirma c$ e*ist$ o leg$tur$ între
variabilele studiateH în caz contrar# vom spune c$ ele sunt
independente.
Ja fel ca la testul %i p$trat bivariat# valoarea teoretic$ depinde
de nivelul de semnificaie "i num$rul de grade de libertate. cesta
din urm$ se determin$ cu relatia3 (6;$)(8;$)# unde
cu 6 "i 8 am notat num$rul de categorii
ale celor dou$ variabile.
@. Lestul de normalitate Oolmogorov+Smirnov
cest test compar$ o distribuie observat$ cu una normal$ "i ne spune
dac$ respectiva distribuie poate fi considerat$ normal$ sau
nu. paratul matematic utilizat pentru efectuarea acestui test este
destul de complicatH ca urmare# nu vom insista aici asupra
formulelor matematice.
E. Lestul Yann+W%itneZ &N' pentru compararea a dou$ e"antioane
independente
Lestul mann+W%itneZ este ec%ivalentul testului t pe
e"antioane independente studiat la capitolul E. ,l se utilizeaz!
atunci c)nd avem de+a face cu variabile ordinale.
Pentru a efectua testul Yann+W%itneZ se calculeaz$ doua valori ale
lui N# în felul urm$tor3
$ F n$n= I n$(n$ I $)<= N /$
= F n$n= I n=(n= I $)<= N /=
-n aceste formule# cu n s+au notal volumele e"antioanelor# iar
cu / sumele rangurilor pentru grupurile 1 "i 4#
respectiv &valorile celor dou$ grupuri se amestec$# sunt
ordonate cresc$tor# iar apoi rangurile sunt a atribuite încep)nd de
la 1'. Statistica se alege ca fiind cea mai mic$ dintre
valorile $ "i =. Se poate demonstra c$ aceast$
statistic$ urmeaz$ o repartiie apro*imativ normal$. Scorul
* se calculeaz$ cu formula3
M
M
c
M *
σ
µ − =
unde @ este media lui # iar este
abaterea sa p$tratic$. ,le se calculeaz$ astfel3
4
=. Lestul Wilco*on W
Lestul W al lui Wilco*on se folose"te în acela"i scop ca "i testul
# fiind o alternativ$ la acesta. Ja fel ca la testul
Yann+W%itneZ valorile celor dou$ grupuri se amestec$ "i se
ordoneaz$ cresc$tor# iar apoi sunt acordate rangurile încep)nd de
la 1 p)n$ la cel mai mare &suma volumelor e"antioanelor'.
/ici la acest test nu vom insista asupra formulelor matematice
folosite.
:. Lestul Wilco*on >
cest test# care mai poart$ "i denumirea de Atestul semnului "i al
ranguluiB este folosit pentru a determina dac$ dou$ e"antioane
dependente &perec%i' sunt diferite sau nu. 7in acest punct de
vedere este asem$n$tor cu testul t pentru e"antioanele
perec%i# dar se utilizeaz$ atunci c)nd variabila studiat$ este
ordinal$.
>
>
c
> t
σ
µ − =
Yedia "i abaterea p$tratic$ se calculeaz$ cu a(utorul e*presiilor
de mai (os &n este volumul e"antionului'3
E
'1& + =
Utilizarea pro&ram"l"i 3 pentr" testele neparametrice
-n cadrul acestei seciuni vom utiliza# al$turi de fi"ierul Employee
data,sav &cu care suntem de(a familiarizai'# alte dou$
baze de date Prima dintre ele este voter,sav# care conine date
înregistrate pe un e"antion de 1;EM de aleg!tori americani#
privitoare la alegerile prezideniale din 1??4 din SN. doua baz$ de
date este 7887 U,, General ocial "rvey,sav# unde g$sim rezultatele
unei anc%ete de opinie realizat$ în Statele Nnite în anul 1??1# pe
un e"antion de 1=1M persoane. Loate aceste baze de date conin
variabile categoriale "i ordinale utile scopului nostru.
0% >estul binomial
Pentru a demonstra aplicarea acestui test vom folosi fi"ierul
voter,sav. S! presupunem c! dorim s! verific!m dac! proporia
b!rbaifemei în acest e"antion de aleg!tori americani corespunde cu
cea presupus$ a fi înt)lnit! în populaia total! &=0=0'. om
utiliza comanda3
Analyze > .onpara'etric *ests > (ino'ial
-n fereastra A>est !ariable 8istB vom introduce
variabila sex. -n c)mpul A>est EroportionB
se afl! trecut! de(a valoarea 0.=0# reprezent)nd distribuia
teoretic! &=0=0' cu care vom compara distribuia din e"antion.
7ac! distribuia teoretic! este alta# vom sc%imba desigur variabila
din acest c)mp.
-n partea din st)nga (os a casetei de dialog se observ! un cadran
intitulat ADefine
Dichotom2B cu dou! opiuni3 A1et +rom DataB "i .ut
EointB. 7ac! variabila cu care lucr!m este una categorial!# va
r!m)ne selectat! prima opiune &cea implicit!'. 7ac! variabila
este cantitativ!# o putem transforma într+una categorial!
aleg)nd opiunea a doua "i indic)nd valoarea unde se face
4:
diviziunea dintre cele dou! categorii. 7e e*emplu# dac! s+ar pune
problema s! test!m proportia aleg!torilor în v)rst! de peste E0 de
ani# am alege opiunea A.ut EointB "i am introduce în c)mpul
respectiv valoarea E0.
dat! ce ap!s!m butonul +4 # SPSS+ul ne d! rezultatul
analizei3
inmial #e't Cate(ry % A='erved
Pr/. #e't Pr/. B'ym/.
ru/ 2 *emale 104 .56 #tal 1!47 1.00
a a'ed n D B//r8imatin.
Se poate observa c! din 1;EM de aleg!tori din e"antion# ;0E
&EEF' sunt b!rbai# iar 10E@ &=:F' sunt femei. Regula de
decizie este cea cunoscut!3 dac! valoarea lui ASig.B este mai mic!
dec)t nivelul de semnificaie ales &0.0='# atunci putem spune c!
e*ist! o diferen! semnificativ! între cele dou! proporii. ,ste "i
cazul nostru de fa!3 nu putem afirma c! proporia b!rbai femei din
e"antion o reproduce pe cea din populaia total! – femeile predomin!
într+o proporie semnificativ!.
00% >estul hi pLtrat univariat
Uaza de date folosit$ pentru acest test va fi tot voter,sav. 7orim
s! analiz!m acum distribuia inteniilor de vot pentru candidaii
2linton# Uus% sau Perot &variabila pres&='. Lestul %i
p$trat univariat ne va spune dac$ voturile tind a se îndrepta în
mod %ot$r)tor c$tre unul din candidai sau dac$# dimpotriv$# tind a
se împ$ri în mod egal între cei trei candidai. Pentru a rula acest
test apel!m comanda3
Analyze > .onpara'etric *ests > !/i)Suare
-n fereastra A>est !ariable 8istB introducem
variabile pres&=. bserv!m apoi c! în cadranul A-xpected
!aluesB ni se d! posibilitatea s! definim distribuia
teoretic! cu care vom face comparaia. 7ac! dorim ca ea s! fie o
ec%irepartiie# vom selecta opiunea A7ll .ategories -,ualB
&aceasta corespunde cazului teoretic în care inteniile de vot
s+ar împ!ri egal între cei trei candidai'. -n caz contrar# vom
introduce pe r)nd valorile distribuiei teoretice folosind opiunea
A!aluesB.
p!s)nd butonul +4 obinem3
% )8/ected
% e'idual
Clintn 90! 615.7 292. #tal 1!47
#e't Stati'tic' VA#) FA C%#A%,
SE, P)A# C>i:Square 27.41
4M
Si(. .000
a 0 cell' .03 >ave e8/ected *requencie' le'' t>an 5.
#>e minimum e8/ected cell *requency i' 615.7.
-n primul tabel observ!m valorile distribuiei reale &coloana a
doua'# cele ale distribuiei teoretice# care sunt egale &coloana
a treia'# precum "i diferenele dintre ele.
-n tabelul al doilea avem datele analizei. aloarea lui %i p!trat
este @4M.@E1# iar num!rul de grade de libertate este 4 &numarul
categoriilor variabilei minus unu'. -ntruc)t ASig.B este mai mic
dec)t 0.0=# putem spune c! între cele dou! distribuii e*ist!
diferene semnificative. 2u alte cuvinte# inteniile de vot n"
tind a se împ!ri egal între candidaiH p!rerea lor este de(a
format!# iar ma(oritatea opiunilor merg spre Uill 2linton#
dup! cum se poate observa din primul tabel.
000% >estul hi pLtrat bivariat
-n cele ce urmeaz$# vom desc%ide fi"ierul Employee data,sav "i
vom studia relaia dintre variabilele gender "i
obcat &categoria anga(atului'. -ntruc)t ambele
variabile sunt categoriale va trebui s$ folosim testul %i p$trat
bivariat pentru a ne atinge scopul. Pentru aceasta vom cere
programului s$ realizeze un tabel încruci"at# cu a(utorul
comenzii &vezi capitolul 4'3
Analyze > Descriptive Statistics > !rosstabs
p$s$m butonul tatistics# iar în noua caset$ de dialog care se
desc%ide select$m opiunea .hi;s,uare. Rezultatele analizei se
g$sesc în tabelele ce urmeaz$.
ender < )m/lyment Cate(ry Cr''ta=ulatin Cunt
)m/lyment Cate(ry
ieli>d ati 95.46 2 .000 % * Valid Ca'e' 474
a 0 cell' .03 >ave e8/ected cunt le'' t>an 5. #>e minimum
e8/ected cunt i' 12.0.
4;
7in cel de+al doilea tabel ne intereseaz$ cu prec$dere prima linie#
care prezint$ rezultatele testului %i patrat. -ntruc)t valoarea
ASigB este mai mic$ dec)t 0.0=# vom deduce c$ e*ist$ o leg$tur$
între cele dou$ variabile. "adar# b$rbaii si femeile nu sunt
repartizai proporional pe cele trei categorii profesionale
&funcionari# paznici "i manageri'.
0!% >estul de normalitate 6olmogorov;5mirnov
S! ne întoarcem la baza de date voter,sav. Problema pe care ne+o
punem acum este dac$ variabila educ &nivelul studiilor
respondenilor# e*primat în ani' se prezint$ sub forma unei
distribuii normale. Pentru aceasta vom apela comanda3
Analyze > .onpara'etric *ests > 0 Sa'ple
#)S
-n caseta de dialog desc%is$ vom introduce variabila educ ca
variabil$ de analiz$. -n c%enarul A>est DistributionB este
de(a selectat$ distribuia normal$H ap$s$m a"adar butonul
+4 "i obinem urm$torul tabel3
Ane:Sam/le lm(rv:Smirnv #e't EE)S# )B AF
SCEAA CA&P)#)+ % 1!45
+eviatin 2.!4
&'t )8treme +i**erence' B='lute .14 P'itive .14
%e(ative :.1
lm(rv:Smirnv D 5.749 B'ym/. Si(. 2:tailed .000
a #e't di'tri=utin i' %rmal. = Calculated *rm data.
Interpretarea datelor din acest tabel se va face la ora de
seminar.
!% >estul Mann;Ohitne2 pentru eantioane independente
om folosi în continuare baza de date voter,sav. om presupune c$ ne
intereseaz$ dac! b!rbaii "i femeile din e"antion difer! în
mod semnificativ între ei sub aspectul studiilor. Pentru aceasta
vom folosi variabila degree# care este una ordinal! &0
corespunde sudiilor medii# iar E studiilor superioare'. om apela
comanda3
Analyze > .onpara'etric *ests > 1 +ndependent
Sa'ples
-n fereastra A>est !ariable 8istB introducem variabile
degree# iar în c)mpul A1rouping
!ariableB variabila sex. poi ap!s!m butonul Define
Gro"ps "i definim cele dou! grupuri e*act cum am f!cut pentru
testul t bivariat pentru e"antioane independente &vezi
capitolul @'. -n cadranul A>est >2peB este de(a selectat
testul Yann+W%itneZ &N'# a"a înc)t ap!s!m butonul +4 "i
obinem3
#e't Stati'tic'
Gilc8n G 9594!.000 D :.92
B'ym/. Si(. 2:tailed .51 a ru/in( Varia=leH )SPA%+)%#S
S)
cest tabel este cel mai important pentru analiz!# deoarece ne d!
semnificaia testului. Se observ$ c$ programul ne furnizeaz$ "i
valoarea testului O al lui Wilco*on. Regula de decizie
este cea cu care ne+am obisnuit de(a3 trebuie s! compar!m valoarea
lui ASig.B cu cea a nivelului de semnificaie ales de noi
&0.0='. -ntruc)t aici avem 0.@=160.0=# vom tage concluzia c!
b!rbaii si femeile nu difer! între ei în ceea ce prive"te nivelul
de educaie. 7ac! diferena ar fi fost semnificativ!# atunci sensul
ei ar fi fost dat de semnul notei P de pe r)ndul
patru al tabelului.
!0% >estul Oilcoxon P pentru eantioane perechi
Pentru a e*emplifica acest test vom desc%ide fi"ierul 7887 U,,
General ocial "rvey,sav. om lua în considerare urm$toarele
variabile din baza de date3 obe2 &c)t de important$ este
pentru respondent supunerea# ascultarea de autorit$i' "i
popular &c)t de important este faptul de a fi
popular# de a fi iubit "i apreciat'. 7orim s$ vedem dac$
e*ist$ o diferen$ untre aceste dou$ variabile atitudinale.
7eoarece aici nu avem de+a face cu variabile cantitative# ci mai
degrab$ ordinale# este necesar s$ apel$m la testul semnului "i al
rangului &testul P al lui Wilco*on' pentru a
rezolva problema. 2omanda utilizat$ este3
Analyze > .onpara'etric *ests > 1 &elated
Sa'ples
Ja fel ca la testul t pe e"antioane perec%i
&capitolul E'# trebuie s$ introducem în fereastra din dreapta a
casetei de dialog perec%ile de variabile care fac obiectul
comparaiei &în cazul nostru# obe2
N popular '. Se observ$ c$ un caseta A>est
>2peB este de(a selectat testul ilco*on# singurul care ne
intereseaz$ în acest moment. p$s)nd butonul +4 obinem
urm$torul rezultat3
an' % &ean
A=ey
P'itive an' 777 52.00 4165.00 #ie' 0
#tal 9!2
#e't Stati'tic' # e Gell ied r P/ular : # A=ey
D :19.742 B'ym/. Si(. 2:tailed .000
Interpretarea în detaliu a tabelelor o vom face la seminar. ici vom
observa doar c$ e*ist$ o diferen$ semnificativ$ între cele dou$
variabile &statistica ASigB este mai mic$ dec)t 0.0='.
Sensul
@0
diferenei este dat de semnul scorului P . Se observ$ c$
acest semn este minus. -ntruc)t pentru fiecare din cei doi itemi
scorul cre"te pe m$sur$ ce importana scade &1 – cel mai
important# = – cel mai puin important' deducem c$ pentru
americani este mai important a fi popular dec)t a te supune în faa
autorit$ilor.
Capitolul
Populaie i eantion
-n "tiinele sociale# populaia total! supus! studiului are cel mai
adesea dimensiuni foarte mari – de ordinul miilor# sutelor de mii
sau c%iar milioanelor de unit!i &aceste unit$i pot fi persoane
individuale# familiigospod$rii sau organizaii'. -ntruc)t efectuarea
unor studii pe întreaga populaie ar fi foarte costisitoare# se
apeleaz! de regul! la cercet!rile statistice conduse pe un e"antion
de volum mult mai redus dec)t cel al populaiei totale.
7ou! probleme se pot pune în leg!tur! cu e"antionarea3 +
determinarea erorii de estimare a unui parametru &de regul!
media unei variabile'# pe care
ne+o permite un e"antion dat "i + stabilirea volumului e"antionului
care permite estimarea parametrului cu o eroare ma*im!
impus!.
S! presupunem c! dintr+o populaie total! format! din
" unit!i se e*trage un e"antion de volum n. Yodul
de calcul al indicatorilor statistici# at)t pentru populaia total!
c)t "i pentru e"antion# este prezentat în tabelul
urm!tor3
!aracteristic/ nealternativ/
!aracteristic/ alternativ/
Populaia total! &/' ,"antion &n' Yedia3
π &frecvena de apariie a st!rii AdaB sau 1 în populaia
total!'
7ispersia3 '1&4 π π σ −=
Yedia3 p &frecvena de apariie a st!rii AdaB sau 1 în
e"antion'
7ispersia3 s4[p&1+p'
@1
Ta#el"l 7, Parametrii populaiei "i cei ai e"antionului
Se observ! c! pentru a nota parametrii populaiei totale am folosit
caractere grece"ti# iar pentru cei ai e"antionului
caractere latine.
Yedia e"antionului m este un estimator &mai mult sau mai
puin precis' pentru media populaiei totale \# care de regul!
nu este cunoscut!. 7iferena ,[m+ \ poart! numele de eroare de
estimare. Pe aceasta ne intereseaz! s! o determin!m.
Leoria statistic! ne spune c! dac! o variabil! are o distribuie
normal! de medie \ "i dispersie D4# atunci mediile &m' ale
e"antioanelor de volum dat n vor avea tot o distribuie normal!# de
medie \ "i dispersie D4n &aceasta poart! numele de dispersie de
selec1ie9, Proprietatea aceasta este foarte important! pentru
e"antionare.
S! reprezent!m curba normal! a distribuiei mediilor e"antioanelor
de volum n3
Fi&"ra 7, 2urba normal! a distribuiei mediilor e"antioanelor de
volum n
,roarea de estimare , este de regul! fi*at! &impus!' de c!tre
cercet!tor. Intervalul simetric &\ –,# \ G,' poart! numele de
interval de 2ncredere, ria suprafaei de sub bolta curbei lui
auss care corespunde acestui interval se nume"te nivel de
2ncredere, /ivelul de încredere ne arat! cu ce
probabilitate garant!m estimarea noastr!. -n "tiinele sociale
se folose"te de obicei un nivel de încredere de ?=F# ceea ce
înseamn! c! putem garanta în proporie de ?=F c! eroarea de estimare
nu va dep!"i nivelul , fi*at. 2u alte cuvinte# e*ist! un risc de =F
ca eroarea real! s! dep!"easc! aceast! limit!. cest risc mai poart!
denumirea de nivel de semnifica1ie al studiului.
2um vom estima eroarea în condiiile în care nu+l cunoa"tem pe \C
5!c)nd apel la scorurile *
. Pentru media m a unui e"antion oarecare#
scorul * se calculeaz! astfel3
n
m *
Wσ
µ − =
@4
-ntruc)t dispersia populaiei totale nu este de regul! cunoscut!# ea
se estimeaz! cu a(utorul unei anc%ete preliminare pe un e"antion
pilot de @0+400 de persoane. Se presupune c! dispersia
s= a acestui e"antion apro*imeaz! dispersia
= a populaiei. -n acest caz putem rescrie ultima
formul!3
n s
m *
W
µ − =
7e aici putem determina cu u"urin! eroarea m; @ pe care n+o
asigur! un e"antion de volum dat n3
n
s * - =
-n ceea ce+l prive"te pe * # îl vom prelua din tabelele
statistice. preciz!m c! vom folosi în e*emplele noastre un nivel de
încredere al cercet!rii de ?=.EEF# c!ruia îi corespunde o valoare
z[4.
7ac! dorim s! estim!m media populaiei cu o eroare ma*im! admisibil!
,# volumul e"antionului necesar pentru aceasta se calculeaz! cu
urm!toarea formul! &dedus! din cea anterioar!'3
4
44
s * n =
-n cazul în care avem de+a face cu o caracteristic$ alternativ$#
formula este aceea"iH se sc%imb$ doar modalitatea de calcul a
dispersiei &vezi tabelul 1'3
4
− =
S! d$m acum dou$ e*emple concrete de calcul al volumului
e"antionului3 unul pentru caracteristicile cantitative# altul
pentru cele alternative.
,*emplul 1
S! presupunem c! din cei =000 de lucr!tori ai unei mari companii se
e*trag în mod aleator 100. Yedia de v)rst! a e"antionului
e*tras &m' este de EE de ani# iar abaterea medie p!tratic!
& s' de 1= ani. Se pune întrebarea care este eroarea cu
care media acestui e"antion estimeaz! media de v)rst! a
lucr!torilor din companie# cu un nivel de încredere de ?=.EEF
&z[4'.
Nn calcul simplu# cu a(utorul formulei de determinare a erorii
prezentate mai sus# ne arat! c! aceast! eroare este de @ ani.
"adar# putem spune c! media de v)rst! a lucr!torilor este situat!
între E1 "i EM de ani &EE]@'# cu un nivel de încredere de
?=.EEF.
7ac! aceast! eroare de @ ani este mult prea mare "i nu poate fi
tolerat$# va trebui s$ m$rim volumul e"antionului. S! presupunem c!
se dore"te estimarea v)rstei medii a lucr!torilor cu o eroare
ma*im! admisibil! & - ' de numai 1 an.
@@
,*emplul 4
Ja fel ca la e*emplul 1# desf$"ur$m studiul nostru într+o companie
cu =000 de anga(ai# din care alegem la înt)mplare 100. 7intre
ace"tia# :4 sunt c$s$torii &:4F'# iar @; nec$s$torii. plic)nd
formula de calcul a erorii# a(ungem la concluzia c$ acest e"antion
apro*imeaz$ procenta(ul anga(ailor c$s$torii cu o eroare de ]?.MF
&=4.@F+M1.MF'. 7ac$ dorim o eroare de estimare mai redus$# de
e*emplu =F# volumul e"antionului de studiu trebuie s$ fie de @MM de
anga(ai.
E.antionarea aleatoare 2n 3
7ac$ dorim ca dintr+o baz$ de date de mari dimensiuni s$ e*tragem
un mod aleatoriu un num$r de cazuri# putem face acest lucru cu
a(utorul comenzii de filtrare cunoscute3
Data > Select !ases
-n caseta de dialog pe care ne+o prezint$ programul select$m
opiunea /andom sample of
cases "i ap$s$m butonul ample. Se desc%ide o nou$ caset$# în
care ni se ofer$ dou$ posibilit$i3 • s$ e*tragem un anumit procent
din totalul cazurilor • s$ e*tragem un num$r e*act de cazuri.
7up$ ce ne e*prim$m opiunea# SPSS+ul alege în mod aleator cazurile
care din e"antion "i le
Abareaz$B pe cele e*cluse. S$ presupunem c$ dorim s$ e*tragem
aleatoriu circa 4=F cei EME anga(ai din fi"ierul
Employee data,sav. -n urma efectu$rii pa"ilor descri"i mai sus#
SPSS+ul a selectat circa 11; cazuri din total. Loate analizele
statisitce vor fi rulate acum doar pentru aceste cazuri.
Pentru a elimina filtrul# proced$m a"a cum am ar$tat la capitolul
=3 e*ecut$m din nou comanda Data ( elect !ases "i alegem
opiunea 7ll cases.
Capitolul !
Aspecte teoretice - recapit"lare
naliza de regresie studiaz! leg!tura dintre o variabil!
dependent "i una sau mai multe variabile independente# prin
intermediul unei ecuaii de regresie. -n cadrul cursului de fa$ vom
discuta doar despre regresia liniarL # a c$rei ecuaie are
forma3
e xb xb xbb 2 k k +++++=
...44110
unde3
@E
+ Z este variabila dependent &numit! "i cau*at sau
endogen'H + *1# 8# *^ sunt variabilele
independente &numite "i cau*ale sau exogene'H +
b0 este a"a+numitul Atermen liberBH + b1# 8#
b^ sunt coeficienii &sau parametrii' de
regresieH + e este numit! variabil re*idual sau de perturbaie.
pariia sa în modelele de regresie se
datoareaz! faptului c! relaia dintre variabila dependent! "i cele
independente nu este una strict!# determinist!# ci una statistic!.
Pentru fiecare unitate din e"antion# variabila rezidual! se
calculeaz! ca diferen! între valoarea real &sau observat'
a lui Z "i cea calculat &sau estimat' prin ecuaia de
regresie de mai sus. ariabila e Acolecteaz!B a"adar influenele
tuturor factorilor necunoscui sau înt)mpl!tori# dificil de estimat#
precum "i erorile de m!surare.
Loate variabilele care intervin într+o analiz$ de regresie sunt
variabile cantitative &metrice'. 7ac! e*ist$ o singur!
variabil! independent! în model# vorbim de o regresie simpl# iar
dac! intervin dou! sau mai multe variabile independente avem de+a
face cu o regresie multipl.
Rezultatele cele mai importante ale unei analize de regresie
sunt3
+ coeficienii &sau parametrii de regresie'. ce"tia ne
arat! cu c)t se modific! variabila dependent! în urma modific!rii
cu o unitate a uneia din variabilele independente.
+ coeficientul de corelaie multipl ¬at R 4'# care
ne arat! procenta(ul din variaia lui Z care este Ae*plicatB de
influena variabilelor independente. 7e pild!# o valoare a lui
R 4 de 0.?0 ne indic! faptul c! evoluia variabilei Z este
determinat$ în proporie de ?0F de variabilele independente *1# 8#
*^ # iar restul de 10F se e*plic! prin alte influene# neluate
în considerare în model.
+ valoarea testului + . cest test verific$ e*istena unei
dependene liniare între variabila 2 "i variabilele
independente. -n cazul în care testul + este
nesemnificativ# leg$tura ar putea s$ nu fie liniar$.
+ valoarea testelor de semnificaie pentru coeficienii de
regresie. 7ac! parametrul de regresie al uneia din variabilele
independente nu difer! semnificativ de 0# este posibil ca variabila
respectiv! s! fie redundant!.
-ntr+o serie de situaii particulare# pot fi introduse în modelel de
regresie "i anumite variabile calitative &nemetrice'# "i anume
variabilele de tip dumm2. variabil! dummZ este o variabil!
care poate lua doar dou! valori &danu# b!rbaifemei# mediu
urbanmediu rural etc.'# notate convenional cu 1 "i 0. 7esigur# ar
putea fi folosite oricare alte cifre pentru a nota valorile unei
variabile dummZ# dar acest lucru ar duce la o serie de
inconveniente. asemenea variabil! poate fi utilizat! într+o ecuaie
de regresie în acela"i mod ca o variabil$ cantitativ$.
Analiza de re&resie 2n 3
-n e*emplul de analiz! de regresie ce urmeaz$ vom folosi tot baza
de date Employee data,sav, 2a variabil! dependent! vom
considera salariul actual & salar2'# iar ca variabile
independente salariul de început & salbegin'# vec%imea în
banc! & obtime' "i nivelul de educaie &educ'. Pentru a
rula analiza de regresie vom apela comanda3
Analyze > &e2ression > 3inear
-n c)mpul ADependentB introducem variabila salar2# iar
în c)mpul A0ndependent(s)B
introducem cele trei variabile independente. p!s!m
+4 pentru a rula analiza.
Iat! tabelele de output care ne intereseaz!3
&del Summary &del Square BdIu'ted
Square Std. )rrr * t>e
)'timate 1 .!95 .!01 .!00 $7,646.00
a Predictr'H Cn'tant, )ducatinal evel year', &nt>'
'ince Eire, e(innin( Salary = +e/endent Varia=leH Current
Salary
-n acest tabel ne este prezentat un sumar al analizei. 2ea mai
interesant! pentru noi este penultima coloan!# unde putem
vedea coeficientul de corelaie multipl!# egal cu 0.;0 pentru
aceast! analiz!. ceasta înseamn! c! salariul curent al unui
lucr!tor este determinat în proporie de ;0F de cele trei variabile
independente "i în proporie de 40F de alte influene# neluate în
calcul aici.
B%AVB &del Sum *
6!1214 46.50!
47
a Predictr'H Cn'tant, )ducatinal evel year', &nt>' 'ince
Eire, e(innin( Salary = +e/endent Varia=leH Current Salary
cest tabel ne prezint! rezultatele analizei / pentru modelul nostru
de regresie. 7up$ cum spuneam în seciunea anterioara# testul
+ ne arat$ dac! ipoteza relaiei liniare între
variabilele noastre este corect!. Regula de decizie este simpl!3
ipoteza relaiei liniare este corect! dac! valoarea factorului
ASig.B din ultima coloan! este mai mic/ dec)t nivelul de
semnificaie ales de noi &0.0='. -n caz contrar# va trebui s!
lu!m în considerare construirea unui alt tip de relaii
&neliniar!' între variabilele în cauz!.
Ce**icient' n'tandar
diJed Ce**icient
199!6.502 26.616 :6.175 .000
e(innin( Salary
&nt>' 'ince Eire
)ducatin al evel
@:
year' a +e/endent Varia=leH Current Salary
7in acest tabel ne intereseaz! cu prec!dere dou! coloane3 cea a
coeficienilor &a treia' "i cea a valorii testelor de
semnificaie pentru coeficieni &ultima'. ici putem observa c!
toi coeficienii sunt semnificativi &valorile factorilor ASig.B
sunt mai mici dec)t 0.0='. ,cuaia noastr! de regresie se scrie
astfel3
salar2 F ;$&&Q'%RS= I $%'Q& salbegin I $RR%TS$
obtime I &''%$ST educ I e
Pe baza acestei ecuaii putem face diverse analize asupra variabilei
dependente &salariul curent'# în funcie de ceea ce ne
intereseaz! mai mult. stfel# putem constata c!3
+ dac! doi lucr!tori au aceea"i vec%ime în banc! "i acela"i nivel
de educaie# dar unul "i+a început slu(ba cu un salariu cu 1000 de
dolari mai mare# acesta din urm! va avea acum &în medie' un
salariu anual cu 1:;? dolari mai mare dec)t cel!laltH
+ un lucr!tor care are o vec%ime mai mare cu 10 luni dec)t cel!lalt
va avea un salariu cu cca 1==M de dolari mai mare# dac! toate
celelalte &salariul iniial "i nivelul de educaie' sunt
acelea"iH
+ orice an în plus ad!ugat la nivelul de educaie se traduce într+un
spor mediu de salariu de cca ?:: dolari.
e'idual' Stati'tic' &inimum &a8imum &ean Std.
+eviatin %
Predicted Value $16,662.55 $145,55.69 $4,419.57 $15,200.1 474
e'idual :$29,5!0.6 $49,21!.41 $.00 $7,7!0.02 474
Std. Predicted Value
:1.16! 7.29! .000 1.000 474
S$ introducem acum în nodelul nostru o variabil$ de tip dumm2.
Pentru aceasta vom transforma prin recodificare variabila
gender în variabila dummZ gendum# care are
valorile 1 pentru b!rbai "i 0 pentru femei. poi vom rula din
nou analiza de regresie# introduc)nd variabila gendum
al!turi de cele dou$ variabile independente iniiale. Labelele de
output sunt urm!toarele3
&del Summary &del Square BdIu'ted
Square Std. )rrr * t>e
)'timate 1 .!96 .!02 .!00 $7,61.6!
a Predictr'H Cn'tant, )%+&, &nt>' 'ince Eire,
)ducatinal evel year', e(innin( Salary
= +e/endent Varia=leH Current Salary
B%AVB &del Sum *
47
a Predictr'H Cn'tant, )%+&, &nt>' 'ince Eire, )ducatinal
evel year', e(innin( Salary
= +e/endent Varia=leH Current Salary
Ce**icient' n'tandar
diJed Ce**icient
19455.!2! 246.2!2 :5.99 .000
&nt>' 'ince Eire
)ducatin al evel year'
942.16 15!.2!6 .159 5.952 .000
)%+& 125.7!7 797.4 .09 1.66 .097
7in punctul de vedere al preciziei modelului# introducerea
variabilei gendum nu aduce nici o îmbun!t!ire3
R 4 este acela"i. Ipoteza liniarit!ii modelului se
verific! &tabelul al doilea'# în sc%imb coeficientul
variabilei gendum nu este semnificativ &tabelul al
treilea# coloana ASig.B# ultimul r)nd'. 7ac! accept!m totu"i
variabila gendum ca variabil! independent!# putem
deduce din valoarea coeficientului s!u c! b!rbaii au în medie un
salariu cu cca 1@4: dolari mai mare dec)t femeile.
Capitolul %
Aspecte teoretice - recapit"lare
naliza de varian$ este o procedur$ statistic$ folosit$ pentru a
studia relaia între o variabil$ dependent$ cantitativ$ "i una sau
mai multe variabile independente calitative &categoriale'. ,a
se mai nume"te "i analiz! dispersional! sau# prescurtat# /
&acronim de la cuvintele engleze"ti A'alZsis +f
VAriance'.
tunci c)nd în model este inclus$ o singur$ variabil$ independent$
&numit$ "i factor ' vorbim de / unifactorial$# iar
dac$ avem doi sau mai muli factori atunci ne afl$m în faa unui
model / multifactorial. om trata aceste dou$ tipuri de analiz$ de
varian$ separat.
1. / unifactorial$
naliza de varian! unifactorial$ descompune variana &sau
dispersia' populaiei studiate în dou! componente3
+ variana inter;grupuri &between groups variance'#
cauzat! de diferenele care e*ist! între mediile grupurilor din
populaia total! &grupuri care sunt de fapt categoriile
factorilor'H
+ variana intra;grupuri &within groups variance' care ne
arat! c)t de dispersate sunt# în medie# valorile individuale ale
variabilei în cadrul fiecarui grup. 2u c)t valoarea raportului
dintre variana inter+grupuri "i cea intra+grupuri este mai mare
cu
at)t mai mare este influena factorului asupra variabilei
independente. ceast$ influen$ se e*prim$ în mod concret prin
diferenele semnificative dintre mediile pe grupuri ale variabilei
dependente. cest raport se testeaz! statistic utiliz)nd testul 5#
denumit astfel dup! numele statisticianului britanic Ronald
5is%er# creatorul s!u.
Lestul 5 ne indic$ faptul c$ e*ist$ probabil diferene între
nivelele factorilor# dar nu ne spune unde se g$sesc aceste diferene
"i c)t de mari sunt ele. 7e asemenea# el nu ne ofer$ o ordonare a
nivelelor factorilor dup$ influena lor asupra vaiabilei
dependente.
ceast$ problem$ poate fi rezolvat$ introduc)nd noiunea de contrast.
2ontrastul# notat aici cu O# este definit ca o combinatie liniar$ a
mediilor grupurilor &nivelelor factorilor'.
∑= ii mc 6
unde cu m sunt notate mediile grupului# iar cu
c reprezint$ ni"te ponderi care îndeplinesc relaia3
0=∑ ic
Pentru a înelege cum se stabilesc ponderile la definirea unui
contrast# vom apela la un e*emplu. S$ presupunem c$ variabila
categorial$ implicat$ în model are trei nivele# mediile fiec$rui
nivel fiind m$# m= "i mU. 7orim s$ studiem diferena dintre
primele dou$ grupuri# luate împreun$# "i grupul al treilea. Ipoteza
nul$# care afirm$ c$ între aceste grupuri nu e*ist$ nici o
diferen$# se e*prim$ prin relaia3
0 4
04 @41 =−+ mmm
"adar# primelor dou$ grupuri le va fi atribuit$ ponderea 1# iar
grupului al treilea ponderea +4. Suma ponderilor este# desigur#
zero.
@?
ames+_oell'. Pentru a "ti ce teste trebuie folosite# programul SPSS
ne ofer$ rezultatul testului 5 al lui Jevene pentru egalitatea
varianelor.
-n cadrul orelor de seminar vom demonstra în detaliu modul de
utilizare a procedurilor SPSS pentru / unifactorial$.
4. / multifactorial$
ceast$ te%nic$ de analiz$ a datelor se folose"te atunci c)nd avem
de studiat leg$tura dintre o variabil$ dependent$ numeric$ "i dou$
sau mai multe variabile independente categoriale &factori'.
5actorii ce intervin în aceast$ analiz$ pot fi de dou$
tipuri3
+ factori fici4 al c$ror efect poate fi controlatH +
factori aleatori# al c$ror efect este incontrolabil.
l$turi de factori# în model pot ap$rea "i covariatele. ceste
covariate sunt variabile de tip numeric presupuse a fi corelate cu
variabila dependent$. Prin introducerea covariatelor se verific$
dac$ factorii fic"i au influen$ asupra variabilei dependente
indiferent de aciunea factorilor covariani.
Nn model de analiz$ / multifactorial poate fi de dou$ feluri3 +
complet & full factorial '# atunci c)nd conine toate
efectele posibile "i toate
combinaiile de factoriH + modificat &custom'# atunci c)nd# un
vederea simplific$rii modelului# sunt luate în
considerare numai efectele unor anumii factori sau combinaii de
factori. ,fectele studiate în cadrul unui model pot fi3
+ efecte principaleH + efecte ale interaciunii dintre
variabile.
2a "i în cazul modelului unifactorial# este posibil$ determinarea
diferenelor dintre nivelele factorilor# cu a(utorul contrastului.
-n programul SPSS sunt disponibile urm$toarele tipuri de
contraste3
+ DeviationV compar$ media fiec$rui nivel cu media
general$. /ivelurile factorilor pot fi în orice ordineH
+ 5impleV compar$ media fiec$rui nivel cu media unui nivel
specificat. cest tip de comparaii este util atunci c)nd e*ist$ un
grup de control. Se poate alege ca grup de referin$ primul sau
ultimulH
+ Difference: compar$ media fiecarui nivel &cu e*cepia
primului' cu cea a nivelelor anterioareH
+ WelmertV compara media fiec$rui nivel &cu e*cepia
ultimului' cu cea a nivelelor urm$toareH +
/epeatetV compar$ media fiec$rui nivel &cu e*ceptia
ultimului' cu cea a nivelului urm$torH + Eol2nomia