Mediul de Lucru SPSS

Mediul de lucru SPSS
Rolul acestui scurt capitol introductiv este acela de a readuce în memoria studentului principalele comenzi din programul statistic SPSS – programul cu care se va lucra în cadrul cursului de Metode cantitative.
Informaiile cuprinse în acest curs fac referire la versiunea SPSS 10.0 sub Windos. Pornim desigur de la premisa c! toi studenii "tiu s! utilizeze sistemul de operare Windos# fie "i numai la nivel elementar.
Programul SPSS 10.0 conine zece meniuri. Prezent$m în continuare coninutul fiec$ruia dintre acestea.
File – cuprinde în special comenzile utilizate pentru crearea unor documente noi "i desc%iderea sau salvarea documentelor create anterior
Edit – cuprinde comenzile utilizate pentru editarea documentelor &"tergere# copiere# lipire etc.'
View – din acest meniu se pot seta caracteristicile vizuale ale documentelor Data – cu a(utorul comenzilor acestui meniu se realizeaz! o serie de operaiuni de baz!
asupra datelor statistice &inserare# sortare# agregare# fuzionare fi"iere etc.' Transform – cuprinde comenzi utilizate pentru transform!ri &cantitative sau calitative' ale
datelor &crearea de noi variabile plec)nd de la cele e*istente# recodificarea datelor# ierar%izarea datelor etc.'
Analyze – în acest meniu se g$sesc toate comenzile necesare pentru realizarea analizelor statistice
Graphs – este meniul în care se g$sesc comenzile pentru grafice &SPSS permite realizarea c)torva zeci de tipuri de grafice'
Utilities – este un meniu pe care nu+l vom folosi la acest curs. ,l cuprinde în special comenzi care permit automatizarea facilit!ilor din SPSS
Window – permite manipularea ferestrelor în care este desc%is programul SPSS Help – asigur! accesul la asistena &a(utorul' pentru utilizatori
-ntruc)t meniul Analyze va fi de departe cel mai utilizat în cadrul acestui curs# vom detalia în continuare comenzile e*istente în acest meniu.
Reports – este un submeniu care conine comenzi pentru elaborarea rapoartelor sintetice asupra datelor
Descriptive tatistics – comenzile din acest submeniu se folosesc în principal pentru generarea indicatorilor statistici pentru variabilele studiate
!"stom Ta#les – submeniu folosit atunci c)nd dorim sa construim tabele pornind de la datele dintr+un fi"ier
1
!ompare $eans – submeniu folosit pentru realizarea testelor de comparare a mediilor &Student# / univariat$'
General %inear $odel – comenzile din acest submeniu servesc la e*ecutarea analizei / multivariat$
!orrelate – cuprinde comenzile pentru studierea corelaiei bivariate "i pariale dintre variabile
Re&ression – submeniu util pentru realizarea diverselor tipuri de analiz$ de regresie &liniar$ "i neliniar$'
%o&linear – cuprinde comenzi utlie pentru analizele de regresie de tip logaritmic !lassify – cuprinde procedurile utilizate pentru gruparea obiectelor din baza de date &analiza
de tip cluster # analiza discriminantului' Data Red"ction – cuprinde procedurile utilizate pentru gruparea variabilelor studiate
&analiza factorial$# analiza corespondenelor' cale – cuprinde proceduri avansate pentru lucrul cu scalele de m$surare &scalarea
multidimensional$# analiza încrederii' 'onparametric Tests – a"a cum îi arat$ numele# acest submeniu grupeaz$ toate testele
neparametrice &binomial# %i p$trat# Wilco*on etc.' Time eries – cuprinde procedurile de analiz$ a seriilor de timp "rvival – cuprinde procedurile utilizate în analizele de supravieuire $"ltiple Response – cu a(utorul comenzilor din acest submeniu sunt gestionate datele
provenind din întreb$rile cu r$spunsuri multiple $issin& Val"e Analysis – procedura utilizat$ pentru analiza valorilor lips$
2omenzile pentru gestionarea fi"ierelor în SPSS sunt foarte asem$n$toare cu cele din orice aplicaie Windos. stfel# pentru crearea "nei noi #aze de date comenzile utilizate sunt3
File ( 'ew ( Data
Primul lucru pe care trebuie s!+l facem este s! definim variabilele &c)mpurile' noii baze de date. -n parte din st)nga (os putem observa butoanele Data View)Varia#le View. p!s)nd butonul Varia#le View# SPSS ne prezint! ecranul de dialog pentru definirea variabilelor. Pentru fiecare variabil! va trebui s! specific!m# printre altele3
• numele • tipul &numeric# caracter etc.' • lungimea &num!rul de caractere' • num!rul de zecimale &pentru variabilele numerice' • descrierea variabilei &opional' • valori posibile &opional' etc. dat! variabilele introduse# ap!s!m pe butonul Data View pentru a putea introduce datele în
fi"ier.
Pentru deschiderea "nei #aze de date e*istente vom utiliza comenzile3
File ( +pen ( Data

SPSS+ul ne va desc%ide o caset! de dialog pentru desc%iderea unui fi"ier.
-n momentul în care rul!m o analiz! asupra unui set de date# SPSS+ul ne prezint! rezultatele acestei analize sub forma unui fi"ier special numit o"tp"t, 5i"ierele de output pot fi desigur salvate "i apelate ulterior prin comanda3
File ( +pen 6 +"tp"t
spectele practice legate de lucrul cu fi"ierele# precum "i de utilizarea procedurilor de analiz$ vor fi l$murite la seminar.
Capitolul 2
Aspecte teoretice - recapit"lare
I. ariabil!# scor# distribuie
variabil este acea proprietate a unui fenomen care poate lua diferite valori. 7e e*emplu3 zilele sapt!m)nii &luni# mari# 8# duminic!'# în!limea# venitul impozabil# notele studenilor la e*amenul de Statistic! etc.
rice variabil! este descris! de un set de valori. aloarea particular! pe care o ia variabila pentru un anumit membru al populaiei studiate poart! numele de scor . ,*emple de scoruri ale diverselor variabile3 persoana 9 are în!limea de 1.:; metri# persoana < are un salariu lunar de 1=00 de lei# studentul > a obinut nota ? la e*amenul de Statistic!.
Distribuia unei variabile este dat! de frecvena de apariie a diverselor scoruri &sau valori' care descriu variabila respectiv!. 5recvena poate fi absolut$ sau relativ$. 7istribuia poate fi ilustrat$ cu a(utorul unui tabel de frecvene# sau reprezentat! grafic prin intermediul unei histograme.
rice distribuie statistic$ este definit! prin trei caracteristici3
1. modalitatea# care se refer! la num!rul de ma*ime &ale frecvenelor' pe care îl prezint! distribuia. 7istribuiile cu un singur ma*im &cum este cea de mai sus' se numesc unimodale# iar cele cu mai multe ma*ime se numesc multimodale.
@

@. boltirea (kurtosis)# care ne arat! c)t de mult variaz! scorurile. distribuie Aturtit!B &sau Aaplatizat!B' prezint! toate valorile posibile ale scorurilor# de la cele mai mici la cele mai mari# pe c)nd în cazul unei distribuii AascuiteB scorurile variaz! mai puin &valorile e*treme au frecvene de apariie reduse'.
II. Indicatorii &parametrii' unei distribuii
ce"ti indicatori se împart în dou! mari categorii3 indicatorii tendinei centrale "i indicatorii împrtierii. om prezenta pe scurt principalii indicatori din fiecare categorie.
A. Indicatorii tendinei centrale
ce"ti indicatori e*prim! tendina scorurilor unei variabile de a se grupa în (urul unor valori semnificative. 2ei trei indicatori ai tendinei centrale luai în discuie aici sunt media# mediana "i modul .
∑
∑ ⋅
=
m
unde cu x am notat valorile# iar cu n frecenele absolute de apariie.
Mediana este acea valoare care împarte o distribuie în dou! p!ri egale. Pentru a o determina# trebuie mai înt)i s! a"ez!m scorurile în ordine cresc!toare. -n cazul în care num$rul de scoruri este par# mediana va fi media artimetica a scorurilor din mi(loc. 7ac$ num$rul de scoruri este impar# mediana este dat! de valoarea scorului din mi(loc al seriei.
S! presupunem c! "tim c! mediana salariilor lucr!torilor dintr+o firm! este de =@00 de lei. 2um interpret!m acest faptC -n felul urm!tor3 umtate din lucr!tori au un salariu de p)n! la =@00 de lei# iar cealalt umtate au un salariu de peste =@00 de lei.
Modul unei distribuii este acea valoare a distribuiei care are cea mai mare frecven! de apariie. -n cazul anterior# modul distribuiei este egal cu 4# deoarece acest puncta( apare cel mai des &de cinci ori'. -n e*emplul ilustrat în tabelul 1# modul distribuiei este @# deoarece aceast! valoare apare cel mai des &de 1: ori'. 7up! cum precizam anterior# e*ist! posibilitatea ca o distribuie s! prezinte mai multe moduri# caz în care o vom numi multimodal.
B. Indicatorii împrtierii
2el mai des folosit indicator al împr!"tierii unei variabile este dispersia sau variana. ,a este notat$ cu D4 sau uneori cu !ar "i se calculeaz$ cu formula3
E
σ
2u c)t valoarea dispersiei este mai mare# cu at)t distribuia respectiv! este mai împr!"tiat!.
Abaterea ptratic sau abaterea standard nu este altceva dec)t r!d!cina p!trat! a dispersiei3
4 σ σ =
baterea p!tratic! se noteaz! uneori cu S7 &de la cuvintele engleze"ti Astandard deviationB – abatere standard'. 7e remarcat c! abaterea standard are aceea.i "nitate de m/s"r/ ca .i varia#ila, Se poate demonstra c! ma(oritatea scorurilor unei variabile &"i anume cam :;F' se g!sesc în interiorul intervalului care are drept capete valorile m+ D "i mG D. ceste scoruri se mai numesc scoruri medii# normale sau tipice pentru acea distribuie. alorile care se g!sesc în afara intervalului &m+ DH mG D' poart! numele de valori atipice.
tunci c)nd cunoa"tem media "i abaterea standard a unui e"antion dat de volum n# putem determina dispersia de selecie &sau eroarea standard ' pentru e"antionul respectiv# cu formula3
n m
σ σ =
ceast$ eroare standard reprezint$ de fapt abaterea mediilor tuturor e"antioanelor de acela"i volum n de la media populaie totale. Pentru a determina un interval de încredere al acestei din urm$ medii# cu un nivel de încredere de ?=F# vom calcula3
m # $%&' m σ
III. Distribuia normal
2unoscut! "i sub denumirea de distribuia auss+Japlace# distribuia normal! este f!r! îndoial! cea mai important! dintre toate tipurile de distribuie înt)lnite în statistic!. Principala sa caracteristic!3 curba frecvenelor se prezint! sub form! de clopot &de unde "i denumirea de Aclopotul lui aussB'. Iat$ formula prin care se e*prim! legea normal!3
4
4
4
− −
=
=

unde p&*' este probabilitatea &frecvena' de apariie a unei valori oarecare *# iar m "i sunt de(a notaii familiare &media "i abaterea p!tratic! a distribuiei'. "adar# ace"ti doi parametri &media "i abaterea standard' definesc complet o distribuie normal!. S! mai spunem c! distribuia normal! de
medie m "i abatere D se noteaz! prescurtat astfel3 '#& 4 K
σ m " .
IV. Distribuia normal standard. Scorurile z
5ie o variabil! aleatoare ce are media m "i abaterea standard . Pentru o valoare oarecare x a acestei variabile# scorul * se calculeaz! astfel3
σ
− =
Se observ! c! acest scor are un caracter sintetic# reunind într+o singur! formul! media "i abaterea standard a distribuiei. Scorurile z n" a" "nitate de m/s"r/, Locmai acest lucru face posibil! compararea sau adunarea lor.
7istribuia scorurilor z se nume"te distribuie normal standard &sau normat)% ,a are media
" .
Generarea indicatorilor statistici i a rapoartelor în SPSS
-n cadrul acestei sectiuni vom e*emplifica pas cu pas urm$toarele proceduri3
1. generarea indicatorilor statistici "i a tabelului de frecvene# cu a(utorul comenzilor +re,uencies "i DescriptivesH
4. generarea indicatorilor statistici pe substraturi ale populaiei# cu a(utorul comenzii -xploreH
@. crearea tabelelor încruci"ate# folosind comanda .rosstabsH E. crearea rapoartelor cu a(utorul unor opiuni din submeniul /eports.
Pentru realizarea e*emplelor practice vom folosi baza de date Employee data,sav0 care prezint! informaii privind cei EME de salariai ai unei b!nci din Statele Nnite# informaii obinute în urma unui studiu organizat la începutul anilor 1??0.
0% 1enerarea indicatorilor statistici i a tabelului de frecvene
om cere în continuarea programului SPSS S$ ne furnizeze principalii parametri statistici pentru variabila salar2# reprezent)nd salariul curent &anual' al lucr!torilor din banc!. -n acest scop apel!m comanda3
Analyze > Descriptive Statistics > Freuencies
:

SPSS+ul desc%ide o caset! de dialog &o vom vizualiza atunci c)nd vom face aplicaiile practice'. legem pentru analiz! variabila salar2 "i ap!s!m butonul tatistics. /i se desc%ide o nou! caset! de dialog în care select!m rm!toarele opiuni pentru calcul3 3uartiles4 Mean# Median# Mode# 5td% Deviation &abaterea standard'# !ariance# 5%-% mean &abaterea de selecie'# 5kewness# 6urtosis. p!s!m butonul !ontinue "i apoi butonul "# ,
-n fi"iereul de output SPSS+ul ne prezint! rezultatele urm!toare3
+ tabelul frecvenelor pentru variabila salar2 &red!m aici doar o mic! parte a lui# pentru economie de spaiu'3
Current Salary Frequency Percent Valid
Percent Cumulative
Percent Valid $15,750 1 .2 .2 .2
$15,900 1 .2 .2 .4 $16,200 .6 .6 1.1 $16,50 1 .2 .2 1. $16,500 1 .2 .2 1.5 $16,650 1 .2 .2 1.7 $16,!00 1 .2 .2 1.9 $16,950 .6 .6 2.5 $17,100 2 .4 .4 .0 $17,250 1 .2 .2 .2 " " " " " #tal 474 100.0 100.0
-n prima coloan! se g!sesc valorile variabilei# în cea de+a doua frecvenele absolute# iar în cea de+a treia frecvenele relative &în procente'. Nltima coloan! prezint! frecvenele relative cumulate.
7in acest tabel se poate vedea# de e*emplu# c! nivelul salariului de 1:?=0 de dolari apare la trei salariai# reprezent)nd 0.:F din totalul salariailor.
+ tabelul indicatorilor statistici3
&ean $4,419.57 Std. )rrr * &ean $7!4.1
&edian $2!,!75.00 &de $0,750
Se-ne'' 2.125 Std. )rrr * Se-ne'' .112
urt'i' 5.7! Std. )rrr * urt'i' .224
Percentile' 25 $24,000.00 50 $2!,!75.00 75 $7,162.50

naliza în detaliu a acestui tabel o vom face la seminar.
7ac! nu ne intereseaz! s! obinem tabelul de frecvene al variabilei# putem folosi pentru statistica descriptiv! comanda &care are o pla(! de opiuni mai redus!'3
Analyze > Descriptive Statistics > Descriptives
7up$ ce ap$s$m butonul "ptions al casetei de dialog de la aceast$ procedur$# SPSS+ul ne d$ posibilitatea de a alege indicatorii statistici pe care+i dorim calculai. /oi vom alege# pentru ilustrare# doar indicatorii Mean# 5tandard Deviation "i 5%-% mean. Iat$ tabelul pe care ni+l afi"eaz$ programul3
+e'cri/tive Stati'tic' % &ean Std. +eviatin Stati'tic Stati'tic Std. )rrr Stati'tic
Current Salary 474 $4,419.57 $7!4.1 $17,075.66 Valid % li't-i'e 474
00% 1enerarea indicatorilor statistici pe straturi
S$ presupunem acum c$ dorim s$ analiz$m comparativ salariile b$rbailor "i cele ale femeilor din populaia studiat$. Pentru a realiza aceasta# ne st$ la dispoziie procedura -xplore# pe care o apel$m astfel3
Analyze > Descriptive Statistics > $%plore
SPSS+ul ne cere s$ preciz$m care sunt variabilele dependente &adic$ variabilele pentru care se vor calcula parametrii'# precum "i care sunt variabilele+factor &cele dup$ care sunt definite straturile'. -n cazul nostru# variabila dependent$ este salar2# iar factorul este gender .
-n afar$ de tabelele de sinteza# îi vom solicita programului SPSS s$ ne furnizeze "i graficul de tip Abo*plotB# precum "i un test de normalitate pentru variabila studiat$.
Red$m în continuare c)teva din rezultatele acestei analize &discuiile asupra lor vor avea loc la seminar'.
-n tabelul de mai (os se g$sesc principalii indicatori statistici ai variabilei salar2# pe cele dou$ substraturi3 b$rbai "i femei.
+e'cri/tive' ender Stati'tic Std. )rrr
Current Salary
953 Cn*idence nterval *r &ean
-er und
Std. +eviatin $7,55!.02 &inimum $15,750 &a8imum $5!,125
an(e $42,75 nterquartile an(e $7,012.50
Se-ne'' 1.!6 .166 urt'i' 4.641 .0 &ale &ean $41,441.7! $1,21.97 953 Cn*idence nterval *r
&ean -er und
Variance !02196.0 Std. +eviatin $19,499.21
&inimum $19,650 &a8imum $15,000
an(e $115,50 nterquartile an(e $22,675.00
Se-ne'' 1.69 .152 urt'i' 2.7!0 .02

Rezultatele testului de normalitate Oolmogorov+Smirnov se g$sesc în tabelul ce urmeaz$3
#e't' * %rmality lm(rv:Smirnv
ender Stati'tic d* Si(. Current Salary Female .146 216 .000
&ale .20! 25! .000
-n sf)r"it# figura de mai (os prezint$ graficul Abo*plotB pentru variabila salar2# pe cele dou$
segmente de anga(ai studiate &b$rbai "i femei'.
?

25!216% ;
ender
&aleFemale
C u r r e n t S a l a r y
160000
140000
120000
100000
!0000
60000
40000
20000
0
000% .rearea tabelelor încruciate
Labelele încruci"ate sunt foarte utile atunci c)nd dorim s$ studiem leg$tura dintre dou$ variabile categoriale. supra lor vom reveni într+un capitol ulterior# atunci c)nd vom studia testele neparametrice. cum vom ar$ta doar# foarte pe scurt# cum se genereaz$ un asemenea tabel.
S$ presupunem c$ ne intereseaz$ s$ studiem interdependena dintre variabile gender "i variabile obcat &ambele categoriale' pentru a vedea unde se înt)lnesc ma(oritatea managerilor din banc$3 în r)ndul b$rbailor sau în r)ndul femeilor. Pentru aceasta vom apela opiunea3
Analyze > Descriptive Statistics > !rosstabs
om cere programului s$ afi"eze categoriile variabile gender pe liniile# iar pe cele ale variabilei obcat pe coloane. lte opiuni nu formul$m# deocamdat$.
Rezultatul analizei este afi"at în tabelul de mai (os. ender < )m/lyment Cate(ry Cr''ta=ulatin Cunt
)m/lyment Cate(ry
ender Female 206 10 216 &ale 157 27 74 25!
#tal 6 27 !4 474
7up$ cum se poate observa# marea ma(oritate a managerilor sunt b$rbai &ME'# iar
femeile sunt mult mai puin reprezentate în structurile de conducere &numai 10'.
0!% .rearea de rapoarte sintetice
piunea /eports din meniul 7nal2*e conine o serie de comenzi care permit crearea unei mari variet$i de rapoarte. /oi nu vom intra în toate detaliile aici# ci vom genera doar un raport sintetic privind principalii indicatori ai variabilei salar2# at)t pe subgrupul b$rbailor c)t "i pe cel al femeilor.
om selecta opiunile3
Analyze > &eports > !ase Su''aries
-n c)mpul !ariables vom introduce variabile de studiu & salar2'# iar în c)mpul 1rouping
!ariable(s)# variabile gender . poi vom deselecta opiunea 8imit cases to first pentru a+i cere programului s$ calculeze indicatorii pentru toate cazurile din e"antion# precum "i opiunea Displa2 cases &pentru a evita afisarea valorii variabilei la fiecare caz în parte'. -n continuare ap$s$m butonul Statistics "i cerem s$ fie generai – pentru fiecare subgrup – urm$torii indicatori3 num$rul de cazuri &de(a selectat'# media# mediana "i abaterea standard. poi ap$s$m butoanele !ontinue "i "# . Labelul de mai (os# care conine rezultatul final al analizei# nu are nevoie de prea multe e*plicaii.
Ca'e Summarie' Current Salary
ender % &ean &edian Std. +eviatin Female 216 $26,01.92 $24,00.00 $7,55!.02
&ale 25! $41,441.7! $2,!50.00 $19,499.21 #tal 474 $4,419.57 $2!,!75.00 $17,075.66
Capitolul 3
2orelaia statistic$ este util$ pentru a analiza leg!tura dintre dou$ variabile aleatoare# cantitative sau ordinale.
2orelaia este m$surat$ de regul$ cu a(utorul unuia dintre urm$torii coeficieni3
11

• coeficientul de corelaie AroB al lui Pearson • coeficientul de corelaie al lui Spearman • coeficientul de corelaie AtauB al lui Oendall.
2oeficientul lui Pearson se folose"te numai atunci c)nd ambele variabile luate în studiu sunt cantitative &metrice'. 2eilali doi coeficieni se pot folosi at)t pentru variabile metrice# c)t "i ordinale &ei mai sunt numii "i coeficieni de corelaie neparametrici'.
2oeficientul de corelaie al lui Pearson &notat cu 9' se determin! dup! formula3
41
4411 ''&&
m xm x∑ −− =
unde cu m "i s+au notat mediile# respectiv abaterile standard ale celor dou$ variabile# iar cu n
num$rul de cazuri din e"antion.
2oeficientul de corelaie 9 poate lua valori cuprinse în intervalul +1H 1Q. naliza sa presupune luarea în calcul a trei elemente3
• valoarea absolut a coeficientului. 2u c)t aceasta este mai aproape de 1# cu at)t corelaia este mai str)ns!. aloarea 0 &zero' înseamn$ absena oric$rei corelaii.
• semnul coeficientului. alorile pozitive indic! o leg!tur! direct! între variabile# iar valorile negative o leg!tur! indirect!.
• semnificaia coeficientului. ceasta poate fi determinat$ cu a(utorul testului t . aloarea acestui test pentru coeficientul de corelaie se calculeaz$ cu formula3
41
4
n t
tenie Nn coeficient de corelaie mare n" indic! neap!rat e*istena unei leg!turi de cauzalitate între cele dou! variabileH pur "i simplu ne arat! faptul c! dou! fenomene Amerg împreun!B# f!r! a fi în mod necesar interdependente.
2oeficientul de corelatie al lui Spearman &numit "i coeficient de corelaie al rangurilor' se determin$ cu formula3
'1&
: 1
4
4
i
unde D este diferena rangurilor observate în cele dou$ variabile ordinale.
2oeficientul de corelaie a rangurilor este cuprins între 0 "i 1. 2u c)t este mai apropiat de 1# cu at)t leg$tura dintre variabile este mai puternic$.
i pentru coeficientul lui Spearman se poate calcula statistica t # în vederea determin$rii gradului de semnificaie. 5ormula este urm$toarea3
14
−
− =
2oeficientul de corelaie Oendall &notat cu : ' se calculeaz$ cu e*presia3
nn
4 τ
unde cu . am notat aici suma scorurilor pentru toate cele n(n;$)<= combinatii posibile. Scorul este considerat G1 ori de c)te ori o combinaie este concordant$ &are acela"i clasament' "i +1 ori de c)te ori o combinaie este discordant$ &clasamentele difer$'.
2oeficientul lui Oendall ia valori între +1 "i 1. Interpretarea sa este e*act la fel ca aceea a coeficientului Pearson.
Analiza corela1iei 2n 3
-n cele ce urmeaz$ vom studia procedurile din programul SPSS utilizate pentru calculul coeficienilor de corelaie. om folosi din nou# ca "i în capitolul anterior# variabilele din fi"ierul Employee data,sav.
S$ presupunem c$ ne intereseaz$ leg$tura dintre salariul actual al anaga(ailor din banc$ "i nivelul lor de educaie &e*primat în ani de studii'. salariul de început al lucr!torilor din banc!. Pentru a calcula coeficienii de corelaie apel!m comanda3
Analyze > !orrelate > (ivariate
dat! ce SPSS+ul desc%ide caseta de dialog pentru calculul corelaiei# select$m din fereastra din dreapta variabilele care ne intereseaz! &cel puin dou!'. -n cazul nostru# ele vor fi salar2 "i educ. 7ac! alegem trei sau mai multe variabile pentru aceast! analiz!# programul ne va calcula corelaile dintre aceste variabile luate dou! c)te dou!. poi cerem programului s$ calculeze toi cei trei coeficieni de corelatie &Pearson# Spearman "i Oendall'. Loate celelalte opiuni care ne intereseaz$ sunt de(a selectateH a"adar# putem ap!sa butonul +4 pentru a rula analiza.
utput+ul se prezint! în felul urm!tor3
Crrelatin' Current Salary )ducatinal evel
year' Current Salary Pear'n Crrelatin 1.000 .661
Si(. 2:tailed . .000 % 474 474
)ducatinal evel year'
Pear'n Crrelatin .661 1.000
Si(. 2:tailed .000 . % 474 474 << Crrelatin i' 'i(ni*icant at t>e 0.01 level 2:tailed.
Crrelatin'
1.000 .554
year' Crrelatin Ce**icient
.554 1.000
Si(. 2: tailed
year' Crrelatin Ce**icient
.6!! 1.000
.000 .
% 474 474 << Crrelatin i' 'i(ni*icant at t>e .01 level 2:tailed.
Primul tabel conine valoarea coeficientului Pearson# iar cel de+al doilea valorile coeficienilor de corelaie neparametrici.
Interpretarea în detaliu a datelor din aceste tabele va fi f$cut$ la seminar. ici dorim doar s$ subliniem urm$torul lucruH pentru fiecare coeficient de corelaie# SPSS+ul calculeaz$ automat valoarea ASigB# cu a(utorul c$reia putem stabili dac$ respectivul coeficient este semnificativ sau nu. 7ac! parametrul A2orrelation Sig.B este mai mic dec)t nivelul de semnificaie ales iniial de noi &de regul$ =F'# atunci putem accepta faptul c! avem de+a face cu o corelaie semnificativ$ statistic.
7up$ cum se poate observa# programul SPSS marc%eaz! cu dou! asteriscuri &TT' valorile semnificative la un nivel de 0.01 &sau 1F'. alorile semnificative la un nivel de 0.0= &sau =F' sunt marcate cu un singur asterisc &T'.
Capitolul 4
Teste statistice
-n cadrul studiilor statistice# suntem adesea interesai în a compara mediile unei variabile pentru dou$ populaii diferite &pentru a vedea dac$ e*ist$ diferene semnificative între ele'# sau media unui e"antion cu media populaie din care province acesta &pentru a vedea dac$ e"antionul este reprezentativ pentru populatia din care face parte'. -n acest scop putem folosi fie testul * # fie testul t .
0% >estul *
Lestul z se folose"te atunci c?nd cunoatem dispersia populaiei din care provine eantionul
studiat &lucru care se înt)mpl$ rareori'. 5$r$ a intra în toate aspectele de detaliu privind testarea unei ipoteze statistice# vom reaminti
doar principiul de baz$ al testului * 3 valoarea calculat$ a statisticii * se compar$ cu cea tabelar$ &aleas$ în functie de nivelul de semnificaie dorit'. 7ac$ valoarea calculat$ este mai mare dec)t cea tabelar$ &în valoare absolut$'# atunci vom respinge ipoteza nul$ "i vom spune c$ e*ist$ diferene semnificative între grupurile studiate. -n caz contrar vom accepta ipoteza nul$# afirm)nd c$ diferenele sunt nesemnificative.
S$ ne amintim acum modul de calcul al statisticii * . tunci c)nd se pune problema compar$rii medie unui e"antion cu media populaiei din care a
fost e*tras# statistica * se calculeaz$ cu formula3
m
c
m *
σ
µ − =
unde m este media e"antionului# @ este media întregii populaii# iar m este abaterea de selecie &e*plicat$ în capitolul 4'.
7ac$ trebuie s$ compar$m mediile a dou$ grupuri diferite# vom folosi urm$toarea formul$3
41
41
mm
c
mm *
σ
nde m$ "i m= sunt mediile celor dou$ e"antioane# iar la numitor se g$se"te o abatere p$tratic$ &estimat$' a diferenelor dintre aceste medii# calculat$ astfel3
4
4
4
1
4
00% >estul t
-n marea ma(oritate a situaiilor din realitate# nu cunoa"tem dispersia populaiei din care provine e"antionul# a"adar testul z nu ne mai este util. om folosi a"adar testul t .
-n analiza statistic$ sunt cunoscute trei tipuri de test t 3 univariat# bivariat pe e"antioane independente "i bivariat pe e"antioane perec%i. Je vom descrie pe scurt în r)ndurile ce urmeaz$.
1=
. Lestul t univariat &pentru un singur e"antion'
cest test se folose"te pentru a compara media unui e"antion cu media populaiei totale# atunci c)nd cunoa"tem doar media populaiei &nu "i dispersia'.
Statistica t se calculeaz$# pentru acest caz# e*act la fel ca statistica * 3
m
µ − =
7iferena const$ în faptul c$ abaterea de selecie &valoarea de la numitor' nu se mai calculeaz$ pornind de la abaterea standard a populatie & ' – care este necunoscut$ – ci de la o estimare a acestei abateri & s'. "adar# formula pentru sm este3
n
U. Lestul t bivariat pe e"antioane independente
cest test este folosit pentru a detecta e*istena unor diferene semnificative între mediile a dou! e"antioane &grupuri' independente. aloarea statisticii t calculate este3
41
41
mm
41
41
11
1
2. Lestul t bivariat pe e"antioane perec%i
7ou! e"antioane se numesc perechi sau dependente atunci c)nd modul de alegere a unit!ilor unui e"antion este determinat de modul de alegere a unit!ilor celuilalt. -ntre unit!ile din dou! e"antioane perec%i se poate stabili o coresponden biunivoc. Statistica t utilizat$ pentru evaluarea semnificatiei diferentei dintre medii se calculeaz$ cu formula3
1:
unde V
d este media diferenelor d i dintre valorile perec%i# iar sd este abaterea p$tratic$ a acestor diferene.
Utilizarea pro&ram"l"i 3 pentr" test"l t
5i"ierul pe care+l vom folosi un aceast$ seciune este tot Employee data,sav, om ilustra în continuare# cu a(utorul a c)te unui e*emplu# modul de analiz$ pentru fiecare din cele trei tipuri de test t .
. Lestul t univariat
S! presupunem c! deinem urm$toarea informatie3 c! salariul mediu al unui anga(at dintr+o banc$ american$ este de @:.000 de dolari. Respect! e"antionul nostru &de EME de anga(ai' condiia de reprezentativitate din acest punct de vedereC 7ac! o respect!# atunci salariul mediu pe acest e"antion nu va fi semnificativ diferit de cel de la nivelul populaiei. -n unul din capitolele anterioare am calculat acest salariu mediu "i am v!zut c! era egal cu @EE1?.=M dolari. S! vedem dac! este semnificativ diferit de cel de @:000 de dolari. om fi*a pentru studiul nostru un nivel de semnificaie de =F# adic! un nivel de încredere de ?=F. 11
Pentru a rula testul t univariat vom apela comanda3
Analyze > !o'pare Means > "ne)Sa'ple * *est
-n caseta! de dialog care apare# în fereastra A>est !ariable(s)B vom introduce variabila salar2# iar în c)mpul A>est !alueB com introduce valoarea @:000. p!s)nd butonul +4 obinem urm$torul tabel3
Ane:Sam/le #e't #e't Value ; 6000
t d* Si(. 2: tailed
&ean +i**erence
-er //er Current
Salary :2.015 47 .044 :$1,5!0.4 :$,121.60 :$9.27
2oloana a patra a acestui tabel este cea mai important!# deoarece pe baza ei putem lua
decizia de acceptare sau respingere a ipotezei nule. Regula de decizie este urm!toarea3 dac! valoarea lui ASig.B din aceast! coloan! este mai mic! dec)t nivelul de semnificaie ales de noi# atunci vom respin&e ipoteza nul! &cu alte cuvinte# vom afirma c! între cele dou! valori e*ist! o diferen! semnificativ!'H în caz contrar# vom accepta ipoteza nul!.
1M

-ntruc)t avem 0.0EEX0.0= vom respinge ipoteza nul! "i vom spune c! salariul mediu pe e"antion este semnificativ diferit de salariul mediu pe populaia total!# cu un nivel de încredere de ?=F. "adar# e"antionul nu poate fi considerat reprezentativ din acest punct de vedere.
U. Lestul t bivariat pentru dou! e"antioane independente
S! presupunem# c! dorim s! verific!m dac! salariul mediu al b!rbailor din banc! este semnificativ diferit de cel al femeilor. Pentru aceasta vom folosi testul bivariat pe e"antioane independente# apelat cu comanda3
Analyze > !o'pare Means > +ndependent)Sa'ples * *est
-n fereastra A>est !ariablesB vom introduce din nou variabila salar2# iar în c)mpul A1rouping !ariableB vom introduce variabila gender . bserv!m c! se activeaz! butonul Define Gro"ps, 7ac! îl ap!s!m se desc%ide o nou! caset! de dialog. ici# în c)mpul A1roup $B vom introduce AmB &f!r! asteriscuri'# iar în c)mpul A1roup =B vom introduce AfB &deasemenea f!r! asteriscuri'. p!s!m butonul !ontin"e "i observ!m c! în c)mpul A1rouping !ariableB din prima caset! de dialog apare3 Agender(Cm Cf)B. -n acest fel am definit cele dou! e"antioane. p!s!m +4 pentru a rula analiza.
Iat! o poriune &cea mai relevant$' din tabelul de analiz! pe care ni+l furnizeaz$ SPSS+ul3
nde/endent Sam/le' #e't evene?' #e't *r
)quality * Variance' t:te't *r )quality * &ean'
F Si(. t d* Si(. 2:tailed
Current Salary
)qual variance'
11.6!! 44.262 .000
Informaiile din acest tabel vor fi comentate "i interpretate la seminar.
2. Lestul t bivariat pentru dou! e"antioane perec%i
S! presupunem în continuare c! dorim s! determin!m dac! e*ist! o diferen! semnificativ! între salariul mediu iniial al lucr!torilor "i salariul mediu actual. Lestul t pentru e"antioane perec%i ne este de util în acest scop. Procedura pe care trebuie s$ o apel$m este3
1;
Analyze > !o'pare Means > Paired)Sa'ples * *est
cum va trebui s! introducem în fereastra AEaired !ariablesB variabilele supuse analizei. om selecta simultan &folosind butonul 2LRJ al tastaturii' variabilele salar2 "i salbegin. p!s)nd +4 obinem urm!torul output3
Paired Sam/le' #e't Paired +i**erence' t d* Si(. 2:
tailed

S! privim ultima coloan$3 avem acolo valoarea parametrului ASigB# utilizat pentru aprecierea semnificaiei statistice. -ntruc)t acest parametru este mai mic dec)t 0.0=# vom deduce c! între salariul actual "i cel iniial e*ist! o diferen! semnificativ!. Yedia acestei diferene pentru populaia total$ &[email protected]; dolari' poate fi g$sit$ din coloana a treia a tabelului.
Capitolul 5
Operaii cu date i variabile
Se pot înt)lni în practic$ foarte multe situaii în care# înainte de a trece la analiza statistic$ propriu+zis$# este necesar s$ oper$m o serie de transform$ri sau modific$ri asupra datelor "isau variabilelor din baza de date. ceasta se înt)mpl$ fie din cauz$ c$ analistul este interesat doar de un anumit segment al datelor &un anumit subgrup din populaia total$'# fie din cauz$ c$ informaiile din baza de date nu sunt prezente în forma cea mai convenabil$ pentru analist.
Iat$ c)teva posibile e*emple de astfel de situaii3 • dorim s$ analiz$m corelaia dintre anumite variabile pe un singur segment al anga(ailor
&de pild$# numai pentru anga(aii b$rbai'H • dorim s$ obinem anumite informaii statistice# simultan# pentru mai multe segmente de
anga(ai &de e*emplu# at)t pentru b$rbai# c)t "i pentru femei' în scopul de a compara mai u"or aceste informaiiH
• dorim s$ creem o nou$ variabil$ pornind de la una sau mai multe variabile de(a e*istente &de e*emplu# avem num$rul de ore lucrate pe lun$ "i salariul orar# "i dorim s$ le înmulim pentru a calcula salariul lunar'H
• dorim s$ transform$m o variabil$ numeric$ într+una categorial$ &de e*emplu# pentru a+i împ$ri pe anga(ai în trei grupuri3 cu salarii mici# medii "i mari'H
1?

• dorim s$ sort$m datele dup$ un anumit criteriu &de e*emplu# s$+i sort$m pe anga(ai în funcie de nivelul de educaie'.
-n continuare# vom vedea cum se rezolv$ efectiv problemele de acest fel cu a(utorul facilit$ilor disponibile în programul SPSS. Uaza de date folosit$ va fi# ca "i în capitolele precedente# Employee data,sav,
ortarea datelor
,ste una din cele mai simple operaiuni cu datele. ,a ne permite s$ sort$m cazurile din baza de date# ascendent sau descendent# în functie de variabila pe care am ales+o. ceast$ variabil$ poate fi numeric$ sau categorial$.
Sortarea se realizeaz$ apel)nd comanda3
Data > Sort !ases
-n fereastra din dreapta a casetei de dialog se introduc variabilele dup$ care se face sortarea. 7ac$ dorim# de e*emplu# s$+i sort$m pe anga(ati dup$ saalriu "i categorie# un ordine ascendent$'# vom selecta variabilele salar2 "i obcat4 precum "i opiunea A7scendingB. Ja final# anga(aii se vor reg$si grupai pe cele trei categorii profesionale &funcionari# salariai# manageri'# iar în cadrul fiec$rei categorii vor fi ierar%izai în ordinea cresc$toare a salariilor.
Sortarea este util$# de e*emplu# dac$ dorim s$ aplic$m procedura -xplore &vezi capitolul 4' pe un grup anume de anga(ai – de e*emplu# cei care au salariul mai mic sau cel mult egal cu =0000 de dolari pe an. Prin comanda 5ort .ases vom ordona anga(aii dup$ salariu# în mod ascendent# iar apoi vom rula procedura -xplore numai pentru acele cazuri care îndeplinesc condiia noastr$.
electarea caz"rilor
S! presupunem în cele ce urmeaz$ c! ne intereseaz!# dintr+un anumit motiv# s$ rul$m o serie de analize statistice numai pentru anga(aii de se* masculin. -n acest caz va trebui ca din e"antion s! select!m doar salariaii care aparin acestui grup. Pentru a face acest lucru vom folosi comanda3
Data > Select !ases
SPSS+ul desc%ide o caset! de dialog pentru selectare. -n partea dreapt! vom alege opiunea A0f condition is satisfiedB "i vom ap!sa butonul 5f, Se desc%ide o nou! caset! în care vom introduce condiia noastr! sub forma3 genderFBmB &a"adar# urmeaz! s! fie reinui doar salariaii b!rbai'. p!s!m butonul !ontin"e "i apoi +4,
bserv!m c! acele cazuri din baza de date pentru care are loc genderFBfB &a"adar# cele corespunz!toare salariailor femei' au fost AbarateB &a"adar vor fi e*cluse de la analiz!'. Yai mult# în partea din dreapta (os a ferestrei SPSS+ului se poate citi meniunea A+ilter onB# ceea ce înseamn! c! respectivei baze de date i+a fost aplicat un filtru.
S! calcul!m acum# cu titlu de e*emplu# coeficientul de corelaie între salariul de început "i cel actual la nivelul unui acestui AsegmentB al populaiei noastre – anga(aii b$rbai.
plic!m procedura pentru analiza corelaiei# a"a cum a fost prezentat$ în capitolul @# "i obinem urm$torul rezultat3
40
Current Salary
Si(. 2:tailed %
1.000 .!60<<
Si(. 2:tailed %
25! 25!
<< Crrelatin i' 'i(ni*icant at t>e 0.01 level 2:tailed.
Se observ$ c$ num$rul total de cazuri pentru care a fost rulat$ analiza este de 4=; &a"adar# numai salariaii de se* masculin'..
Pentru a înl$tura filtrul definit pentru o baz$ de date# atunci c)nd nu mai avem nevoie de el# va trebui s$ apel$m din nou comanda3
Data > Select Cases
-n caseta de dialog care apare se selecteaz! opiunea A7ll casesB "i apoi se apas! butonul +4,
Divizarea fi.ier"l"i
S! presupunem c! într+o baz$ de date oarecare cazurile pot fi împ$rite în 10 subgrupuri distincte# iar cercet$torul dore"te s$ ruleze o anumit$ analiz$ pentru fiecare subgrup în parte. 7ac$ ar folosi procedura de selectare a cazurilor# descris$ anterior# ar trebui s$ repete aceast$ procedur$ de 10 ori# ceea ce ar fi incomod. Pentru a evita acest lucru# el poate utiliza o comand$ de divizare a fi"ierului &Afile splitB' pus$ la dispoziie de SPSS.
7ac$ este necesar$# de e*emplu# determinarea coeficientul de corelaie dintre salariul iniial "i cel actual at)t pentru b$rbai# c)t "i pentru femei# se va apela mai înt)i la comanda de divizare a fi"ierului3
Data > Split File
pare din nou o caset! de dialog# în care vom selecta opiunea A.ompare 1roupsB. -n fereastra denumit! A1roups Gased onB vom introduce variabila gender . dat! ce ap!s!m butonul +4 # vom observa c! în partea din dreapta (os a ferestrei SPSS apare meniunea A5plit +ile HnB. Rul)nd din nou comanda pentru analiza corelaiei obinem do"6 tabele# c)te unul pentru fiecare subgrup analizat3
Gender = Female
1.000 .759<<
Si(. 2:tailed %
Si(. 2:tailed %
216 216
<< Crrelatin i' 'i(ni*icant at t>e 0.01 level 2:tailed. a ender ; Female
Gender = Male
Current Salary
Si(. 2: tailed
Si(. 2: tailed
.!60<< 1.000 .000 .
25! 25! << Crrelatin i' 'i(ni*icant at t>e 0.01 level 2:tailed. a ender ; &ale
tunci c)nd fi"ierul este AdivizatB în funcie de o anumit$ variabil$# toate analizele statistice vor fi rulate pe subgrupuri# în funcie de valorile respectivei variabile.
Pentru a transforma un fi"ier AdivizatB într+unul normal# vom apela din nou comanda plit File# iar în caseta de dialog vom alege opiunea A7nal2*e all cases4 do not create groupsB.
Recodificarea varia#ilelor
Pot fi imaginate multe situaii în care este necesar s$ recodific$m una dintre variabilele din baza de date. S$ ne g)ndim# de e*emplu# la un posibil caz în care dorim s$ transform$m o variabil$ numeric$ într+una categorial$.
S! presupunem c! dorim s! constat$m dac! e*ist! o diferen! semnificativ! între salariul mediu al lucr!torilor cu studii medii &ma*im 14 ani' "i cel al lucr!torilor cu studii superioare &peste 14 ani'. -ntruc)t variabila education nu este categorial!# ci numeric!# va trebui s! o recodific!m. Pentru aceasta vom e*ecuta comanda3
*rans,or' > &ecode > +nto Di,,erent -ariables
44

m ales opiunea A0nto Different !ariablesB deoarece dorim s$ p$str$m "i valorile iniiale ale variabilei respective. -n caz contrar# am fi ales opiunea alternativ$ A0ntro 5ame !ariablesB.
In fereastra principal! a casetei de dialog vom introduce variabila pe care dorim s! o recodific!m – educ – iar în c)mpul din dreapta introducem numele noii variabile create – o vom numi educ= – "i apoi ap!s!m butonul !han&e pentru a salva aceast! nou! variabil!. ,a va fi ulterior variabila dup! care vom face gruparea în cadrul testului t . p!s!m apoi butonul +ld and 'ew Val"es,
/oua caset! de dialog ne permite recodificarea valorii vec%ii variabile. stfel# salariailor care au ma*im 14 ani de studii le vom atribui codul 1# iar celor care au peste 14 ani le vom atribui codul 4. 7up! terminarea operaiunii de recodificare ap!s!m butonul !ontin"e "i apoi +4, SPSS+ul a salvat în baza de date variabila educ=# care are numai dou! valori3 1 "i 4.
-n aceste condiii# este foarte u"or s$ rul$m testul t pentru compararea mediilor a dou$ grupuri independente# utiliz)nd pentru grupare noua variabil$ categorial$ educ=.
!alc"larea valorilor "nei noi varia#ile
-n cazul în care avem nevoie# pentru analiz$# de o variabil$ care nu e*ist$ ca atare în baza de date# dar ale c$ror valori pot fi calculate utiliz)nd variabilele e*istente# programul SPSS ne d$ posibilitatea de a obine aceast$ nou$ variabil$.
-n baza noastr$ de date e*ist$ dou$ variabile care se refer$ la vec%imea anga(atului. ,ste vorba de obtime &vec%imea la locul de munc$ actual' "i prevexp &e*periena anterioar$'. mbele sunt e*primate în luni. S$ presupunem c$ dorim s$ calcul$m e*periena total$ a anga(ailor# însum)nd pur "i simplu valorile acestor dou$ variabile. Pentru aceasta apel$m comanda3
*rans,or' > !o'pute
-n c)mpul din dreapta sus al casetei de dialog vom introduce numele noii variabile &de e*emplu# exper '. poi vom introduce în fereastra din dreapta e*presia de calcul a noii variabile3 obtime I prevexp.
7up$ ce ap$s$m butonul +4 # programul creaz$ noua variabil$ exper .
2omanda !omp"te poate fi folosit$ "i în alte scopuri. Programul ne pune la dispoziie un numar foarte mare de funcii predefinite &circa M0'# funcii care pot fi utilizate cu variabilele numerice# "ir de caractere sau dat$. 7e e*emplu# dac$ avem dou$ variabile# conin)nd prenumele "i numele anga(ailor# putem utiliza funcia .H".7> &concatenare' pentru a creea o nou$ variabil$ care s$ conin$ numele complet al anga(atului.
Capitolul 6
Teste neparametrice

Lestele neparametrice reprezint$ o categorie aparte de teste statistice# folosite în situatia în care datele implicate în analiz$ sunt de tip categorial# cum ar fi se*ul# mediul de via! &urbanrural'# tipul de cafea preferat etc.
Lestele neparametrice pe care le vom studia la acest curs sunt3 testul binomial# testul %i p$trat# testul de normalitate Oolmogorov+Smirnov# testele Yann+W%itneZ "i Wilco*on W pentru compararea a dou$ e"antioane independente# testul Wilco*on > pentru compararea a dou$ e"antioane perec%i. S$ le prezent$m în continuare pe scurt.
1. Lestul binomial
cest test este folosit în cazul variabilelor categoriale care pot lua doar dou! valori &cum ar fi# de e*emplu# se*ul'. Rolul lui este de a compara proporia celor dou! valori în e"antion cu proportia din populaia total! sau cu o alt! proporie teoretic! dat!.
-ntruc)t# pentru un volum suficient de mare al e"antionului# distribuia binomial$ poate fi apro*imat$ cu una normal$# testul binomial se realizeaz$ cu a(utorul statisticii * . 5ormula de calcul a acesteia este3
n p p
π π
unde p este proporia observat$# iar J este proporia teoretic$. aloarea calculat$ a statisticii * se compar$ cu cea tabelar$ corespunz$toare nivelului de semnificaie dorit de cercet$tor.
4. Lestul %i p$trat &
K= '
cest test se folos"te atunci c)nd studiem variabile categoriale av)nd trei sau mai multe categorii. ,*ist$ dou$ tipuri de teste %i p$trat3 univariat "i bivariat.
∑ =
− =
χ
unde cu Hi s+au notat valorile observate ale distribuie# iar cu > i valorile teoretice. aloarea teoretic$ a statisticii %i p$trat se caut$ în tabele corespunz$tor nivelului de semnificaie ales
"i num$rului de grade de libertate &acesta este num$rul de categorii al variabilei minus unu'. >estul hi pLtrat bivariat este folosit pentru a studia leg$tura dintre dou$ variabile categoriale.
Statistica se calculeaz$ cu formula3
∑∑ −

7ac$ aceast$ valoare este mai mare dec)t valoarea tabelar$ &teoretic$' vom putea afirma c$ e*ist$ o leg$tur$ între variabilele studiateH în caz contrar# vom spune c$ ele sunt independente.
Ja fel ca la testul %i p$trat bivariat# valoarea teoretic$ depinde de nivelul de semnificaie "i num$rul de grade de libertate. cesta din urm$ se determin$ cu relatia3 (6;$)(8;$)# unde cu 6 "i 8 am notat num$rul de categorii ale celor dou$ variabile.
@. Lestul de normalitate Oolmogorov+Smirnov
cest test compar$ o distribuie observat$ cu una normal$ "i ne spune dac$ respectiva distribuie poate fi considerat$ normal$ sau nu. paratul matematic utilizat pentru efectuarea acestui test este destul de complicatH ca urmare# nu vom insista aici asupra formulelor matematice.
E. Lestul Yann+W%itneZ &N' pentru compararea a dou$ e"antioane independente
Lestul mann+W%itneZ este ec%ivalentul testului t pe e"antioane independente studiat la capitolul E. ,l se utilizeaz! atunci c)nd avem de+a face cu variabile ordinale.
Pentru a efectua testul Yann+W%itneZ se calculeaz$ doua valori ale lui N# în felul urm$tor3
$ F n$n= I n$(n$ I $)<= N /$
= F n$n= I n=(n= I $)<= N /=
-n aceste formule# cu n s+au notal volumele e"antioanelor# iar cu / sumele rangurilor pentru grupurile 1 "i 4# respectiv &valorile celor dou$ grupuri se amestec$# sunt ordonate cresc$tor# iar apoi rangurile sunt a atribuite încep)nd de la 1'. Statistica se alege ca fiind cea mai mic$ dintre valorile $ "i =. Se poate demonstra c$ aceast$ statistic$ urmeaz$ o repartiie apro*imativ normal$. Scorul * se calculeaz$ cu formula3
M
M
c
M *
σ
µ − =
unde @ este media lui # iar este abaterea sa p$tratic$. ,le se calculeaz$ astfel3
4
=. Lestul Wilco*on W
Lestul W al lui Wilco*on se folose"te în acela"i scop ca "i testul # fiind o alternativ$ la acesta. Ja fel ca la testul Yann+W%itneZ valorile celor dou$ grupuri se amestec$ "i se ordoneaz$ cresc$tor# iar apoi sunt acordate rangurile încep)nd de la 1 p)n$ la cel mai mare &suma volumelor e"antioanelor'. /ici la acest test nu vom insista asupra formulelor matematice folosite.
:. Lestul Wilco*on >

cest test# care mai poart$ "i denumirea de Atestul semnului "i al ranguluiB este folosit pentru a determina dac$ dou$ e"antioane dependente &perec%i' sunt diferite sau nu. 7in acest punct de vedere este asem$n$tor cu testul t pentru e"antioanele perec%i# dar se utilizeaz$ atunci c)nd variabila studiat$ este ordinal$.
>
>
c
> t
σ
µ − =
Yedia "i abaterea p$tratic$ se calculeaz$ cu a(utorul e*presiilor de mai (os &n este volumul e"antionului'3
E
'1& + =
Utilizarea pro&ram"l"i 3 pentr" testele neparametrice
-n cadrul acestei seciuni vom utiliza# al$turi de fi"ierul Employee data,sav &cu care suntem de(a familiarizai'# alte dou$ baze de date Prima dintre ele este voter,sav# care conine date înregistrate pe un e"antion de 1;EM de aleg!tori americani# privitoare la alegerile prezideniale din 1??4 din SN. doua baz$ de date este 7887 U,, General ocial "rvey,sav# unde g$sim rezultatele unei anc%ete de opinie realizat$ în Statele Nnite în anul 1??1# pe un e"antion de 1=1M persoane. Loate aceste baze de date conin variabile categoriale "i ordinale utile scopului nostru.
0% >estul binomial
Pentru a demonstra aplicarea acestui test vom folosi fi"ierul voter,sav. S! presupunem c! dorim s! verific!m dac! proporia b!rbaifemei în acest e"antion de aleg!tori americani corespunde cu cea presupus$ a fi înt)lnit! în populaia total! &=0=0'. om utiliza comanda3
Analyze > .onpara'etric *ests > (ino'ial
-n fereastra A>est !ariable 8istB vom introduce variabila sex. -n c)mpul A>est EroportionB
se afl! trecut! de(a valoarea 0.=0# reprezent)nd distribuia teoretic! &=0=0' cu care vom compara distribuia din e"antion. 7ac! distribuia teoretic! este alta# vom sc%imba desigur variabila din acest c)mp.
-n partea din st)nga (os a casetei de dialog se observ! un cadran intitulat ADefine
Dichotom2B cu dou! opiuni3 A1et +rom DataB "i .ut EointB. 7ac! variabila cu care lucr!m este una categorial!# va r!m)ne selectat! prima opiune &cea implicit!'. 7ac! variabila este cantitativ!# o putem transforma într+una categorial! aleg)nd opiunea a doua "i indic)nd valoarea unde se face
4:

diviziunea dintre cele dou! categorii. 7e e*emplu# dac! s+ar pune problema s! test!m proportia aleg!torilor în v)rst! de peste E0 de ani# am alege opiunea A.ut EointB "i am introduce în c)mpul respectiv valoarea E0.
dat! ce ap!s!m butonul +4 # SPSS+ul ne d! rezultatul analizei3
inmial #e't Cate(ry % A='erved
Pr/. #e't Pr/. B'ym/.
ru/ 2 *emale 104 .56 #tal 1!47 1.00
a a'ed n D B//r8imatin.
Se poate observa c! din 1;EM de aleg!tori din e"antion# ;0E &EEF' sunt b!rbai# iar 10E@ &=:F' sunt femei. Regula de decizie este cea cunoscut!3 dac! valoarea lui ASig.B este mai mic! dec)t nivelul de semnificaie ales &0.0='# atunci putem spune c! e*ist! o diferen! semnificativ! între cele dou! proporii. ,ste "i cazul nostru de fa!3 nu putem afirma c! proporia b!rbai femei din e"antion o reproduce pe cea din populaia total! – femeile predomin! într+o proporie semnificativ!.
00% >estul hi pLtrat univariat
Uaza de date folosit$ pentru acest test va fi tot voter,sav. 7orim s! analiz!m acum distribuia inteniilor de vot pentru candidaii 2linton# Uus% sau Perot &variabila pres&='. Lestul %i p$trat univariat ne va spune dac$ voturile tind a se îndrepta în mod %ot$r)tor c$tre unul din candidai sau dac$# dimpotriv$# tind a se împ$ri în mod egal între cei trei candidai. Pentru a rula acest test apel!m comanda3
Analyze > .onpara'etric *ests > !/i)Suare
-n fereastra A>est !ariable 8istB introducem variabile pres&=. bserv!m apoi c! în cadranul A-xpected !aluesB ni se d! posibilitatea s! definim distribuia teoretic! cu care vom face comparaia. 7ac! dorim ca ea s! fie o ec%irepartiie# vom selecta opiunea A7ll .ategories -,ualB
&aceasta corespunde cazului teoretic în care inteniile de vot s+ar împ!ri egal între cei trei candidai'. -n caz contrar# vom introduce pe r)nd valorile distribuiei teoretice folosind opiunea A!aluesB.
p!s)nd butonul +4 obinem3
% )8/ected
% e'idual
Clintn 90! 615.7 292. #tal 1!47
#e't Stati'tic' VA#) FA C%#A%,
SE, P)A# C>i:Square 27.41
4M
Si(. .000
a 0 cell' .03 >ave e8/ected *requencie' le'' t>an 5. #>e minimum e8/ected cell *requency i' 615.7.
-n primul tabel observ!m valorile distribuiei reale &coloana a doua'# cele ale distribuiei teoretice# care sunt egale &coloana a treia'# precum "i diferenele dintre ele.
-n tabelul al doilea avem datele analizei. aloarea lui %i p!trat este @4M.@E1# iar num!rul de grade de libertate este 4 &numarul categoriilor variabilei minus unu'. -ntruc)t ASig.B este mai mic dec)t 0.0=# putem spune c! între cele dou! distribuii e*ist! diferene semnificative. 2u alte cuvinte# inteniile de vot n" tind a se împ!ri egal între candidaiH p!rerea lor este de(a format!# iar ma(oritatea opiunilor merg spre Uill 2linton# dup! cum se poate observa din primul tabel.
000% >estul hi pLtrat bivariat
-n cele ce urmeaz$# vom desc%ide fi"ierul Employee data,sav "i vom studia relaia dintre variabilele gender "i obcat &categoria anga(atului'. -ntruc)t ambele variabile sunt categoriale va trebui s$ folosim testul %i p$trat bivariat pentru a ne atinge scopul. Pentru aceasta vom cere programului s$ realizeze un tabel încruci"at# cu a(utorul comenzii &vezi capitolul 4'3
Analyze > Descriptive Statistics > !rosstabs
p$s$m butonul tatistics# iar în noua caset$ de dialog care se desc%ide select$m opiunea .hi;s,uare. Rezultatele analizei se g$sesc în tabelele ce urmeaz$.
ender < )m/lyment Cate(ry Cr''ta=ulatin Cunt
)m/lyment Cate(ry

ieli>d ati 95.46 2 .000 % * Valid Ca'e' 474
a 0 cell' .03 >ave e8/ected cunt le'' t>an 5. #>e minimum e8/ected cunt i' 12.0.
4;

7in cel de+al doilea tabel ne intereseaz$ cu prec$dere prima linie# care prezint$ rezultatele testului %i patrat. -ntruc)t valoarea ASigB este mai mic$ dec)t 0.0=# vom deduce c$ e*ist$ o leg$tur$ între cele dou$ variabile. "adar# b$rbaii si femeile nu sunt repartizai proporional pe cele trei categorii profesionale &funcionari# paznici "i manageri'.
0!% >estul de normalitate 6olmogorov;5mirnov
S! ne întoarcem la baza de date voter,sav. Problema pe care ne+o punem acum este dac$ variabila educ &nivelul studiilor respondenilor# e*primat în ani' se prezint$ sub forma unei distribuii normale. Pentru aceasta vom apela comanda3
Analyze > .onpara'etric *ests > 0 Sa'ple #)S
-n caseta de dialog desc%is$ vom introduce variabila educ ca variabil$ de analiz$. -n c%enarul A>est DistributionB este de(a selectat$ distribuia normal$H ap$s$m a"adar butonul +4 "i obinem urm$torul tabel3
Ane:Sam/le lm(rv:Smirnv #e't EE)S# )B AF
SCEAA CA&P)#)+ % 1!45
+eviatin 2.!4
&'t )8treme +i**erence' B='lute .14 P'itive .14 %e(ative :.1
lm(rv:Smirnv D 5.749 B'ym/. Si(. 2:tailed .000
a #e't di'tri=utin i' %rmal. = Calculated *rm data.
Interpretarea datelor din acest tabel se va face la ora de seminar.
!% >estul Mann;Ohitne2 pentru eantioane independente
om folosi în continuare baza de date voter,sav. om presupune c$ ne intereseaz$ dac! b!rbaii "i femeile din e"antion difer! în mod semnificativ între ei sub aspectul studiilor. Pentru aceasta vom folosi variabila degree# care este una ordinal! &0 corespunde sudiilor medii# iar E studiilor superioare'. om apela comanda3
Analyze > .onpara'etric *ests > 1 +ndependent Sa'ples
-n fereastra A>est !ariable 8istB introducem variabile degree# iar în c)mpul A1rouping !ariableB variabila sex. poi ap!s!m butonul Define Gro"ps "i definim cele dou! grupuri e*act cum am f!cut pentru testul t bivariat pentru e"antioane independente &vezi capitolul @'. -n cadranul A>est >2peB este de(a selectat testul Yann+W%itneZ &N'# a"a înc)t ap!s!m butonul +4 "i obinem3
#e't Stati'tic'
Gilc8n G 9594!.000 D :.92
B'ym/. Si(. 2:tailed .51 a ru/in( Varia=leH )SPA%+)%#S S)
cest tabel este cel mai important pentru analiz!# deoarece ne d! semnificaia testului. Se observ$ c$ programul ne furnizeaz$ "i valoarea testului O al lui Wilco*on. Regula de decizie este cea cu care ne+am obisnuit de(a3 trebuie s! compar!m valoarea lui ASig.B cu cea a nivelului de semnificaie ales de noi &0.0='. -ntruc)t aici avem 0.@=160.0=# vom tage concluzia c! b!rbaii si femeile nu difer! între ei în ceea ce prive"te nivelul de educaie. 7ac! diferena ar fi fost semnificativ!# atunci sensul ei ar fi fost dat de semnul notei P de pe r)ndul patru al tabelului.
!0% >estul Oilcoxon P pentru eantioane perechi
Pentru a e*emplifica acest test vom desc%ide fi"ierul 7887 U,, General ocial "rvey,sav. om lua în considerare urm$toarele variabile din baza de date3 obe2 &c)t de important$ este pentru respondent supunerea# ascultarea de autorit$i' "i popular &c)t de important este faptul de a fi popular# de a fi iubit "i apreciat'. 7orim s$ vedem dac$ e*ist$ o diferen$ untre aceste dou$ variabile atitudinale.
7eoarece aici nu avem de+a face cu variabile cantitative# ci mai degrab$ ordinale# este necesar s$ apel$m la testul semnului "i al rangului &testul P al lui Wilco*on' pentru a rezolva problema. 2omanda utilizat$ este3
Analyze > .onpara'etric *ests > 1 &elated Sa'ples
Ja fel ca la testul t pe e"antioane perec%i &capitolul E'# trebuie s$ introducem în fereastra din dreapta a casetei de dialog perec%ile de variabile care fac obiectul comparaiei &în cazul nostru# obe2
N popular '. Se observ$ c$ un caseta A>est >2peB este de(a selectat testul ilco*on# singurul care ne intereseaz$ în acest moment. p$s)nd butonul +4 obinem urm$torul rezultat3
an' % &ean
A=ey
P'itive an' 777 52.00 4165.00 #ie' 0
#tal 9!2
#e't Stati'tic' # e Gell ied r P/ular : # A=ey
D :19.742 B'ym/. Si(. 2:tailed .000

Interpretarea în detaliu a tabelelor o vom face la seminar. ici vom observa doar c$ e*ist$ o diferen$ semnificativ$ între cele dou$ variabile &statistica ASigB este mai mic$ dec)t 0.0='. Sensul
@0

diferenei este dat de semnul scorului P . Se observ$ c$ acest semn este minus. -ntruc)t pentru fiecare din cei doi itemi scorul cre"te pe m$sur$ ce importana scade &1 – cel mai important# = – cel mai puin important' deducem c$ pentru americani este mai important a fi popular dec)t a te supune în faa autorit$ilor.
Capitolul
Populaie i eantion
-n "tiinele sociale# populaia total! supus! studiului are cel mai adesea dimensiuni foarte mari – de ordinul miilor# sutelor de mii sau c%iar milioanelor de unit!i &aceste unit$i pot fi persoane individuale# familiigospod$rii sau organizaii'. -ntruc)t efectuarea unor studii pe întreaga populaie ar fi foarte costisitoare# se apeleaz! de regul! la cercet!rile statistice conduse pe un e"antion de volum mult mai redus dec)t cel al populaiei totale.
7ou! probleme se pot pune în leg!tur! cu e"antionarea3 + determinarea erorii de estimare a unui parametru &de regul! media unei variabile'# pe care
ne+o permite un e"antion dat "i + stabilirea volumului e"antionului care permite estimarea parametrului cu o eroare ma*im!
impus!.
S! presupunem c! dintr+o populaie total! format! din " unit!i se e*trage un e"antion de volum n. Yodul de calcul al indicatorilor statistici# at)t pentru populaia total! c)t "i pentru e"antion# este prezentat în tabelul urm!tor3
!aracteristic/ nealternativ/
!aracteristic/ alternativ/
Populaia total! &/' ,"antion &n' Yedia3 π &frecvena de apariie a st!rii AdaB sau 1 în populaia total!'
7ispersia3 '1&4 π π σ −=
Yedia3 p &frecvena de apariie a st!rii AdaB sau 1 în e"antion'
7ispersia3 s4[p&1+p'
@1
Ta#el"l 7, Parametrii populaiei "i cei ai e"antionului
Se observ! c! pentru a nota parametrii populaiei totale am folosit caractere grece"ti# iar pentru cei ai e"antionului caractere latine.
Yedia e"antionului m este un estimator &mai mult sau mai puin precis' pentru media populaiei totale \# care de regul! nu este cunoscut!. 7iferena ,[m+ \ poart! numele de eroare de estimare. Pe aceasta ne intereseaz! s! o determin!m.
Leoria statistic! ne spune c! dac! o variabil! are o distribuie normal! de medie \ "i dispersie D4# atunci mediile &m' ale e"antioanelor de volum dat n vor avea tot o distribuie normal!# de medie \ "i dispersie D4n &aceasta poart! numele de dispersie de selec1ie9, Proprietatea aceasta este foarte important! pentru e"antionare.
S! reprezent!m curba normal! a distribuiei mediilor e"antioanelor de volum n3
Fi&"ra 7, 2urba normal! a distribuiei mediilor e"antioanelor de volum n
,roarea de estimare , este de regul! fi*at! &impus!' de c!tre cercet!tor. Intervalul simetric &\ –,# \ G,' poart! numele de interval de 2ncredere, ria suprafaei de sub bolta curbei lui auss care corespunde acestui interval se nume"te nivel de 2ncredere, /ivelul de încredere ne arat! cu ce probabilitate garant!m estimarea noastr!. -n "tiinele sociale se folose"te de obicei un nivel de încredere de ?=F# ceea ce înseamn! c! putem garanta în proporie de ?=F c! eroarea de estimare nu va dep!"i nivelul , fi*at. 2u alte cuvinte# e*ist! un risc de =F ca eroarea real! s! dep!"easc! aceast! limit!. cest risc mai poart! denumirea de nivel de semnifica1ie al studiului.
2um vom estima eroarea în condiiile în care nu+l cunoa"tem pe \C 5!c)nd apel la scorurile *
. Pentru media m a unui e"antion oarecare# scorul * se calculeaz! astfel3
n
m *
Wσ
µ − =
@4

-ntruc)t dispersia populaiei totale nu este de regul! cunoscut!# ea se estimeaz! cu a(utorul unei anc%ete preliminare pe un e"antion pilot de @0+400 de persoane. Se presupune c! dispersia s= a acestui e"antion apro*imeaz! dispersia = a populaiei. -n acest caz putem rescrie ultima formul!3
n s
m *
W
µ − =
7e aici putem determina cu u"urin! eroarea m; @ pe care n+o asigur! un e"antion de volum dat n3
n
s * - =
-n ceea ce+l prive"te pe * # îl vom prelua din tabelele statistice. preciz!m c! vom folosi în e*emplele noastre un nivel de încredere al cercet!rii de ?=.EEF# c!ruia îi corespunde o valoare z[4.
7ac! dorim s! estim!m media populaiei cu o eroare ma*im! admisibil! ,# volumul e"antionului necesar pentru aceasta se calculeaz! cu urm!toarea formul! &dedus! din cea anterioar!'3
4
44
s * n =
-n cazul în care avem de+a face cu o caracteristic$ alternativ$# formula este aceea"iH se sc%imb$ doar modalitatea de calcul a dispersiei &vezi tabelul 1'3
4
− =
S! d$m acum dou$ e*emple concrete de calcul al volumului e"antionului3 unul pentru caracteristicile cantitative# altul pentru cele alternative.
,*emplul 1
S! presupunem c! din cei =000 de lucr!tori ai unei mari companii se e*trag în mod aleator 100. Yedia de v)rst! a e"antionului e*tras &m' este de EE de ani# iar abaterea medie p!tratic! & s' de 1= ani. Se pune întrebarea care este eroarea cu care media acestui e"antion estimeaz! media de v)rst! a lucr!torilor din companie# cu un nivel de încredere de ?=.EEF &z[4'.
Nn calcul simplu# cu a(utorul formulei de determinare a erorii prezentate mai sus# ne arat! c! aceast! eroare este de @ ani. "adar# putem spune c! media de v)rst! a lucr!torilor este situat! între E1 "i EM de ani &EE]@'# cu un nivel de încredere de ?=.EEF.
7ac! aceast! eroare de @ ani este mult prea mare "i nu poate fi tolerat$# va trebui s$ m$rim volumul e"antionului. S! presupunem c! se dore"te estimarea v)rstei medii a lucr!torilor cu o eroare ma*im! admisibil! & - ' de numai 1 an.
@@

,*emplul 4
Ja fel ca la e*emplul 1# desf$"ur$m studiul nostru într+o companie cu =000 de anga(ai# din care alegem la înt)mplare 100. 7intre ace"tia# :4 sunt c$s$torii &:4F'# iar @; nec$s$torii. plic)nd formula de calcul a erorii# a(ungem la concluzia c$ acest e"antion apro*imeaz$ procenta(ul anga(ailor c$s$torii cu o eroare de ]?.MF &=4.@F+M1.MF'. 7ac$ dorim o eroare de estimare mai redus$# de e*emplu =F# volumul e"antionului de studiu trebuie s$ fie de @MM de anga(ai.
E.antionarea aleatoare 2n 3
7ac$ dorim ca dintr+o baz$ de date de mari dimensiuni s$ e*tragem un mod aleatoriu un num$r de cazuri# putem face acest lucru cu a(utorul comenzii de filtrare cunoscute3
Data > Select !ases
-n caseta de dialog pe care ne+o prezint$ programul select$m opiunea /andom sample of
cases "i ap$s$m butonul ample. Se desc%ide o nou$ caset$# în care ni se ofer$ dou$ posibilit$i3 • s$ e*tragem un anumit procent din totalul cazurilor • s$ e*tragem un num$r e*act de cazuri. 7up$ ce ne e*prim$m opiunea# SPSS+ul alege în mod aleator cazurile care din e"antion "i le
Abareaz$B pe cele e*cluse. S$ presupunem c$ dorim s$ e*tragem aleatoriu circa 4=F cei EME anga(ai din fi"ierul
Employee data,sav. -n urma efectu$rii pa"ilor descri"i mai sus# SPSS+ul a selectat circa 11; cazuri din total. Loate analizele statisitce vor fi rulate acum doar pentru aceste cazuri.
Pentru a elimina filtrul# proced$m a"a cum am ar$tat la capitolul =3 e*ecut$m din nou comanda Data ( elect !ases "i alegem opiunea 7ll cases.
Capitolul !
naliza de regresie studiaz! leg!tura dintre o variabil! dependent "i una sau mai multe variabile independente# prin intermediul unei ecuaii de regresie. -n cadrul cursului de fa$ vom discuta doar despre regresia liniarL # a c$rei ecuaie are forma3
e xb xb xbb 2 k k +++++= ...44110
unde3
@E

+ Z este variabila dependent &numit! "i cau*at sau endogen'H + *1# 8# *^ sunt variabilele independente &numite "i cau*ale sau exogene'H + b0 este a"a+numitul Atermen liberBH + b1# 8# b^ sunt coeficienii &sau parametrii' de regresieH + e este numit! variabil re*idual sau de perturbaie. pariia sa în modelele de regresie se
datoareaz! faptului c! relaia dintre variabila dependent! "i cele independente nu este una strict!# determinist!# ci una statistic!. Pentru fiecare unitate din e"antion# variabila rezidual! se calculeaz! ca diferen! între valoarea real &sau observat' a lui Z "i cea calculat &sau estimat' prin ecuaia de regresie de mai sus. ariabila e Acolecteaz!B a"adar influenele tuturor factorilor necunoscui sau înt)mpl!tori# dificil de estimat# precum "i erorile de m!surare.
Loate variabilele care intervin într+o analiz$ de regresie sunt variabile cantitative &metrice'. 7ac! e*ist$ o singur! variabil! independent! în model# vorbim de o regresie simpl# iar dac! intervin dou! sau mai multe variabile independente avem de+a face cu o regresie multipl.
Rezultatele cele mai importante ale unei analize de regresie sunt3
+ coeficienii &sau parametrii de regresie'. ce"tia ne arat! cu c)t se modific! variabila dependent! în urma modific!rii cu o unitate a uneia din variabilele independente.
+ coeficientul de corelaie multipl &notat R 4'# care ne arat! procenta(ul din variaia lui Z care este Ae*plicatB de influena variabilelor independente. 7e pild!# o valoare a lui R 4 de 0.?0 ne indic! faptul c! evoluia variabilei Z este determinat$ în proporie de ?0F de variabilele independente *1# 8# *^ # iar restul de 10F se e*plic! prin alte influene# neluate în considerare în model.
+ valoarea testului + . cest test verific$ e*istena unei dependene liniare între variabila 2 "i variabilele independente. -n cazul în care testul + este nesemnificativ# leg$tura ar putea s$ nu fie liniar$.
+ valoarea testelor de semnificaie pentru coeficienii de regresie. 7ac! parametrul de regresie al uneia din variabilele independente nu difer! semnificativ de 0# este posibil ca variabila respectiv! s! fie redundant!.
-ntr+o serie de situaii particulare# pot fi introduse în modelel de regresie "i anumite variabile calitative &nemetrice'# "i anume variabilele de tip dumm2. variabil! dummZ este o variabil! care poate lua doar dou! valori &danu# b!rbaifemei# mediu urbanmediu rural etc.'# notate convenional cu 1 "i 0. 7esigur# ar putea fi folosite oricare alte cifre pentru a nota valorile unei variabile dummZ# dar acest lucru ar duce la o serie de inconveniente. asemenea variabil! poate fi utilizat! într+o ecuaie de regresie în acela"i mod ca o variabil$ cantitativ$.
Analiza de re&resie 2n 3
-n e*emplul de analiz! de regresie ce urmeaz$ vom folosi tot baza de date Employee data,sav, 2a variabil! dependent! vom considera salariul actual & salar2'# iar ca variabile independente salariul de început & salbegin'# vec%imea în banc! & obtime' "i nivelul de educaie &educ'. Pentru a rula analiza de regresie vom apela comanda3
Analyze > &e2ression > 3inear
-n c)mpul ADependentB introducem variabila salar2# iar în c)mpul A0ndependent(s)B
introducem cele trei variabile independente. p!s!m +4 pentru a rula analiza.
Iat! tabelele de output care ne intereseaz!3
&del Summary &del Square BdIu'ted
Square Std. )rrr * t>e
)'timate 1 .!95 .!01 .!00 $7,646.00
a Predictr'H Cn'tant, )ducatinal evel year', &nt>' 'ince Eire, e(innin( Salary = +e/endent Varia=leH Current Salary
-n acest tabel ne este prezentat un sumar al analizei. 2ea mai interesant! pentru noi este penultima coloan!# unde putem vedea coeficientul de corelaie multipl!# egal cu 0.;0 pentru aceast! analiz!. ceasta înseamn! c! salariul curent al unui lucr!tor este determinat în proporie de ;0F de cele trei variabile independente "i în proporie de 40F de alte influene# neluate în calcul aici.
B%AVB &del Sum *
6!1214 46.50!
47
a Predictr'H Cn'tant, )ducatinal evel year', &nt>' 'ince Eire, e(innin( Salary = +e/endent Varia=leH Current Salary
cest tabel ne prezint! rezultatele analizei / pentru modelul nostru de regresie. 7up$ cum spuneam în seciunea anterioara# testul + ne arat$ dac! ipoteza relaiei liniare între variabilele noastre este corect!. Regula de decizie este simpl!3 ipoteza relaiei liniare este corect! dac! valoarea factorului ASig.B din ultima coloan! este mai mic/ dec)t nivelul de semnificaie ales de noi &0.0='. -n caz contrar# va trebui s! lu!m în considerare construirea unui alt tip de relaii &neliniar!' între variabilele în cauz!.
Ce**icient' n'tandar
diJed Ce**icient
199!6.502 26.616 :6.175 .000
e(innin( Salary
&nt>' 'ince Eire
)ducatin al evel
@:

year' a +e/endent Varia=leH Current Salary
7in acest tabel ne intereseaz! cu prec!dere dou! coloane3 cea a coeficienilor &a treia' "i cea a valorii testelor de semnificaie pentru coeficieni &ultima'. ici putem observa c! toi coeficienii sunt semnificativi &valorile factorilor ASig.B sunt mai mici dec)t 0.0='. ,cuaia noastr! de regresie se scrie astfel3
salar2 F ;$&&Q'%RS= I $%'Q& salbegin I $RR%TS$ obtime I &''%$ST educ I e
Pe baza acestei ecuaii putem face diverse analize asupra variabilei dependente &salariul curent'# în funcie de ceea ce ne intereseaz! mai mult. stfel# putem constata c!3
+ dac! doi lucr!tori au aceea"i vec%ime în banc! "i acela"i nivel de educaie# dar unul "i+a început slu(ba cu un salariu cu 1000 de dolari mai mare# acesta din urm! va avea acum &în medie' un salariu anual cu 1:;? dolari mai mare dec)t cel!laltH
+ un lucr!tor care are o vec%ime mai mare cu 10 luni dec)t cel!lalt va avea un salariu cu cca 1==M de dolari mai mare# dac! toate celelalte &salariul iniial "i nivelul de educaie' sunt acelea"iH
+ orice an în plus ad!ugat la nivelul de educaie se traduce într+un spor mediu de salariu de cca ?:: dolari.
e'idual' Stati'tic' &inimum &a8imum &ean Std. +eviatin %
Predicted Value $16,662.55 $145,55.69 $4,419.57 $15,200.1 474 e'idual :$29,5!0.6 $49,21!.41 $.00 $7,7!0.02 474
Std. Predicted Value
:1.16! 7.29! .000 1.000 474

S$ introducem acum în nodelul nostru o variabil$ de tip dumm2. Pentru aceasta vom transforma prin recodificare variabila gender în variabila dummZ gendum# care are valorile 1 pentru b!rbai "i 0 pentru femei. poi vom rula din nou analiza de regresie# introduc)nd variabila gendum
al!turi de cele dou$ variabile independente iniiale. Labelele de output sunt urm!toarele3
&del Summary &del Square BdIu'ted
Square Std. )rrr * t>e
)'timate 1 .!96 .!02 .!00 $7,61.6!
a Predictr'H Cn'tant, )%+&, &nt>' 'ince Eire, )ducatinal evel year', e(innin( Salary
= +e/endent Varia=leH Current Salary
B%AVB &del Sum *
47
a Predictr'H Cn'tant, )%+&, &nt>' 'ince Eire, )ducatinal evel year', e(innin( Salary
= +e/endent Varia=leH Current Salary
Ce**icient' n'tandar
diJed Ce**icient
19455.!2! 246.2!2 :5.99 .000
&nt>' 'ince Eire
)ducatin al evel year'
942.16 15!.2!6 .159 5.952 .000
)%+& 125.7!7 797.4 .09 1.66 .097
7in punctul de vedere al preciziei modelului# introducerea variabilei gendum nu aduce nici o îmbun!t!ire3 R 4 este acela"i. Ipoteza liniarit!ii modelului se verific! &tabelul al doilea'# în sc%imb coeficientul variabilei gendum nu este semnificativ &tabelul al treilea# coloana ASig.B# ultimul r)nd'. 7ac! accept!m totu"i variabila gendum ca variabil! independent!# putem deduce din valoarea coeficientului s!u c! b!rbaii au în medie un salariu cu cca 1@4: dolari mai mare dec)t femeile.
Capitolul %
naliza de varian$ este o procedur$ statistic$ folosit$ pentru a studia relaia între o variabil$ dependent$ cantitativ$ "i una sau mai multe variabile independente calitative &categoriale'. ,a se mai nume"te "i analiz! dispersional! sau# prescurtat# / &acronim de la cuvintele engleze"ti A'alZsis +f VAriance'.
tunci c)nd în model este inclus$ o singur$ variabil$ independent$ &numit$ "i factor ' vorbim de / unifactorial$# iar dac$ avem doi sau mai muli factori atunci ne afl$m în faa unui model / multifactorial. om trata aceste dou$ tipuri de analiz$ de varian$ separat.
1. / unifactorial$
naliza de varian! unifactorial$ descompune variana &sau dispersia' populaiei studiate în dou! componente3
+ variana inter;grupuri &between groups variance'# cauzat! de diferenele care e*ist! între mediile grupurilor din populaia total! &grupuri care sunt de fapt categoriile factorilor'H
+ variana intra;grupuri &within groups variance' care ne arat! c)t de dispersate sunt# în medie# valorile individuale ale variabilei în cadrul fiecarui grup. 2u c)t valoarea raportului dintre variana inter+grupuri "i cea intra+grupuri este mai mare cu
at)t mai mare este influena factorului asupra variabilei independente. ceast$ influen$ se e*prim$ în mod concret prin diferenele semnificative dintre mediile pe grupuri ale variabilei dependente. cest raport se testeaz! statistic utiliz)nd testul 5# denumit astfel dup! numele statisticianului britanic Ronald 5is%er# creatorul s!u.
Lestul 5 ne indic$ faptul c$ e*ist$ probabil diferene între nivelele factorilor# dar nu ne spune unde se g$sesc aceste diferene "i c)t de mari sunt ele. 7e asemenea# el nu ne ofer$ o ordonare a nivelelor factorilor dup$ influena lor asupra vaiabilei dependente.
ceast$ problem$ poate fi rezolvat$ introduc)nd noiunea de contrast. 2ontrastul# notat aici cu O# este definit ca o combinatie liniar$ a mediilor grupurilor &nivelelor factorilor'.
∑= ii mc 6
unde cu m sunt notate mediile grupului# iar cu c reprezint$ ni"te ponderi care îndeplinesc relaia3
0=∑ ic
Pentru a înelege cum se stabilesc ponderile la definirea unui contrast# vom apela la un e*emplu. S$ presupunem c$ variabila categorial$ implicat$ în model are trei nivele# mediile fiec$rui nivel fiind m$# m= "i mU. 7orim s$ studiem diferena dintre primele dou$ grupuri# luate împreun$# "i grupul al treilea. Ipoteza nul$# care afirm$ c$ între aceste grupuri nu e*ist$ nici o diferen$# se e*prim$ prin relaia3
0 4
04 @41 =−+ mmm
"adar# primelor dou$ grupuri le va fi atribuit$ ponderea 1# iar grupului al treilea ponderea +4. Suma ponderilor este# desigur# zero.
@?

ames+_oell'. Pentru a "ti ce teste trebuie folosite# programul SPSS ne ofer$ rezultatul testului 5 al lui Jevene pentru egalitatea varianelor.
-n cadrul orelor de seminar vom demonstra în detaliu modul de utilizare a procedurilor SPSS pentru / unifactorial$.
4. / multifactorial$
ceast$ te%nic$ de analiz$ a datelor se folose"te atunci c)nd avem de studiat leg$tura dintre o variabil$ dependent$ numeric$ "i dou$ sau mai multe variabile independente categoriale &factori'. 5actorii ce intervin în aceast$ analiz$ pot fi de dou$ tipuri3
+ factori fici4 al c$ror efect poate fi controlatH + factori aleatori# al c$ror efect este incontrolabil.
l$turi de factori# în model pot ap$rea "i covariatele. ceste covariate sunt variabile de tip numeric presupuse a fi corelate cu variabila dependent$. Prin introducerea covariatelor se verific$ dac$ factorii fic"i au influen$ asupra variabilei dependente indiferent de aciunea factorilor covariani.
Nn model de analiz$ / multifactorial poate fi de dou$ feluri3 + complet & full factorial '# atunci c)nd conine toate efectele posibile "i toate
combinaiile de factoriH + modificat &custom'# atunci c)nd# un vederea simplific$rii modelului# sunt luate în
considerare numai efectele unor anumii factori sau combinaii de factori. ,fectele studiate în cadrul unui model pot fi3
+ efecte principaleH + efecte ale interaciunii dintre variabile.
2a "i în cazul modelului unifactorial# este posibil$ determinarea diferenelor dintre nivelele factorilor# cu a(utorul contrastului. -n programul SPSS sunt disponibile urm$toarele tipuri de contraste3
+ DeviationV compar$ media fiec$rui nivel cu media general$. /ivelurile factorilor pot fi în orice ordineH
+ 5impleV compar$ media fiec$rui nivel cu media unui nivel specificat. cest tip de comparaii este util atunci c)nd e*ist$ un grup de control. Se poate alege ca grup de referin$ primul sau ultimulH
+ Difference: compar$ media fiecarui nivel &cu e*cepia primului' cu cea a nivelelor anterioareH
+ WelmertV compara media fiec$rui nivel &cu e*cepia ultimului' cu cea a nivelelor urm$toareH + /epeatetV compar$ media fiec$rui nivel &cu e*ceptia ultimului' cu cea a nivelului urm$torH + Eol2nomia

Mediul de Lucru SPSS

Documents