-
Capitolul 1. Tehnici de explorare a datelor
ntr-o cercetare a lumii nconjurtoare ne bazm, de regul, pe
existena unui numr de indivizi distinci ai unei populaii studiate.
n legtur cu aceti indivizi (obiecte sau cazuri) urmrim una sau mai
multe mrimi care, credem noi, i caracterizeaz; acestea sunt numite
caracteristici. Cercetarea poate fi fcut fie n mod exhaustiv, lund
n studiu toat populaia ceea ce este foarte costisitor atunci cnd
populaia este numeroas fie prin eantion alegnd, dup reguli bine
precizate, un grup reprezentativ al populaiei. Cercettorul n
analiza datelor nu este ns interesat de aceste detalii; lui i se
ofer nite informaii prezentate n general sub forma unui tabel
(matrice) de date. El are ca sarcin s extrag din acest tabel de
date ct mai mult informaie semnificativ sub form numeric i/sau
grafic i s-o prezinte ntr-o form ct mai restrns ct mai puine linii
i coloane. Odat acest deziderat realizat, orice decizie viitoare
privind comportamentul populaiei studiate poate fi explicat prin
argumente tiinifice.
1.1 Matrice de date exemple practice n aceast seciune ne vom
referi la exemplele prezentate n Anexele
1 i 2 ale materialului. Toate acestea conin informaii primare,
din diverse domenii economice, prezentate sub forma unei matrice de
date. Vom descrie natura informaiei din aceste exemple i posibile
analize efectuate asupra lor.
Exemplul 1. Problema unui dealer de autoturisme Informaiile de
care dispune un dealer de autoturisme sunt
prezentate n tabelul 1 din Anexa 1. Acest tabel conine
caracteristicile unor mrci de autoturisme oferite spre vnzare.
Tabelul (matrice) are 26 de linii corespunztoare mrcilor de
autoturisme analizate i 7 coloane, reprezentnd preul i alte
caracteristici tehnice i de confort ale autoturismelor. Dealerul
dorete s afle, folosind tabelul de date, ce caracteristici ale
mainilor sunt definitorii n decizia unui client de a cumpra un
autoturism. Exist oare n viziunea cumprtorului clase (grupuri) de
autoturisme? Dac da, care sunt acestea?
Exemplul 2. Problema unui investitor Un investitor are informaii
privind principalii indicatori financiar-
contabili calculai din bilanurile contabile ale unui lot de
firme
-
(vezi tabelul 2 din Anexa 1). Acetia pot fi ns foarte numeroi.
Investitorul nu ar renuna n analiza lui, fr argumente bine
precizate, la nici unul dintre indicatori. Singur, nu are
capacitatea de a-i selecta pe cei mai importani, i nici nu poate s
ordoneze firmele dup potenialul (bonitatea) lor innd seama de toi
indicatorii. Dac, s-ar putea calcula nite scoruri ale firmelor pe
seama unor indicatori sintetici dedui din indicatorii iniiali,
atunci decizia investitorului nu ar mai fi pur subiectiv, ea ar
avea un suport tiinific i probabil c riscul asociat deciziei de a
investi ar fi mai mic.
Exemplul 3. Studiul indicatorilor de calitate a vieii n plin
proces de globalizare este important s tim la ce distan
suntem de alte ri ale Europei sau chiar fa de alte ri ale lumii.
Indicatorul sintetic numit calitatea vieii, bine definit de
specialiti, ne poate ajuta s rspundem la aceast ntrebare. Putem
folosi informaii ca cele din tabelul 3 al Anexei 1 n care sunt
prezentate principalele elemente ce stau la baza calculului
indicatorului de calitate a vieii pentru un numr de 23 de ri ale
lumii. n tabel (matrice) sunt prezentate urmtoarele date (la
nivelul anului 1992): sporul natural al populaiei, mortalitatea
infantil, gradul de urbanizare, numrul de medici la mia de
locuitori, numrul de receptoare de televiziune la mia de locuitori,
rata inflaiei, cheltuielile pentru educaie, cele pentru aprare,
importul i exportul precum i consumul de energie pe locuitor. Oare
toi aceti indicatori au aceeai importan n exprimarea indicatorului
sintetic calitatea vieii? Dac nu, se pot identifica doi sau trei
indicatori sintetici pe baza crora s putem ordona rile din punctul
de vedere al calitii vieii locuitorilor? Care ar fi poziionarea
Romniei n aceast clasificare, ce ri ne-ar fi apropiate din acest
punct de vedere?
Exemplul 4. Studiul repartiiei bugetului Dac dispunem de
informaii anuale pe o perioad mare de timp
privind repartiia bugetului unei ri, putem oare identifica
momentele strategice importante privind politica rii respective? Ca
exemplu tipic vom folosi datele prezentate n tabelul 4 al Anexei 1,
tabel (matrice) ce conine repartiia bugetului Franei n perioada
1872-1971. Folosind tehnicile analizei datelor pot fi puse n eviden
momentele premergtoare celor dou rzboaie mondiale, care au fost
precedate de alocri mai mari din buget spre cheltuielile militare,
dar i momentele de acalmie ntre cele dou rzboaie mondiale i dup al
doilea rzboi mondial, cnd bugetul a fost repartizat cu predilecie
spre activiti de nvmnt i asisten social.
-
Exemplul 5. Analiza rentabilitii unui portofoliu n constituirea
unui portofoliu putem s folosim informaii de tipul
celor coninute n tabelul 5 al Anexei 1. Dispunem de un numr de
13 companii din domeniul ITC, companii
listate pe S&P 500. Ele apar ca linii n tabelul de date;
fiecare linie conine informaii privind evoluia tranzaciilor
aciunilor pe piaa de capital n doi ani consecutivi, adic: preul la
deschidere, preul la nchidere, preul minim i preul maxim, volumul
tranzaciilor, ctigul (n %) etc. (toate ca valori medii ale anului
respectiv). Ne mai intereseaz s estimm rentabiliti ale activelor i
eventualele riscuri n constituirea unui portofoliu. n acest scop
putem apela tehnici de clasificare care s evidenieze factorii
lateni care au guvernat tranzacia activelor din portofoliu pe
perioada analizat, de asemenea putem clasifica companiile n grupuri
ct mai omogene n ceea ce privete evoluia indicatorilor analizai n
dinamic, etc.
Exemplul 6. Analiza riscului returnrii unui credit Tabelul 6 din
Anexa 1 conine informaii sub forma unei matrice de
date. Pe linii sunt clienii unei bnci (selecie din totalul
clienilor) ) ce au solicitat credite. Pe coloane avem o serie de
elemente privind informaii financiare i demografice pentru fiecare
client. n matricea datelor o importan aparte o are coloana nou n
care se specific, ntr-o form codificat, dac clientul a avut nainte
probleme de rambursare a vreunui credit sau nu. Astfel, din start
clienii sunt grupai n dou clase: una a celor cu probleme de
rambursare, iar cealalt a celor fr antecedente. Tehnicile de
clasificare i analiz a discriminrii ne permit s precizm prin ce
combinaii de atribute financiare i demografice pot fi caracterizai
clienii din fiecare clas i s facem previziuni asupra comportrii
unor clieni noi al bncii privind ncadrarea lor ntr-o clas sau
alta.
Exemplul 7. Informaii dintr-un chestionar Analiza datelor
constituie un suport foarte important pentru deciziile
privind marketingul tiinific. Perceperea unui produs de ctre un
segment de cumprtori, gradul de saturare al pieei produsului i
decizia de lansare a unui produs nou (sau ntr-o form nou) sunt
materializate folosind tehnica chestionarului i analiza datelor.
Prezentm n Anexa 2 un asemenea chestionar realizat n scopul
identificrii strii actuale privind dotarea populaiei cu aparate
audio-video, mrcile de televizoare mai cunoscute i cele preferate
la o eventual achiziionare de ctre cumprtori.
-
1.2 Scri de msurare ale caracteristicilor Putem afirma c toate
exemplele date anterior conin informaii ntr-
un tabel matrice de date (vezi tabelul 1). n general, fiecare
linie reprezint un individ (obiect) din mulimea celor studiai, pe
coloane regsindu-se caracteristicile urmrite. S presupunem c avem n
indivizi asupra crora studiem p caracteristici notate C1, C2, , Cp.
Matricea de date o putem scrie ( )
pjniijxX
,...,2,1;,...,2,1 === . n aceast matrice un element
exprim valoarea caracteristicii j msurat pentru individul i. De
exemplu, dac folosim datele din tabelul 1 al Anexei 1, autoturismul
Opel Corsa Swing este al 10-lea individ (obiect) n tabelul de date,
iar elementul
13050 reprezint caracteristica pre (n $) a mainii
respective.
ijx
=1,10xDatele din tabelul 1 al Anexei 1 sunt, prin urmare, un
exemplu de
matrice (tabel) de forma indivizi caracteristici.
Tabelul 1. Forma general a matricei indivizi caracteristici
Caracteristicile
C1 C2 Cj Cp 1 x11 x12 x1j x1p 2 x21 x22 x2j x2p i xi1 xi2 xij
xip
Ind
iviz
ii
n xn1 xn2 xnj xnp
Precizarea scrilor de msurare ale caracteristicilor observate,
pe grupul de indivizi, este esenial n identificarea tehnicii de
modelare i analiz. Fiecrei caracteristici i se asociaz o scar de
msurare conform cu natura informaiei coninute i cu modul n care o
percepem. Dup precizarea scrii de msurare, caracteristica respectiv
va fi reprezentat printr-o aa numit variabil. Explornd tabelele de
date prezentate n exemplele anterioare putem afirma c exist o mare
diversitate n a exprima ansamblul indivizi caracteristici. n
exemplul 1 avem ca indivizi tipurile de autoturisme, iar
caracteristicile sunt preul, viteza, consumul de carburant etc.
Remarcm faptul c aceste caracteristici sunt transformate n
variabile prin exprimarea n uniti clasice de msur: monetare,
kilometri la or, litri la suta de kilometri etc. n exemplul 2
indicatorii de bonitate calculai pentru firme sunt rate, adic
rapoarte ale diverselor mrimi din documentele contabile. Aceste
mrimi indicatorii devin variabile numerice
-
cantitative; evident, ncadrarea valorilor fiecrui indicator
ntr-un anumit interval este foarte important. Bineneles, exemplele
pot continua.
n general, variabilele pot fi clasificate n: variabile continue
(cantitative) i variabile categoriale (calitative).
A) Variabilele continue provin din caracteristici ce exprim
atribute cantitative ale indivizilor. Scara lor de msur este
continu, putnd acoperi n general un interval de valori. De exemplu,
preul unui autoturism sau unui activ financiar este o variabil
continu; de obicei ia valori numerice (exprimate n lei, euro etc.)
cuprinse ntre un minim i un maxim. Cu aceste valori se pot efectua
cele patru operaii aritmetice clasice, iar indicatorii statistici
relevani, calculai pe baza valorilor observate, sunt media i
abaterea medie ptratic. i variabilele ale cror valori sunt
exprimate n procente sau n rate (vezi aplicaia 2) sunt variabile
continue.
B) Variabilele categoriale provin din caracteristici care exprim
atribute calitative. Aceste variabile au dou sau mai multe nivele
de valori, nivele numite modaliti sau categorii. Exist o
subclasificare a lor n trei grupe, astfel:
B1) Variabilele nominale au de obicei mai mult de dou nivele. De
exemplu, caracteristica Nivelul educaiei din Exemplul 6 al Anexei
1, este o variabil nominal avnd modalitile:
Fr liceu codificat prin 1 Doar cu liceu codificat prin 2
Facultate neterminat codificat prin 3 Liceniat codificat prin 4
Postuniversitare codificat prin 5
B2) Variabilele binare au doar dou valori-nivele. n Exemplul 6
din Anexa 1 variabila Probleme anterioare de rambursare are dou
nivele (modaliti):
Nu codificat prin 0 Da codificat prin 1.
B3) Variabilele ordinale sunt variabile ale cror nivele, de
obicei mai mult de dou, pot fi comparate ntre ele. n general, n
situaiile ntlnite n cercetarea de marketing, la aceste variabile
respondentul unui chestionar alege un rspuns din cteva rspunsuri
posibile, ordonate calitativ; el i exprim astfel, n mod
preferenial, opinia sa despre un anumit atribut.
-
Putem da ca exemplu de variabil ordinal rspunsul la o ntrebare
din chestionarul din Anexa 2, i anume la ntrebarea:
n alegerea unei anumite mrci de aparat, n ce msur v influeneaz
reclama? M influeneaz
foarte mult mult potrivit puin deloc 1 2 3 4 5 Se observ c
acestor rspunsuri de natur calitativ li se asociaz cte
un cod numeric (1, 2 .a.m.d.).
1.3 Explorarea variabilelor continue n exemplele prezentate n
1.2 apar o serie de caracteristici ale unor
grupuri de indivizi crora li se asociaz scri de msurare
continue. O asemenea scar acoper, de regul, un interval de valori.
Putem vorbi n acest sens de preul (n lei sau valut) al unor
autoturisme, de preul n dinamic al unui activ financiar
tranzacionat pe piaa de capital dar i de ratele financiare asociate
n analiza bonitii unor firme sau de diverse valori procentuale. n
exemplele prezentate informaiile apar ca matrice de date de forma
indivizi caracteristici iar prelucrarea lor primar se realizeaz, de
regul, n dou etape i anume:
A) prelucrarea independent a cte unei variabile; B) prelucrarea
comun a dou sau mai multe variabile. S analizm, pe rnd, cele dou
etape.
A) Prelucrarea independent a cte unei variabile presupune
selectarea, din matricea de date ( )
pjniijxX
,...,2,1;,...,2,1 === , a cte unei
coloane ce reprezint valori observate asupra unei variabile de
tip continuu. Pentru simplificare, s notm elementele matricei
corespunztoare acestei variabile selectate cu . Secvena aleas
reprezint valori observate asupra celor n indivizi din analiza
noastr. Primele informaii statistice legate de valorile se refer la
evaluri ale tendinei centrale; acestea sunt:
T21 ),...,,( nxxx
nxxx ,...,, 21
a) Media, notat , se calculeaz cu formula xm =
n
iixn
1
1 , ea fiind un
indicator important al tendinei centrale.
-
b) Mediana este asociat secvenei ce reprezint valorile ordonate
cresctor. Ea este acea valoare (nu neaprat dintre valorile ) pentru
care numrul valorilor din secvena care-i sunt mai mici este acelai
cu numrul valorilor care-i sunt mai mari.
)()2()1( ,...,, nxxx
nxxx ,...,, 21nxxx ,...,, 21
)()2()1( ,...,, nxxx
c) Modul este acea valoare cu frecvena cea mai mare de apariie.
(El nu este n mod necesar unic.)
Figura 1. Evaluri ale tendinei centrale
modul
mediamediana
media
modul
mediana
a) Repartiie asimetric (right skewed) b) Repartiie asimetric
(left skewed)
modul=mediana=media
c) Repartiie simetric
Pentru a evalua mprtierea datelor se folosesc urmtorii
indicatori:
a) Variana (dispersia), notat , este calculat cu formula 2xs
=
n
ixi mxn
1
2)(1
1 . (1)
b) Abaterea standard, notat , este calculat cu formula xs
=
n
ixi mxn
1
2)(1
1 . (2)
-
c) Amplitudinea este calculat ca diferen ntre valoarea maxim i
valoarea minim a valorilor . nxxx ,...,, 21Este important ca,
pentru diverse tipuri de distribuii ale frecvenelor
valorilor , s punem n eviden relaii de ordine ntre cei trei
indicatori ai tendinei centrale. Prezentm n figura 1 cele trei
situaii posibile. Astfel, n figura 1 c) prezentm o repartiie
simetric pentru care cei trei indicatori ai tendinei centrale
coincid. n figura 1 a) i 1 b) avem repartiii asimetrice, prima
fiind skewed dreapta iar cea de-a doua fiind skewed stnga. Relaiile
de ordine ntre cele trei valori pentru mod, median i medie sunt
evideniate clar n graficele menionate.
nxxx ,...,, 21
Exemplu: Fie secvena de ase numere 2, 5, 0, 9, 0, 7 reprezentnd
observaii asupra a ase indivizi. Secvena ordonat cresctor o obinem
imediat, ea este 0, 0, 2, 5, 7, 9. Valorile ce msoar tendina
central sunt: media = 3.83, mediana se afl ntre valorile 2 i 5,
prin interpolare putem lua valoarea 3.5. Se observ faptul c mediana
separ secvena de valori ordonate n jumtate, 50% dintre valori fiind
mai mici dect ea i 50% dintre valori fiind mai mari dect ea. Modul
valorilor 2, 5, 0, 9, 0, 7 adic valoarea cu frecvena cea mai mare
este 0 (aici frecvena maxim este 2).
Media, mediana i modul sunt trei indicatori ai localizrii
centrului valorilor dintr-o secven de date. n analiza repartiiei
valorilor observate, la fel de importante sunt i alte msuri ale
localizrii datelor. Acestea sunt cunoscute sub numele de percentile
i cuartile, i sunt asociate secvenei de valori . )()2()1( ,...,,
nxxx
1) Percentila de ordinul p este acea valoare, notat aici , care
are proprietatea c p% dintre valorile secvenei sunt mai mici dect
ea i (100 p)% dintre valori sunt mai mari dect ea.
pP
2) Cuartila inferioar, notat , este percentila 25. 1Q
3) Cuartila de mijloc, notat , este percentila 50. Se observ
faptul c cuartila este tocmai mediana.
2Q
2Q4) Cuartila superioar, notat este percentila 75. 3Q
Cuartilele se folosesc pentru a analiza dispersia valorilor
secvenei calculndu-se cu ajutorul lor aa-numitul indicator
inter-
quartile (notat IQR). El este calculat ca diferena dintre
percentila 75 ( ) i percentila 25 ( ). n cazul unei repartiii
normale a datelor acest interval trebuie s fie aproximativ 1.35 din
abaterea standard a datelor.
nxxx ,...,, 213Q
1Q
-
Tratarea punctelor aberante. Uneori, n secvena de valori este
semnalat prezena unor valori outliers (aberante ca
mrime n raport cu celelalte). n aceste situaii unii indicatori
de localizare central sunt mult denaturai (deplasai) i este indicat
s calculm aa numitele medii robuste. Acestea ncearc s elimine
efectul valorilor aberante (fr a afecta rezultatele). Dintre
mediile robuste amintim:
nxxx ,...,, 21
1) Media winsorizat 95%, n calculul creia primele 2.5% dintre
valorile ordonate sunt nlocuite cu percentila 2.5 i ultimele 2.5%
dintre valori sunt nlocuite cu percentila 97.5.
2) Media trunchiat 95%, trimmed mean, este calculat excluznd
primele 2.5% i ultimele 2.5% dintre valorile secvenei ordonate.
Tehnicile grafice sunt foarte relevante i n cazul variabilelor
continue. Putem reprezenta datele sub form de histograme, box
plot-uri (vezi figura 3), high-low plot-uri.
Exemplu. S considerm variabila Preul la deschidere (coloana
corespunztoare anului 2000 din Exemplul 5, Anexa 1). Aceasta este o
variabil continu, valorile ei exprimnd preul la deschiderea bursei
pentru aciunile celor 13 companii (sunt valori medii anuale).
Pentru a face o apreciere general asupra evoluiei unui portofoliu
compus din aceste aciuni, ne intereseaz indicatorii de centrare i
de mprtiere ai variabilei pre. Prezentm n tabelul 2 valorile
indicatorilor prezentai mai sus, outputul fiind de tip SPSS.
Tabelul 2. Preul la deschidere indicatori statistici
N Valid 13 Mean 60.63 Median 50.16 Mode 14.93 Percentiles 25
38.43 50 50.16 75 92.68
a) Media, mediana, modul i cuartilele
N Minimum Maximum Mean Std. Dev. Variance Open 2000 13 14.93
109.14 60.6344 30.4471 927.026 Valid N (listwise) 13
b) Valoarea minim, maxim, media, abaterea medie ptratic i
variana
-
Evident, ne-ar interesa i repartiia valorilor de pre, prezentat
sub form de histogram, evideniind frecvena pe subintervale date.
Lund subintervale constante (de mrime de exemplu 20), prezentm n
figura 2 o histogram a frecvenelor valorilor variabilei Preul la
deschidere.
Se observ c cele mai multe dintre valorile preului au fost ntre
40 i 60 iar n subintervalul 60 80 nu avem nici o valoare de
pre.
Figura 2. Preul la deschidere histograma frecvenelor
B) Prelucrarea a dou variabile continue presupune selectarea,
din matricea de date ( )
pjniijxX
,...,2,1;,...,2,1 === , a cte dou coloane ce
reprezint valori observate asupra celor dou variabile. S notm
aceste variabile cu x i y iar valorile observate asupra lor cu
i
respectiv. ),...,,( 21 nxxx
),...,,( 21 nyyy1) Pentru a studia corelaia (legtura liniar)
ntre aceste dou
variabile considerm cele n perechi de valori cu ajutorul crora
calculm aa-numitul coeficient de corelaie Pearson. Acesta se
calculeaz cu formula:
niii yx ,...,2,1),( =
yx
yxyx ss
sr ,, = (3)
n care i sunt abaterile standard iar este covariana dintre
valorile x i valorile y calculat cu formula:
xs ys yxs ,
))((1
1, yixiyx mymxn
s
= (4)
-
Valorile coeficientului de corelaie sunt cuprinse n intervalul
[1, 1].
Cele n perechi de valori pot fi reprezentate prin puncte ntr-un
plan. Atunci cnd avem impresia c punctele au tendina de a se alinia
unei drepte, ne exprimm spunnd c exist o corelaie liniar ntre
variabilele x i y. Dac valorile lui y au acelai sens de cretere cu
valorile lui x, se spune c avem o corelaie pozitiv. Dimpotriv, dac
valorile lui y descresc atunci cnd valorile lui x cresc, se vorbete
despre o corelaie negativ.
),( ii yx
2000 2001
year
0.00
20.00
40.00
60.00
80.00
100.00
120.00
IBM
Figura 3. Preul la deschidere (box-plot)
Coeficientul Pearson este folosit pentru a msura gradul de
corelare ntre variabilele x i y; anume, lipsa corelrii este indicat
de valori apropiate de 0, corelarea pozitiv este indicat printr-o
valoare a coeficientului apropiat de 1, n timp ce corelarea negativ
este indicat printr-o valoare a coeficientului apropiat de 1.
2) Pentru compararea comportamentului comun al celor dou
variabile, pe baza percentilelor (calculate pentru fiecare
variabil), se folosete graficul de tip box-plot i graficul de tip
Q-Q plot. Pe graficul box-plot se marcheaz, de regul, valorile
minim, maxim i mediana alturi
-
de cuantilele Q1 i Q3 pentru secvenele de valori i .
),...,,( 21 nxxx),...,,( 21 nyyy
Pe graficul Q-Q plot se prezint n plan perechile de valori
coninnd percentile calculate pentru cele dou variabile. O aliniere
a acestora aproximativ pe o dreapt nseamn c repartiiile celor dou
variabile sunt asemntoare.
0 20 40 60 80 100
Observed Value120
0
20
40
60
80
100
120
Expe
cted
Nor
mal
Val
ue
Normal Q-Q Plot of O pen 2000
Figura 4. Preul la deschidere (Q-Q plot)
Observaie. Graficul Q-Q plot poate fi folosit i pentru a
verifica faptul c o secven de valori, de exemplu ( , urmeaz sau nu
o repartiie normal. n aceste situaii se analizeaz perechile de
valori constnd din percentilele variabilei normale i percentilele
secvenei
.
),...,, xxx
),...,,( xxx
21 n
)()2()1( n
Exemplu. Putem continua analiza grafic din exemplul anterior
prezentnd sub form de box-plot (pentru cei doi ani 2000 i 2001)
evoluia n ansamblu a principalilor indicatori de centrare i
mprtiere. Prezentm n figura 3 un asemenea box-plot n care au fost
evideniate minimul, maximul, percentilele de 25, 50 (mediana) i 75
pentru valorile preurilor n
-
cei doi ani consecutivi. O analiz important asupra valorilor
preurilor este i cea dat de graficul Q-Q plot (vezi figura 4);
acesta permite compararea valorilor observate pentru anul 2000 cu
cele care ar rezulta dintr-o repartiie (teoretic) normal.
n analiz putem folosi funcia grafic high-low plot (vezi figura 5
i apoi figura 6).
AAPL CPQ DELL EMC GTW HWP IBM LXK NCR NTAP PALM SUNW UIS
Trading symbol
0.00
20.00
40.00
60.00
80.00
100.00
120.00Mean
Low 2000 -High 2000Low 2001 -High 2001
Figura 5. Evoluia preului minim i maxim (n anii 2000 i 2001), pe
companii
Prelucrarea a mai mult de dou variabile continue presupune
analizarea simultan a tuturor coloanelor din matricea de date
( )pjniij
xX,...,2,1;,...,2,1 ==
= . Asociem n acest fel matricei X (de dimensiune
n p) o alt matrice, notat de obicei cu R, de dimensiune p p, ce
conine coeficienii de corelaie liniar Pearson, calculai ntre toate
perechile de variabile. Avem, prin urmare, matricea R de forma:
=
1...rr............r...1rr...r1
R
2p1p
p221
p112
(5)
-
cu toate elementele de pe diagonala principal egale cu unu (
pentru ) i pentru
1=iirpi ,...,2,1= jiij rr = pi ,...,2,1= i pj ,...,2,1= .
AAPL CPQ DELL EMC GTW HWP IBM LXK NCR NTAP PALM SUNW UIS
Trading symbol
-2.00
-1.50
-1.00
-0.50
0.00
0.50
1.00Mean
Fund avg % gain 2000 -zeroFund avg % gain 2001 -zero
Figura 6. Rentabilitile companiilor n anii 2000 i 2001
Se urmrete n principal identificarea perechilor de variabile ce
corespund coloanelor din matricea X pentru care, n matricea R a
corelaiilor, coeficienii
ji xx ,jiij rr = sunt mari (adic peste 0.8 n valoare
absolut). S facem observaia c, n cazul apariiei unei valori mai
mari de
0.95 n valoare absolut, corelaia foarte puternic constatat ntre
variabilele respective ne permite s eliminm din studiu una dintre
ele (ea fiind reprezentat foarte bine de cealalt).
ijr
-
1.4 Explorarea variabilelor categoriale
n prelucrarea variabilelor categoriale aflate ntr-o matrice de
date de forma indivizi caracteristici distingem de asemenea dou
etape, i anume:
A) Analiza, pe rnd, a cte unei variabile categoriale; B) Analiza
comportamentului comun a dou sau mai multe variabile
categoriale.
A) Aa cum am mai menionat, o variabil categorial este descris
prin modaliti (nivele de valori). S notm cu k numrul acestor
modaliti i s presupunem c dispunem de n observaii asupra variabilei
analizate.
Primele informaii obinute despre variabila categorial sunt date
de frecvenele pe modaliti i apoi de frecvenele relative observate.
Sintetic,
dac notm cu frecvena observat i cu in nni frecvena relativ
pe
modalitatea i (evident, ), putem construi un tabel ca cel de mai
jos. ki 1
Modalitatea 1 2 i k Total (valori observate) Frecvena absolut
1
n 2n in kn n
Frecvena relativ (proporia) n
n1 n
n2 nni
nnk 1
Exemplul 1. O firm dorete s estimeze cota de pia a produsului
su. S presupunem c piaa este concurenial existnd 6 competitori
(firme) care comercializeaz produsul respectiv. Departamentul de
cercetare n marketing al firmei efectueaz un studiu pe baza de
chestionar pe un eantion reprezentativ de n consumatori (alei
independent unul de cellalt) crora li se cere s-i exprime preferina
unic fa de cele 6 firme.
Identificm n experimentul nostru o variabil categorial cu 6
modaliti numrul firmelor. Dac dispunem de observaii pe un eantion
de volum n = 120, rezultatul experimentului poate fi cel din
tabelul urmtor:
Firma 1 2 3 4 5 6 Total Valori observate (preferine) 16 22 15 23
24 20 120
-
Grafic, informaia privind rspunsul consumatorilor, adic profilul
dat de linia frecvenelor, este important pentru cercettorul n
marketing (vezi figura 7).
0
5
10
15
20
25
30
1 2 3 4 5 6
Figura 7. Histograma preferinelor cumprtorilor
Analiznd graficul din figura 7 i cunoscnd rezultatele unor
cercetri anterioare privind cotele de pia, pe alte eantioane,
cercettorul de marketing se poate ntreba dac preferinele
consumatorilor sunt sau nu egal repartizate spre cele 6 firme. Oare
diferenele ntre frecvenele observate pentru modaliti sunt
semnificative statistic? n general, considernd ntreaga populaie de
consumatori, s notm cu probabilitatea ca s fie selectat firma i
(pentru 1
ip6 i
6). Evident,
i putem s considerm perechea de ipoteze: 11
= ipH0 : 6
1621 ... ==== ppp (adic preferinele sunt echiprobabile)
H1 : cel puin o probabilitate are o valoare ce difer de ip 61
.
Ce argumente avem pentru a accepta sau a respinge ipoteza H0
?
n cele ce urmeaz vom ncerca s rspundem la aceast ntrebare,
prezentnd un test hi-ptrat de verificare a bonitii ajustrii.
-
1.4.1 Test de bonitate a ajustrii
S considerm o variabil categorial cu k modaliti. Teoretic, o
putem considera variabil aleatoare discret, dat de tabelul de
forma
n care .
kppp ...21
k...21 k1
1
= ipPractic, putem face orice ipoteze legate de valorile
probabilitilor
. Sunt ns aceste ipoteze susinute de realitate? Folosind
eantioane reprezentative, pe baza frecvenelor relative care
estimeaz probabilitile sau folosind un test de bonitate a ajustrii
putem accepta sau respinge ipotezele fcute. Pentru a avea un suport
statistic al deciziei, trebuie ca experimentul realizat n scopul
obinerii informaiilor despre variabil s fie un experiment
multinomial, adic:
kpp ,...,1
1) Cele n observaii din eantion s fie independente. 2)
Rezultatul fiecrei observaii s fie clasificat doar ntr-unul
dintre
cele k nivele posibile. (Fiecare nivel este numit celul.)
Dac frecvenele observate n cele k nivele sunt , atunci evident
avem
knnn ,...,, 21nnnn k =+++ ...21 .
Atunci cnd efectum un test de bonitate a ajustrii, bazat pe un
experiment multinomial, asociem nivelelor (celulelor) aa-numitele
frecvene ateptate. Dac ele sunt notate cu , atunci formula de
calcul este
keee ,..,, 21ii pne = unde ip este valoarea precizat a
probabilitii .
(Avem
ip
ki 1 i 11
=k
ip ). Evident, suma frecvenelor ateptate va fi
egal cu n, adic neee k =+++ ...21 . Tabelul asociat
experimentului multinomial este urmtorul.
Nivelul (celula) 1 2 i k Total Valori observate 1n 2n in kn n
Valori ateptate 1e 2e ie ke n
Observaie. Pentru 2=k experimentul este de tip binomial, avem
doar dou nivele, cu probabilitile asociate p i respectiv p1 .
-
n general, ntr-un experiment multinomial valorile observate
difer de cele ateptate i trebuie s decidem cnd diferenele sunt
semnificative i cnd nu. Putem folosi urmtoarea formul, ce d o msur
a abaterii ntre valorile observate i cele ateptate
in
ie
=i i
iie
enX2
2 )( . (6)
Evident, n caz c 0 , rezult c n fiecare celul valorile i coincid
i, n consecin, exist identitate deplin ntre cele dou serii de
valori (adic ntre cele observate i cele ateptate) iar ipoteza
fcut asupra valorilor probabilitilor este adevrat. Aceast situaie
este ns
foarte rar, de regul 0 . Pentru a discerne (ntre abateri mici i
mari), ne folosim de faptul c, ntr-un experiment multinomial,
valorile urmeaz la limit o repartiie de tip cu
2 =X inie
kpp ,...,12 >X
2X2 1k grade de libertate. Aceast
afirmaie este susinut de urmtoarea
Teorem. Presupunem c ) este un vector aleator repartizat
multinomial cu parametrii n, . Atunci cnd n tinde spre infinit,
repartiia la limit a statisticii
,...,,( 21 kXXX
kppp ,...,, 21
=
=
k
i i
iinp
npXnV
1
2)()(
este o variabil aleatoare cu 2 1k grade de libertate.
Testul statistic clasic este bazat prin urmare pe o distan , iar
etapele sunt urmtoarele:
2
1) Se formuleaz cele dou ipoteze statistice (ipoteza nul H0 i
ipoteza alternativ H1).
H0 : kk pppppp === ,...,, 2211 (adic probabilitile au valorile
precizate kppp ,...,, 21 )
H1 : cel puin o probabilitate are o valoare ce difer de valoarea
specificat
ip
ip pentru ea n ipoteza nul.
-
2) Se fixeaz un nivel al erorii respingerii ipotezei nule atunci
cnd ea este de fapt adevrat, fie acesta = 0.05, i se identific n
tabelele statistice cuantila a repartiiei cu 2
2 1k grade de libertate.
3) Se calculeaz valoarea a abaterilor, adic: 2X
=
=
k
i i
iinp
npnX
1
22 )( . (7)
4) Valoarea se compar cu . 2X 2
Regula de decizie este urmtoarea:
Dac acceptm ipoteza nul; dimpotriv, dac nu avem motive s-o
acceptm (vezi i figura 8).
22X
Figura 8. Ilustrarea regulii de decizie pentru testul de
bonitate a ajustrii
Revenind la studierea cotei de pia pe un eantion de 120 de
respondeni precum i la ansamblul de ipoteze
H0 : 61
621 ... ==== ppp (adic preferinele sunt echiprobabile)
H1 : cel puin o probabilitate are o valoare ce difer de ip 61
,
tabelul obinut este urmtorul.
-
Firma 1 2 3 4 5 6 Total Valori observate (preferine) in
16 22 15 23 24 20 120
Valori ateptate ie 20 20 20 20 20 20 120 Prin aplicarea testului
hi-ptrat de bonitate a ajustrii obinem
valoarea statisticii . Pentru un nivel de eroare acceptat de 5%,
cuantila corespunztoare repartiiei cu 5 grade de libertate este
. Cum , suntem n zona de neacceptare a ipotezei H0, prin urmare,
pe baza experimentului respingem ipoteza conform creia toate
firmele au aceeai cot de pia.
5.32 =X2
145.12 =22>X
B) S considerm acum matricea de date de forma indivizi
caracteristici n care avem informaii despre variabile categoriale.
Cnd dorim s analizm comportamentul comun a cte dou asemenea
variabile, construim aa-numitele tabele de contingen (tabele cu
dubl, tripl intrare).
Mai concret, s presupunem c analizm comportamentul comun a dou
variabile categoriale notate X1 i X2, variabila X1 avnd r modaliti
iar variabila X2 avnd c modaliti. Asupra acestei perechi de
variabile se fac n observaii de tip multinomial adic observaiile
sunt independente una de alt iar rspunsurile se ncadreaz unic pe
celule. Un tabel de contingen asociat va conine o matrice cu r
linii i respectiv c coloane, fiecare celul a matricei coninnd
frecvena absolut pentru celula respectiv. De exemplu, celula (i, j)
va conine numrul de observaii pentru care variabila X1 are
modalitatea i iar variabila X2 are modalitatea j.
Prin urmare, pentru variabilele selectate dispunem de n
observaii ce se distribuie n celulele tabelului cuantificnd n acest
mod frecvenele n celule; s le notm cu (
ijn ri ,...,2,1= i cj ,...,2,1= ).
Tabelul de contingen se obine prin bordarea matricei cu o coloan
ce conine totalurile pe linii i cu o linie ce conine totalurile pe
coloane
calculate astfel: jn
in
=
=c
jiji nn
1
i =
=r
iijj nn
1
pentru ( i ). ri ,...,2,1= cj ,...,2,1=
-
n tabel mai introducem celula totalului general ce conine
(vezi i tabelul 3). nnnr
i
c
jij ==
= =
1 1
Tabelul 3. Tabel de contingen
Modaliti X1\X2
1 2 j c Total pe linii 1
11n
12n
jn
1 cn1 1n
2 21
n 22
n j
n2
cn 2 2n
i
1in
2in
ijn icn in
r
1rn
2rn
rjn rcn rn
Total coloane 1
n 2
n j
n
cn n
Pentru exemplificare, s revenim la Exemplul 1 privind analiza
cotei de pia pentru produsul firmei. n chestionarul lansat,
respondenii s-au identificat i prin categoria de vrst i categoria
socio-profesional (repartiia n celule fiind cea din tabelul
urmtor).
Categoria de vrst Variabila 2 Modaliti
X1\X2 1 2 3 4 5 Total
1 1 5 4 2 3 15 2 1 7 12 3 3 26 3 2 4 4 2 4 16 4 1 2 2 3 2 10 5 2
1 2 8 1 14 6 4 2 3 3 2 14 7 2 1 9 10 3 25
Cat
egor
ia so
cio-
prof
esio
nal
V
aria
bila
1
Total 13 22 36 31 18 120
Exemplul 2. S revenim la Exemplul 6 din Anexa 1, ce se refer la
analiza riscului returnrii unui credit. Printre variabilele
financiare i demografice ce caracterizeaz clienii selectm dou
variabile care sunt categoriale, i anume Nivelul educaiei (cu 5
modaliti) i Probleme
-
anterioare cu rambursarea ? (cu 2 modaliti). Tabelul urmtor
conine pe linii modalitile variabilei Nivelul educaiei i pe coloane
modalitile variabilei Probleme anterioare cu rambursarea?. Celulele
tabelului conin frecvenele absolute pe modaliti.
Probleme anterioare
de rambursare Total linie Valori observate Nu Da
Fr liceu 293 79 372 Doar cu liceu 139 59 198 Facultate
neterminat 57 30 87
Facultate 24 14 38
Nivelul educaiei Postuniversitare 4 1 5 Total coloane 517 183
700
n analiza riscului returnrii unui credit ar fi interesant s
identificm toi factorii de risc mpreun cu gradul lor de implicare.
n acest context, dorim s vedem n ce msur antecedentele privind
rambursarea unui credit depind sau nu de nivelul educaiei. Vom
folosi datele din tabelul de contingen aplicnd un test de
verificare a independenei statistice a celor dou variabile Nivelul
educaiei i Probleme anterioare cu rambursarea?
1.4.2 Test de independen S considerm cele dou variabile
categoriale X1 i X2 prima avnd r
modaliti iar cea de a doua avnd c modaliti. Putem considera
vectorul aleatoriu discret (X1, X2) descris prin urmtorul
tabel:
Modaliti X1\X2 1 2 j c
Probabiliti marginale
1 11p 12p jp1 cp1 1p
2 21p 22p jp2 cp2 2p
i 1ip 2ip ijp icp ip
r 1rp 2rp rjp rcp rp
Probabiliti marginale 1p 2p
jp cp
-
Am folosit urmtoarele notaii relativ la populaia studiat: 1)
este probabilitatea ca un individ ales la ntmplare s aparin
celulei (i, j). Evident avem ; ij
p
= =
=r
1i
c
1j1p
ij
2) este probabilitatea ca un individ ales la ntmplare s
aparin
liniei i; avem ; ip
=
=c
1jiji pp
3) este probabilitatea ca un individ ales la ntmplare s
aparin
coloanei j; avem
jp
=
=r
1iijj pp
Putem formula urmtoarele ipoteze statistice, i anume: ipoteza de
independen (statistic) a celor dou variabile are forma:
H0 : pentru orice jiij ppp = ri ,...,2,1= i cj ,...,2,1=
iar ipoteza alternativ o putem exprima astfel: H1 : pentru cel
puin o celul (i, j). jiij ppp
S presupunem acum c efectum un experiment multinomial de volum n
i dispunem de informaiile din tabelul de contingen. Putem s calculm
expresia
= =
=
r
1i
c
1j ij
2ijij
np)npn(
V
care, atunci cnd ipoteza nul este adevrat, se scrie
= =
=r
1i
c
1j ji
2jiij
pnp)pnpn(
V
Vom folosi, pentru probabilitile i respectiv estimaiile (de
verosimilitate maxim)
ip jp
nn
p ii
= i nn
p jj
=
caz n care putem estima valoarea V prin statistica:
= =
=r
1i
c
1j ji
2jiij2
n/nn)n/nnn(
X (8)
-
Valoarea , atunci cnd n tinde la infinit, este repartizat cu
grade de libertate.
2X 2)1)(1( cr
Observaie: Pentru fiecare celul (i, j) putem identifica valoarea
ateptat atunci cnd ipoteza nul este adevrat. Astfel, dac H0
este
adevrat, valoarea n
ji nn
,...,2,1
este valoarea ateptat pentru celula (i, j).
Figura 9. Ilustrarea regulii de decizie pentru testul de
independen
Testul statistic clasic pentru verificarea independenei
statistice a dou variabile, test bazat pe repartiia hi-ptrat,
presupune:
1) Formularea celor dou ipoteze statistice (ipoteza nul H0 i
ipoteza alternativ H1), adic.
H0 : pentru orice ijiij ppp = r= i cj ,...,2,1= iar ipoteza
alternativ o putem exprima astfel:
H1 : pentru cel puin o celul (i, j). jiij ppp
2) Fixarea unui nivel al erorii respingerii ipotezei nule atunci
cnd ea este de fapt adevrat, fie acesta = 0.05; identificarea n
tabelele statistice a cuantilei repartiiei cu 21
2 1k grade de libertate.
-
3) Calcularea valorii a abaterilor, adic: 2X
= =
=r
i
c
j ji
jiij
nnnnnnn
X1 1
22
/)/(
.
4) Valoarea se compar cu . 2X 21
Regula de decizie este urmtoarea:
Dac atunci respingem ipoteza nul, dimpotriv dac
atunci acceptm ipoteza nul (vezi i figura 9).
21
2>X
21
2
-
Suntem n situaia (11.49 > 9.49) adic respingem ipoteza nul i
acceptm alternativa, concluzionnd c:
21
2>X
a) variabila Probleme anterioare la rambursare? depinde
statistic de variabila Nivelul educaiei i
b) valorile variabilei Nivelul educaiei influeneaz valorile
variabilei Probleme anterioare la rambursare?
1.5 Explorarea variabilelor ordinale Variabilele categoriale de
tip ordinal pot fi analizate numeric i
grafic ca i cele de tipul categorii nominal sau binar. Totui,
asupra lor se pot aplica i alte analize. Parte din ele le vom
prezenta n cele ce urmeaz.
Relaii de preordine i de ordine S presupunem c n dorina de a
ordona indicatorii financiar-
contabili I1 - I7 urmtori (vezi i datele din Anexa 1)
I1: Total datorii/capital social; I2: Cifr de afaceri/total
activ; I3: Profit brut/total activ; I4: Capital social/cifr de
afaceri; I5: Datorii/total activ; I6: log(Activ); I7: Rata de
cretere a activului.
se folosete un grup de experi n domeniu. Un expert l oarecare
din acest grup, prin preferinele sale (evident subiective dar
bazate pe experiena sa) va determina o relaie de preordine POl n
clasificarea indicatorilor, de exemplu urmtoarea:
POl : I1 > I2 = I3 > I4 = I5 > I6 > I7 (ceea ce
nseamn c expertul l prefer indicatorul I1 indicatorului I2 care
este la fel apreciat ca i I3, care este preferat lui I4 etc.).
Relaia stabilit pentru indicatorii financiar-contabili, prin
preferinele expertului l, este o relaie de preordine deoarece
oricare doi indicatori i i j se pot afla, n preferina expertului,
doar n urmtoarele situaii: sau i este preferat lui j, sau j este
preferat lui i, sau i este preferat la fel ca i j.
-
Aceste preferine pot fi exprimate completnd o matrice U ale crei
elemente sunt: Uij = 1 i Uji = 0 dac indicatorul i este preferat
lui j i Uij = Uji = dac i i j sunt apreciai la fel (vezi tabelul
4).
Tabelul 4. Scoruri medii i ranguri
I1 I2 I3 I4 I5 I6 I7 Scor mediu u(i) Rang mediu
r(i) I1 1 1 1 1 1 1 6 1 I2 0 1 1 1 1 4,5 2,5 I3 0 1 1 1 1 4,5
2,5 I4 0 0 0 1 1 2,5 4,5 I5 0 0 0 1 1 2,5 4,5 I6 0 0 0 0 0 1 1 6 I7
0 0 0 0 0 0 0 7
Aadar, pentru fiecare expert putem s construim o matrice a
preferinelor. Pe baza preferinelor expertului se poate calcula un
scor mediu i apoi un rang mediu pentru indicatorul respectiv,
astfel:
scorul mediu al indicatorului i este =j
ijUiu )( iar rangul mediu asociat
este )()( iukir = . (Aici k este numrul de indicatori analizai,
n exemplul nostru k = 7. Se observ c un rang mic indic o bun
apreciere!)
O relaie de ordine total ntre indicatorii analizai se obine
atunci cnd expertul alege doar una dintre situaiile: indicatorul i
este preferat indicatorului j sau indicatorul j este preferat
indicatorului j. Similar situaiei anterioare, putem asocia o
matrice U ale crei elemente sunt Uij = 1 i Uji = 0 dac indicatorul
i este preferat lui j. Analog, se calculeaz un scor mediu i apoi un
rang mediu pentru fiecare indicator.
Dac dorim s msurm corelarea a dou variabile ordinale pentru care
observaiile sunt ranguri, vom calcula aa-numitul coeficient de
corelaie Spearman:
= 22 )1(11 id
nnro (9)
unde este diferena rangurilor obinute de ctre individul i.
Coeficientul de corelaie Spearman, la fel ca i coeficientul de
corelaie Pearson, are valori ntre 1 i 1, valori apropiate de 1
indicnd concordana celor dou aprecieri, iar valori apropiate de 1
indicnd o discordan.
id
-
1.6 Transformri n matricele de date S revenim la exprimarea
informaiilor n forma unei matrice
ce reprezint n indivizi asupra crora s-au evaluat p
caracteristici, de fapt p variabile. Matricea X o putem privi fie
pe linii, obinnd informaii despre cei n indivizi, fie pe coloane
obinnd informaii despre cele p variabile. Prin urmare :
)( pnX
(1) fiecrui individ i i corespunde n matricea X o linie, adic un
vector cu p elemente; acesta va fi scris: pipiii RxxxL = ),...,,(
21
(2) fiecrei variabile j i corespunde n matricea X o coloan cu n
elemente, care va fi notat: . nTnjjjj RxxxC = ),...,,( 21
1.6.1 Transformri pe coloane: standardizarea
Este normal s calculm, pentru fiecare variabil din tabelul de
date, valoarea medie i respectiv abaterea medie ptratic (abaterea
standard).
S notm cu media i cu abaterea medie ptratic pentru variabila j,
pentru care putem scrie formulele clasice:
jm js
=
=n
iijj xn
m1
1 i =n
jijj mxns
1
2)(1
1
Din orice matrice X se poate obine o nou matrice, fie ea ,
ale crei elemente sunt calculate astfel:
)(' 'ijxX =
j
jijij s
mxx
=' pentru orice linie i i
coloan j Aceast transformare asupra variabilelor este recomandat
pentru a
evita discrepanele ntre valori ce ar putea fi datorate unitilor
de msur diferite. Se obinuiete a se spune c, prin aceast
transformare, exprimm informaiile n form standardizat, n uniti de
abatere medie ptratic (uniti standard). Se observ c, prin aceast
transformare, centrm mai nti valoarea (adic scdem din ea media) iar
apoi o mprim la abaterea medie ptratic.
Observaie: Un calcul matematic simplu ne conduce la faptul c
media valorilor standardizate este zero, iar dispersia este
unu.
Exemplu: Fie datele din tabelul 1 al Anexei 1. S considerm doar
primele 4 caracteristici ale autoturismelor exprimate prin
variabilele: preul,
-
capacitatea cilindric, viteza i consumul. Printr-un calcul
elementar obinem mediile i respectiv abaterile medii ptratice ale
acestor variabile (folosind datele tuturor celor 26 mrci de
autoturisme):
Preul Capacitatea cilindric Viteza Consumul
Media 16118 1172 155 7.18 Abaterea medie
ptratic 4148 205 22.17 1.13
Folosim acum formula de standardizare pe care o aplicm fiecrui
element al matricei. Obinem ca rezultat informaiile standardizate
prezentate n tabelul 5. Se observ c, dei cele 4 variabile selectate
se exprim n uniti de msur diferite, n forma standard valorile sunt
perfect comparabile ntre ele.
Tabelul 5. Valori standardizate
Preul
standardizat Cap. cil.
standardizat Viteza
standardizatConsumul
standardizat 1.A -0.99 -0.85 -0.67 -0.86 2.C -0.681 -1.06 -0.44
-1.39 3.D -0.364 -0.87 -0.44 -0.42 4.Fl -0.64 -0.84 -0.44 -0.86
5.F2 2.14 0.63 2.04 1.52 6.F3 0.42 0.63 0.46 0.46 7.F4 -0.74 -0.27
-0.80 -0.15 8.FS 1.36 2.07 1.13 1.87 9.N -0.89 -0.89 -0.66
-0.68
10.O -0.74 -0.87 -0.53 0.02 11.P1 -0.69 -1.06 -0.94 -0.33 12.P2
-0.08 -0.23 -0.58 -1.21 13.P3 0.67 0.91 0.68 1.78 14.P4 2.18 1.99
1.59 1.34 15.Ri -0.76 -1.05 -1.79 -0.77 16.R2 -0.56 -0.31 -1.57
-0.77 17.R3 -0.47 -0.31 -0.53 -1.21 18.R4 0.27 1.09 0.55 0.64 19.RS
2.22 1.09 2.04 1.34 20.SI 0.76 1.41 0.91 1.43 21.S2 -1.24 -1.31
-1.07 0.11
-
Preul
standardizat Cap. cil.
standardizat Viteza
standardizatConsumul
standardizat 22.S3 -0.96 -0.87 -0.44 -0.681 23.S4 -0.35 0.74
0.37 -0.59 24.Ti -0.51 -0.84 -0.22 -0.95 25.T2 0.18 0.59 0.68 -0.33
26.V 0.46 0.49 0.68 0.72
1.6.2 Matricea corelaiilor Aa cum am mai spus, corelaia (liniar)
ntre dou variabile este
msurat prin coeficientul de corelaie Pearson. Pentru dou
variabile i i j extragem din matricea de date ( )
pjniijxX
,...,2,1;,...,2,1 === coloanele i i j apoi
calculm coeficientul de corelaie Pearson . Calculnd pe rnd,
pentru toate cele p variabile, coeficienii de corelaie liniar,
putem nlocui matricea iniial cu o matrice de dimensiune p p
(reamintim c am notat-o R) avnd ca elemente coeficienii de corelaie
respectivi. (Matricea este simetric i are toate elementele de pe
diagonala principal egale cu unu).
jir ,
Analiza elementelor matricei corelaiilor este foarte important n
prelucrarea informaiilor din matricea X de date. Astfel, analiznd
elementele extra-diagonale ale matricei, identificm perechi de
variabile ntre care exist dependene liniare puternice (n general,
extragem acele variabile pentru care coeficientul de corelaie
depete 0,8), dar identificm i perechi de variabile cu coeficieni de
corelaie foarte mici (aproape de zero). Aceste informaii ne sunt
utile n prelucrrile ulterioare!
Matricea corelaiilor poate fi tratat ns algebric prin
proprietile sale (de simetrie i pozitivitate), ea fiind o surs de
alte informaii utile n prelucrarea ulterioar a datelor. Reamintim
urmtoarele dou teoreme:
Teorema 1 (descompunerea Jordan). Fie o matrice ptratic A (p p).
Ea poate fi scris sub forma: 1=A unde matricea conine vectori
proprii ai matricei A iar matricea
este o matrice diagonal ce
conine valorile proprii ale matricei A.
Teorema 2. Fie o matrice simetric A (p p). Ea poate fi scris sub
forma TA = unde matricea conine vectori proprii ai matricei A,
matricea este o matrice diagonal ce conine valorile proprii ale
matricei A iar este transpusa matricei
T .
Capitolul 1. Tehnici de explorare a datelor1.1 Matrice de date
exemple practice1.2 Scri de msurare ale caracteristicilor1.3
Explorarea variabilelor continue1.4 Explorarea variabilelor
categoriale1.5 Explorarea variabilelor ordinale1.6 Transformri n
matricele de date