-
Capitolul 5. Aplicaii economice
Vom descrie n acest capitol cteva aplicaii economice ale
tehnicilor prezentate n Capitolele 14. Vom folosi exemplul 2 din
Anexa 1, dar vom prezenta i alte aplicaii noi, utile pentru un
economist, cum ar fi modelul de credit scoring dar i unele tehnici
de analiz pe tabele de contingen.
5.1 Analiza i clasificarea firmelor pe baza indicatorilor
financiari
S considerm problema descris n exemplul 2 din Anexa 1. n acest
exemplu sunt prezentai 7 indicatori financiar-contabili, calculai
pentru un lot de 12 firme, indicatorii fiind urmtorii:
I1: Total datorii/capital social; I2: Cifr de afaceri/total
activ; I3: Profit brut/total activ; I4: Capital social/cifr de
afaceri; I5: Datorii/total activ; I6: log(Activ); I7: Rata de
cretere a activului.
Matricea de date coninnd valori ale acestor indicatori pentru
cele 12 firme este prezentat n tabelul urmtor:
Firma I1 I2 I3 I4 I5 I6 I7 1 0,414 0,032 0,000 5,59 0,677 7,03
0,62 2 0,231 0,324 0,034 2,45 0,165 7,45 0,40 3 0,432 0,684 0,054
1,05 0,204 7,32 0,40 4 0,156 0,326 0,020 2,59 0,129 7,16 0,47 5
0,227 0,124 -0,080 7,49 0,149 7,54 0,43 6 0,295 0,176 0,026 4,33
0,199 7,72 0,45 7 0,261 0,470 0,023 1,77 0,147 7,62 0,46 8 0,446
0,343 0,020 2,17 0,240 8,08 0,38 9 0,352 0,831 0,036 0,82 0,243
7,18 0,37 10 0,267 0,141 0,003 5,20 0,258 8,27 0,31 11 0,703 0,185
0,002 3,27 0,268 8,15 0,42 12 0,206 0,969 0,029 0,72 0,26 8,38
0,36
Scopul analizei matricei de date n acest exemplu este acela de a
afla civa indicatori relevani (de regul doi sau trei), pe baza
crora s putem
-
obine o clasificare ct mai elocvent a firmelor. Problema
formulat n acest mod ne conduce spre ideea utilizrii tehnicii
analizei componentelor principale, dublat i de o analiz a
clasificrii (vezi Capitolul 3, 3.1).
S ncepem analiza. Mai nti constatm c toate caracteristicile
urmrite (anume indicatorii financiar-contabili) sunt variabile
continue, scara lor de msur fiind uor de identificat. Prin urmare,
ntr-o prim analiz putem calcula pentru fiecare dintre aceste
variabile indicatorii de centrare i de mprtiere, cum ar fi media,
valoarea minim i valoarea maxim, precum i abaterea standard (vezi
tabelul urmtor).
Descriptive Statistics Valid N Mean Minimum Maximum Std.Dev.
I1 12 0.332 0.156 0.703 0.149 I2 12 0.383 0.032 0.969 0.298 I3
12 0.014 -0.08 0.054 0.033 I4 12 3.120 0.72 7.49 2.127 I5 12 0.244
0.13 0.67 0.144 I6 12 7.658 7.03 8.38 0.463 I7 12 0.422 0.31 0.62
0.077
Remarcm faptul c elementele matricei de date iniiale ar necesita
o standardizare, deoarece abaterile standard ale celor apte
indicatori sunt destul de diferite.
Pentru a vedea dac indicatorii calculai sunt independeni sau nu,
vom analiza matricea coeficienilor de corelaie din tabelul
urmtor:
I1 I2 I3 I4 I5 I6 I7 I1 1 -0.165 0.073 -0.052 0.351 0.165 0.092
I2 -0.165 1 0.559 -0.837 -0.265 0.078 -0.443 I3 0.073 0.559 1
-0.842 -0.050 -0.059 -0.174 I4 -0.052 -0.837 -0.842 1 0.274 -0.048
0.341 I5 0.351 -0.265 -0.050 0.274 1 -0.192 0.608 I6 0.165 0.078
-0.059 -0.048 -0.192 1 -0.619 I7 0.092 -0.443 -0.174 0.341 0.608
-0.619 1
Identificm n matrice coeficieni de corelaie mari i anume: ntre
indicatorii I2 i I4 (n sens negativ), ntre indicatorii I3 i I4 (n
sens negativ); de asemenea, apare un coeficient de corelaie destul
de mare ntre
-
indicatorii I5 i I7 (n sens pozitiv) i ntre indicatorii I6 i I7
(n sens negativ). Pe baza acestor constatri am putea trage
concluzia renunrii la unii indicatori, dar la care? Pentru a
elimina subiectivismul deciziei, vom folosi tehnicile de analiz a
componentelor principale implementate ntr-un mediu de analiz
statistic. Ne propunem s identificm trei indicatori sintetici cu
care ne-am mulumi n atingerea scopului propus. n acest context
obinem urmtoarele o serie de categorii de informaii ce sunt utile
pentru eliminarea subiectivismului n ierarhizarea firmelor.
A) Informaiile privind calitatea ajustrii sunt exprimate cu
ajutorul valorilor proprii ale matricei corelaiilor i a
proprietilor acestora.
Reamintim faptul c raportul =
=
7,...,1
11
ii
exprim cantitatea de informaie
recuperat (sau variana explicat) de prima ax factorial, apoi
=
+=7,...,1
212
ii
exprim cantitatea de informaie recuperat (variana
explicat) de primele dou axe factoriale .a.m.d.
Vom putea analiza astfel calitatea ajustrii norului de puncte (n
cazul nostru firmele) urmrind informaiile din tabelul urmtor:
Eigenvalues % total Cumul. Cumul.
Eigenval Variance Eigenval % 1 2.914 41.636 2.914 41.636 2 1.689
24.134 4.603 65.771 3 1.275 18.228 5.879 83.999
n coloana Eigenval identificm cele trei valori proprii, n ordine
descresctoare, i anume: = 2.914, 1 2 = 1.689, 3 = 1.275. Cum rangul
matricei corelaiilor este 7, putem s explicm uor coninutul coloanei
% total Variance i anume: ajustnd norul de puncte printr-o singur
ax factorial (adic acceptnd doar un singur indicator sintetic), se
explic 41.636% din totalul varianei datelor; apoi, ajustnd norul de
puncte prin dou axe factoriale (adic acceptnd doi indicatori
sintetici) recuperm nc 24.134% din variana total, adic un total de
65.771% din aceast varian (vezi i coloana Cumul. %). n sfrit, dac
solicitm trei axe factoriale (adic ceea ce ne-am propus, trei
indicatori sintetici) explicm 84% din variana total (ceea ce este
un rezultat foarte bun!)
-
B) Informaiile despre axele principale sunt prezentate n tabelul
urmtor:
Factor Score Coefficients Factor 1 Factor 2 Factor 3
I1 -0.051 -0.152 0.676 I2 -0.316 -0.0049 -0.0981 I3 -0.384 0.113
0.124 I4 0.388 -0.024 -0.051 I5 -0.021 0.218 0.422 I6 0.105 -0.535
0.257 I7 0.013 0.445 0.069
Coloana unui factor ne ofer informaii despre ponderile
(coeficienii) cu care particip fiecare indicator financiar-contabil
(I1, , I7) la descrierea factorului respectiv. Acest factor poate
fi exprimat, prin urmare, ca o combinaie liniar de indicatorii
financiar-contabili (cu coeficienii respectivi).
C) Informaii despre scorurile firmelor, care sunt proieciile
acestor firme (considerate ca puncte n spaiul indivizilor) pe cele
trei axe principale sunt prezentate n tabelul urmtor:
Factor Scores Rotation: Varimax raw
Factor 1 Factor 2 Factor 3 1 0.782 2.366 1.463 2 -0.294 0.170
-0.717 3 -1.265 0.253 0.222 4 -0.132 0.882 -1.316 5 2.177 -0.223
-1.184 6 0.340 0.087 -0.160 7 -0.405 0.230 -0.559 8 -0.150 -0.823
0.753 9 -1.271 0.320 -0.239
10 0.902 -1.326 -0.030 11 0.355 -0.963 2.030 12 -1.037 -0.974
-0.262
Cele trei coloane (Factor 1, 2 i 3) conin componentele
principale sau noii indicatori sintetici calculai pentru cele 12
firme. Devine posibil acum reprezentarea grafic n spaiul tri- sau
bidimensional pentru a observa
-
gruparea firmelor. n figura 1 prezentm cele 12 firme
reprezentate n planul primelor dou axe principale. Observm un grup
destul de compact de firme ce par a avea un comportament asemntor n
raport cu noii indicatori, dar i dou firme, anume F5 i F1, care se
detaeaz de grup.
-2
-1
0
1
2
3
-2 -1 0 1 2 3
F1
F2F3
F4
F5
F6F7
F8
F9
F10F11
F12
1 3
4 2
Figura 1. Scorurile firmelor n planul axelor principale 1 i
2
D) Informaii privind interpretarea componentelor principale se
obin analiznd coeficienii de corelaiile calculai ntre cele trei
componente principale i indicatorii financiari-contabili.
Reamintim faptul c dac C este o component principal (deci un
vector din nR ) obinut plecnd de la o valoare proprie i un vector
propriu , atunci coeficientul de corelaie dintre componenta
principal C i variabila j iniial avnd valorile observate
este:
),...,,...,( 1 pj uuuu =
),...,,...,( 21 njjjj xxxx =
jxC ur j =, ( ). },...,2,1{ pj Dac, de exemplu, avem dou
componente principale C1 i C2,
obinem pentru fiecare variabil j perechea de coeficieni de
corelaie . Aceste perechi, reprezentate n planul axelor principale
sunt
puncte n interiorul aa-numitului cerc al corelaiilor (n rare
cazuri chiar i pe cercul unitate!). n acest context, interpretarea
componentelor principale este relativ simpl. Anume, o component
principal poate fi explicat
),( ,, 21 jj xCxC rr
-
prin acea variabil iniial pentru care coeficientul de corelaie
este maxim dar, n acelai timp, variabila iniial are cu celelalte
componente principale coeficieni de corelaie mici.
Revenind la exemplul nostru, se obin aa-numiii Factor Loadings
se apar ntr-un tabel de forma urmtorului.
Factor Loadings (Unrotated) (Marked loadings are >
.700000)
Factor 1 Factor 2 Factor 3 I1 -0.13 -0.25 -0.87 I2 0.86 -0.22
0.10 I3 0.71 -0.57 -0.09 I4 -0.89 0.41 0.05 I5 -0.54 -0.56 -0.37 I6
0.31 0.64 -0.59 I7 -0.70 -0.61 0.16
Expl.Var 2.91 1.69 1.28 Prp.Totl 0.42 0.24 0.18
Aadar, componenta principal 1 fiind puternic corelat (pozitiv)
cu indicatorul financiar-contabil I2 (care, la rndul su este slab
corelat cu celelalte dou componente), se interpreteaz ca fiind un
indicator sintez al rentabilitii (I2 este Cifra de afaceri/total
activ, adic un indicator al rentabilitii).
A doua component principal este greu de interpretat. Ea are un
coeficient de corelaie relativ mare (negativ) cu indicatorul I7,
dar acesta nu are coeficieni de corelaie mici cu celelalte dou
componente rmase. Aceeai situaie este ntlnit i pentru a treia
component principal.
De aceea, pentru o analiz mai relevant i o interpretare mai
apropiat de realitate, se recomand folosirea unei opiuni de rotire
a axelor ce are ca scop obinerea unor coeficieni de corelaie ct mai
mici pe una sau dou componente principale. Una dintre cele mai
utilizate rotiri este cunoscut ca tehnica Varmax. n acest fel,
interpretarea componentelor principale devine mai semnificativ.
n exemplul nostru, apelnd la opiunea de rotire a axelor
(Varmax), obinem informaiile din tabelul Factor Loadings
urmtor.
-
Factor Loadings (Rotated) (Marked loadings are > .700000)
Factor 1 Factor 2 Factor 3
I1 -0.04 -0.11 0.90 I2 -0.84 -0.19 -0.22 I3 -0.90 0.06 0.11 I4
0.97 0.13 0.02 I5 0.16 0.53 0.66 I6 0.07 -0.89 0.23 I7 0.27 0.87
0.23
Expl.Var 2.57 1.89 1.42 Prp.Totl 0.37 0.27 0.20
Se observ c de data aceasta am obinut coeficieni de corelaie
mari pe cte o component dar mici pentru celelalte. Acum componenta
principal 1 este interpretat n termenii indicatorului I3 sau
eventual I4. (De fapt, matricea corelaiilor ne arat c acetia sunt
puternic corelai ntre ei, deci putem renuna la unul.) Oricare
dintre ei este nc un indicator sintez al rentabilitii.
Componenta principal 2 este interpretat n termenii indicatorului
I6 (corelaie negativ), adic este un indicator sintetic al mrimii
firmei (reamintim c I6 este logaritmul activului firmei). Se observ
faptul c componenta principal 2 se poate interpreta i n termenii
indicatorului I7 (rata de cretere a activului), cu o corelaie
pozitiv! Preferm explicarea prin indicatorul I7, ce exprim dinamica
activului firmei.
Componenta principal 3 este interpretat n termenii indicatorului
financiar-contabil I1 (adic Total datorii/capital social) care este
un indicator al structurii financiare.
Dup ce am dat o interpretare acestor trei componente principale,
putem s obinem o clasificare a firmelor, utiliznd proieciile n
planul axelor principale. Ne folosim de scorurile acestor firme i
de graficul din figura 1. Conform semnificaiei componentei
principale 1 se observ faptul c scorul este cu att mai bun cu ct
este mai mic (cci corelaia cu indicatorul I3 este invers). Pe de
alt parte, n funcie de componenta principal 2 (care este corelat
pozitiv cu rata de cretere a activului), un scor pozitiv pe aceast
component este bun. Prin urmare, clasificm cele 12
-
firme n planul indicatorilor sintetici de rentabilitate i
dinamic a activului astfel:
Clasa 1. Conine firmele F2, F3, F4, F7 i F9 ce au scoruri bune
pe ambele componente;
Clasa 2. Conine firmele F8 i F12 ce au scoruri bune la
indicatorul de rentabilitate dar au o dinamic proast a
activului;
Clasa 3. Conine firmele F1 i F6 ce au un scor mai slab la
indicatorul de rentabilitate dar au o dinamic a activului bun;
Clasa 4. Conine firmele F5, F10 i F11 care au scoruri slabe la
ambii indicatori sintez, att la rentabilitate ct i la dinamica
activului.
Evident, analiza poate fi completat lund n calcul i componenta
principal 3, care este o component a structurii financiare, ns
interpretarea grafic se ngreuneaz.
S aplicm acum, pentru aceeai matrice de date (a indicatorilor
financiar-contabili) tehnici de clasificare bazate pe algoritmi
ierarhici (vezi Capitolul 3, 3.3). Folosind aceste tehnici putem s
exemplificm att gruparea firmelor ct i gruparea indicatorilor.
A) Gruparea firmelor n clase ct mai omogene, lund n considerare
toi cei 7 indicatori. Vom folosi un algoritm ierarhic de agregare.
Mai nti trebuie calculat matricea de proximitate (de dimensiune
1212, simetric). Ea este prezentat n tabelul urmtor:
0.00 3.24 4.63 3.08 2.06 1.54 3.93 3.63 4.87 1.41 2.64 5.17 3.24
0.00 1.47 0.34 5.05 1.91 0.72 0.73 1.73 2.88 1.19 2.07 4.63 1.47
0.00 1.62 6.47 3.35 0.83 1.40 0.32 4.30 2.44 1.17 3.08 0.34 1.62
0.00 4.92 1.84 0.96 1.06 1.86 2.85 1.34 2.33 2.06 5.05 6.47 4.92
0.00 3.17 5.73 5.36 6.72 2.41 4.29 6.88 1.54 1.91 3.35 1.84 3.17
0.00 2.58 2.20 3.61 1.04 1.22 3.76 3.93 0.72 0.83 0.96 5.73 2.58
0.00 0.66 1.12 3.51 1.68 1.40 3.63 0.73 1.40 1.06 5.36 2.20 0.66
0.00 1.70 3.05 1.14 1.63 4.87 1.73 0.32 1.86 6.72 3.61 1.12 1.70
0.00 4.57 2.74 1.22 1.41 2.88 4.30 2.85 2.41 1.04 3.51 3.05 4.57
0.00 1.99 4.56 2.64 1.19 2.44 1.34 4.29 1.22 1.68 1.14 2.74 1.99
0.00 2.72 5.17 2.07 1.17 2.33 6.88 3.76 1.40 1.63 1.22 4.56 2.72
0.00
Fiecare element al matricei de proximitate reprezint distana
euclidian ntre firmele corespunztoare, distan calculat n funcie de
toi
-
cei 7 indicatori observai. (Folosim distana euclidian ca msur a
disimilaritii.)
Dendrograma- distante euclidiene -
Sing
le li
nkag
e
0
0.5
1
1.5
2
2.5
0
0.5
1
1.5
2
2.5
5 10 6 12 11 9 3 3 7 4 2 1 Figura 2. Dendrograma (metoda
vecinilor celor mai apropiai)
n continuare, pentru constituirea claselor, vom folosi o metod
de agregare considernd cele trei tehnici descrise n 3.3. Prezentm
sintetizat n tabelul de mai jos etapele de grupare a firmelor
pentru cele trei metode de agregare Single linkage (vecinii cei mai
apropiai), Complete linkage (vecinii cei mai ndeprtai) i Average
linkage (nlnuirea prin medii).
Single linkage. Clase
Complete linkage. Clase
Average linkage. Clase
Nivelul de agregare
< 0.5 C1=(9,3); C2=(4,2)
C1=(9,3); C2=(4,2) C1=(9,3); C2=(4,2)
0.5 1 C3=(8,7); C4=(C2,C3); C5=(C1,C4); C6=(10,6);
C3=(8,7); C4=(C2,C3); C5=(10,6)
C3=(8,7); C4=(C2,C3); C5=(10,6)
1 1.5 C7=(C5,11); C8=(12,C7); C9=(C6,C8); C10=(1,C9);.
C6=(12,C1); C7=(1,C5);
C6=(12,C1); C7=(11,C4): C8=(1,C5);.
1.5 2 C8=(11,C4); 2 4 C11=(5,C10); C9=(C7,C8);
C10=(5,C6); C9=(C6,C7); C10=(C8,5);
> 4 C11=(C9,C10); C11=(C10,C9);
-
Pentru completarea analizei gruprii firmelor, n figurile 2, 3 i
4 sunt prezentate dendrogramele pentru cele trei tehnici de
agregare. Cteva concluzii sunt evidente: n dendrograma din figura 2
nu distingem grupe, firmele par a fi destul de omogene (cu excepia
uneia); n schimb n dendrogramele din figurile 3 i 4 apar clase
distincte. Mai precis, n figura 3 dendrograma prezint dou grupe
dezechilibrate ca numr de firme, n timp ce n dendrograma din figura
4 se disting trei grupe destul de echilibrate.
Pentru exemplificarea agregrii firmelor prezentm n tabelul
urmtor etapele de constituire a claselor. Se observ modul de
formare a unui grup precum i nivelul de agregare corespunztor
(pentru algoritmul Single linkage.)
Nivelul agregrii 1 2 3 4 5 6 7 8 9 0.321 C_3 C_9 0.340 C_2 C_4
0.661 C_7 C_8 0.719 C_2 C_4 C_7 C_8 0.831 C_2 C_4 C_7 C_8 C_3 C_9
1.041 C_6 C_10 1.143 C_2 C_4 C_7 C_8 C_3 C_9 C_11 1.170 C_2 C_4 C_7
C_8 C_3 C_9 C_11 C_12 1.217 C_2 C_4 C_7 C_8 C_3 C_9 C_11 C_12 C_6
1.412 C_1 C_2 C_4 C_7 C_8 C_3 C_9 C_11 C_12 2.057 C_1 C_2 C_4 C_7
C_8 C_3 C_9 C_11 C_12
Dendograma -distante euclidiene-
Com
plet
e lin
kage
0
1
2
3
4
5
6
7
0
1
2
3
4
5
6
7
12 9 3 11 8 7 4 2 5 10 6 1 Figura 3. Dendrograma (metoda
vecinilor celor mai ndeprtai)
-
Evident, un utilizator poate folosi orice algoritm de agregare:
cel al vecinilor celor mai apropiai, cel al vecinilor celor mai
ndeprtai sau un algoritm de agregare prin medii. Pentru a decide
care este indicat a se folosi analizm tabelul de mai sus i
dendrogramele din figurile 2 4. Se observ faptul c algoritmul
Complete linkage se aseamn mai mult cu algoritmul Average linkage;
fixnd, de exemplu, nivelul de agregare n intervalul (2; 3.5), avem
deja constituite dou clase: prima format din firmele {12, 9, 3, 11,
8, 7, 4, 2} iar a doua format din firmele {5, 10, 6, 1}; difer doar
nivelul agregrii finale al acestora. Dup cum am mai spus,
algoritmul vecinilor celor mai apropiai nu este indicat n acest
caz.
Dendograma -distantele euclidiene-
Ave
rage
link
age
0
1
2
3
4
5
0
1
2
3
4
5
12 9 3 11 8 7 4 2 5 10 6 1 Figura 4. Dendrograma (nlnuirea pe
baza mediilor)
Este interesant de vzut dac clasele obinute prin aceste tehnici
bazate pe distana euclidian, pornind de la matricea iniial de date,
ne conduc sau nu la aceleai clasificri ca i cele obinute n planul
compo-nentelor principale.
S ne reamintim clasele de firme formate n planul primelor dou
axe factoriale: clasa 1 coninea firmele F2, F3, F4, F7 i F9, clasa
2 coninea firmele F8 i F12, clasa 3 coninea firmele F1 i F6 i clasa
4 coninea firmele F5, F10 i F11. Exist i firme ale cror poziionare
n clase se pstreaz, dar n general clasificarea realizat conform
analizei compo-nentelor principale este mult mai elocvent i
explicativ!
-
B) Gruparea celor 7 indicatori financiar-contabili n clase ct
mai omogene se realizeaz prin tehnici de clasificare ierarhic,
pornind tot de la matricea de date iniial. Mai nti calculm matricea
distanelor euclidiene ntre coloanele matricei i obinem urmtoarea
matrice simetric a disimilaritilor (matrice de ordinul 7 7):
0.0 1.2 1.2 12.0 0.6 25.4 0.6 1.2 0.0 1.6 12.3 1.3 25.3 1.1 1.2
1.6 0.0 12.9 0.9 26.5 1.4
12.0 12.3 12.9 0.0 12.1 17.3 11.7 0.6 1.3 0.9 12.1 0.0 25.7
0.7
25.4 25.3 26.5 17.3 25.7 0.0 25.1 0.6 1.1 1.4 11.7 0.7 25.1
0.0
Pentru agregarea n clase putem folosi de asemenea algoritmul
vecinilor celor mai apropiai (Single linkage), algoritmul vecinilor
celor mai ndeprtai (Complete linkage) i algoritmul nlnuirii prin
medii (Average linkage). Dendrogramele rezultate sunt prezentate n
figurile 5 7.
Dendrograma- distantele euclidiene-
Sing
le li
nkag
e
0123456789101112131415161718
0123456789
101112131415161718
I6 I4 I2 I3 I5 I7 I1
Figura 5. Dendrograma (metoda vecinilor celor mai apropiai)
-
Dendrograma- distante euclidiene -
Com
plet
e lin
kage
012345678910111213141516171819202122232425262728
0123456789
10111213141516171819202122232425262728
I6 I4 I3 I2 I5 I7 I1
Figura 6. Dendrograma (metoda vecinilor celor mai ndeprtai)
Dendrograma- distante euclidiene -
Ave
rage
link
age
012345678910111213141516171819202122232425
0123456789
10111213141516171819202122232425
I6 I4 I2 I3 I5 I7 I1
Figura 7. Dendrograma (nlnuirea pe baza mediilor)
-
Pentru a trage cteva concluzii privind omogeneitatea celor 7
indicatori financiar-contabili putem urmri etapele de constituire a
claselor. Acestea vor fi exemplificate folosind algoritmul agregrii
vecinilor celor mai apropiai (Single Linkage). Matricea de mai jos
conine etapele de agregare (n numr de 6), nivelele de agregare i
constituirea claselor.
Nivelul Etape agregrii 1 2 3 4 5 6 7 0.621 I1 I7 0.633 I1 I7 I5
0.942 I1 I7 I5 I3 1.136 I1 I7 I5 I3 I2 11.662 I1 I7 I5 I3 I2 I4
17.328 I1 I7 I5 I3 I2 I4 I6
Cei mai apropiai, la un nivel de agregare minim, sunt
indicatorul I1 i indicatorul I7, adic Total datorii/capital social
i Rata de cretere a activului. Acetia se agreg la nivelul 0.621. n
etapa urmtoare, la un nivel de agregare destul de apropiat de
primul, adic 0.633, li se asociaz indicatorul I5, mai precis
indicatorul Datorii/total activ. La o distan (nivel de agregare)
ceva mai mare de clasa deja format se asociaz indicatorul I3, adic
Profit brut/total activ (nivelul de agregare 0.942). Nici
indicatorul I2 (adic Cifr de afaceri/total activ) nu este departe
de primii grupai! El se va agrega la nivelul 1.136. Un salt
calitativ, evideniat clar cantitativ, se obine prin ataarea n etapa
5 a indicatorului I4, adic Capital social/cifr de afaceri, de grupa
deja format. Acesta este agregat
Linkage Distance
Plot of Linkage Distances across StepsEuclidean distances
Step
Link
age
Dis
tanc
e
-5
0
5
10
15
20
0 1 2 3 4 5 6 7
Figura 8. Nivele de agregare a indicatorilor
-
la un nivel de 11.662, i putem s afirmm c este, sub acest
aspect, diferit de primii. n final se asociaz, la un nivel de
asemenea destul de ridicat, ultimul indicator negrupat nc, i anume
I6 (log(Activ)). n figura 8 se pot urmri, grafic, nivelele de
agregare, regsind pe etape explicaiile date anterior.
Folosind algoritmul de clasificare putem spune c indicatorii
financiar-contabili urmrii prin nivelele lor pentru cele 12 firme
se pot grupa n trei clase:
A) clasa format din indicatorii I1, I7, I5, I3 i I2 (a se vedea
interpretarea lor!),
B) clasa format din indicatorul I4 (Capital social/cifr de
afaceri),
C) clasa format din indicatorul I6 (log(Activ)). Este interesant
de comparat clasele de indicatori obinute pe baza
metricii euclidiene cu gruparea indicatorilor dup coeficienii
lor de corelaie liniar calculai n etapa de analiz a componentelor
principale!
Indicator I1 I2 I3 I4 I5 I6 I7 I1 C1
I2 C1 Corelaie puternic
I3 C1 Corelaie puternic
I4 C2
I5 C1 Corelaie puternic
I6 C3 Corelaie puternic I7 C1
Pentru comparaie putem urmri tabelul anterior ce ne informeaz
att despre corelaiile puternice ntre indicatorii
financiar-contabili, corelaii exprimate prin coeficienii de
corelaie mari, ct i despre clasa la care aparine un indicator
(informaiile de pe diagonala principal), clas obinut prin tehnica
agregrii.
n acest paragraf am prezentat o propunere de analiz pentru
informaii coninute ntr-o matrice de forma indivizi caracteristici
(caracteristicile fiind variabile continue). Evident, analiza se
poate aplica pe orice matrice atunci cnd avem ca scop reducerea
numrului de coloane sau linii i explicarea formrii claselor de
indivizi sau variabile.
-
5.2 Modele de credit scoring analiza discriminant utilizat
pentru diagnoza financiar
1. Formularea problemei. S presupunem c avem o populaie format
din firme omogene ca activitate, fie aceasta P. Populaia este mprit
n dou subpopulaii disjuncte, P i P1 2, dup valorile unei variabile
nominale Booleene y. Modalitile variabilei y, pentru o firm
oarecare i din populaia P, pot fi codificate prin 1 i 0, mai
precis:
=
altfelB)(sau 0 faliment de staren firmapentru F)(sau 1 i
yi
S presupunem c pentru firmele din populaia studiat se pot msura
un numr p de indicatori financiar-contabili ct mai independeni
posibil. Fiecare dintre acetia influeneaz probabilitatea de
faliment a firmei fie monoton cresctor, fie monoton descresctor,
dar evident ei acioneaz simultan.
Vom nota cu vectorul valorilor celor p indicatori,
n particular cu respectiv vectorii corespunztori celor dou
subpopulaii P
),...,,( 21 pxxxx =),...,,( 112
111 pxxxx = ),...,,( 22222 1 pxxxx =
i P1 2. Facem urmtoarele ipoteze:
a) Vectorul este normal repartizat cu media i matricea de
varian-covarian
),...,,( 112111 pxxxx = 1
1 ; b) Vectorul este normal repartizat cu media
i matricea de varian-covarian
),...,,( 112111 pxxxx = 2
2 ; Prin urmare, populaia P este caracterizat de ansamblul
. ),,,( 2121 2. Scopul analizei este acela de a gsi un indicator
sintez, fie
acesta z , i un nivel al acestui indicator, astfel nct pentru o
firm i oarecare pebtru care este valoarea indicatorului sintez s
putem decide
zz
c
i
dac atunci firma aparine populaiei Pci zz 1 dac atunci firma
aparine populaiei Pci zz > 2. Valoarea se numete nivel (scor) de
tiere sau cutting score. cz
-
De regul, indicatorul sintez se consider a fi o combinaie liniar
de valorile celor p indicatori financiar-contabili, adic
. (1) pp xxxz +++= ...2211Pentru o firm i, pentru care valorile
celor p indicatori sunt
, valoarea ),...,,( 21 ipii xxx ippiii xxxz +++= ...2211 se
numete scorul firmei n raport cu indicatorul sintez z iar decizia
de ncadrare ntr-o categorie sau alta se face utiliznd scorul de
tiere . cz
n literatura de specialitate se obinuiete a se numi expresia (1)
model de scoring deoarece pe baza sa se obin scoruri ale firmelor i
apoi o clasificare a acestora.
3. Scurt istoric al problemei obinerii modelelor de scoring
Primele studii realizate i publicate au fost cele ale lui E.I.
Altman.
ntr-un prim studiu, datnd din 1966, Altman prezint modele de
scoring rezultate n urma studierii unui eantion de 66 firme asupra
crora s-au urmrit 22 de indicatori financiar-contabili n evoluia
lor pe dou decade (1946-1965). n intervalul de timp analizat unele
dintre firme au dat faliment, altele ns au evoluat pozitiv din
punct de vedere financiar. Indicatorul sintez la care ajunge Altman
este o combinaie liniar de 5
indicatori de baz, dintre care enumerm trei: activtotalrulment
de fond
activ totalbrutprofit , ,
activ totalafaceri de cifra .
Altman repet ulterior studiul, lund n analiz 106 firme i 27 de
indicatori urmrii pe perioada 1962-1975. Obine un nou indicator
sintez, combinaie liniar de 7 indicatori iniiali, dup care clasific
firmele.
Alte studii au fost realizate n Frana n anul 1973 de ctre
Vernimmen, Schlosser, Margaine i Altman. n Belgia au fost publicate
rezultatele obinute de ctre Ooghe i Van Wymeersch (1983). Toate
modele de scoring realizate n perioada anilor `80 dar i ulterior
sunt implementate n sistemele informatice ale marilor bnci, fiind
folosite n departamentele de management a riscului pentru ordonarea
i clasificarea solicitanilor de credite. Evident, modele de scoring
au fost realizate att pentru persoane juridice ct i pentru persoane
fizice.
Numeroasele rezultate obinute nu pot fi generalizate de la un
grup de firme la altul. n general, direciile de cercetare n acest
domeniu se ndreapt spre construirea de modele de scoring ct mai
specifice
-
domeniului de activitate al firmelor. De asemenea, funciile z de
scoring se pot obine i pentru urmtoarele situaii:
funcie de scor n cazul un an nainte de faliment; funcie de scor
n cazul doi ani nainte de faliment; funcie de scor n cazul trei ani
nainte de faliment.
4. Construcia unui model de scoring Tehnica cea mai indicat
pentru rezolvarea problemei de credit
scoring este cea oferit de analiza discriminrii factoriale (vezi
Capitolul 4, 4.2.2) pentru cazul particular n care variabila rspuns
este nominal cu dou modaliti. Indicatorul-sintez este exprimat prin
funcia de discriminare
(2) pp xuxuxuz +++= ...2211n care este versorul axei de
discriminare. ),...,,( 21 puuuu =
Pentru aflarea axei de discriminare, a componentei principale
asociate, precum i a bonitii discriminrii se aplic etapele
prezentate n 4.2.2.
Analiza prin tehnicile de discriminare factorial n cazul
particular a dou clase are ca scop aflarea unei noi axe (de
discriminare), care s aib proprietatea c proieciile punctelor (aici
coordonatele firmelor) din spaiul variabilelor (indicatorilor) pe
ea s formeze tot dou clase, iar separarea dintre ele s fie maxim
(adic zona de incertitudine s fie minim).
Reamintim c se folosiete descompunerea matricei
varianei-covarianei totale V n cele dou componente naturale ale
sale, i anume variana-covariana W din interiorul claselor i
variana-covariana B dintre clase. Etapele parcurse pentru aflarea
axei de discriminare, a componentelor factoriale i a bonitii
separrii n clase sunt urmtoarele.
1). Aflarea unui versor ),...,,( 21 puuuu = , ce d prima (i
unica) ax de discriminare. n ideea minimizrii varianei-covarianei W
proiectat pe aceast ax, adic a mrimii , avem de rezolvat urmtoarea
problem de optimizare cu restricie egalitate
WuuT
1
max
=uVuuBuu
T
T
u
-
ceea ce revine la aflarea vectorilor proprii (corespunztori
valorilor proprii) ai matricei . Astfel, primul vector propriu
asociat valorii proprii (cea mai mare din spectrul matricei ) este
prima ax de discriminare.
BV 1 *u *BV 1
**
**
)()(
VuuBuu
T
TCum raportul este tocmai (prima valoare proprie),
aceasta va exprima, procentual, gradul de discriminare al primei
axe.
*
Pentru cazul unei variabile de discriminare cu doar dou
modaliti, problema se simplific. n acest caz avem o singura ax de
discriminare , ea este calculat simplu unde este vectorul centrelor
de greutate pentru cele dou clase iniiale ale populaiei.
*u)( 121* mmVu = ),( 21 mm
2) Aflarea componentelor de discriminare (adic a vectorului
scorurilor pe axa de discriminare) se realizeaz dup aflarea axei de
discriminare. Astfel, dac este versorul axei de
discriminare, atunci componenta de discriminare (unic) este
.
),...,,( 21 puuuu = *****1 XuC =
3) n cazul unei variabile de discriminare cu doar dou modaliti,
pentru analiza ratei succesului tehnicii de discriminare se
folosete tabelul urmtor
Grupul dup reclasificare Grupul iniial
Numr de indivizi n grupul iniial 1 2
1 1n 11n 12n 2 2n 21n 22n
Observaie: Cu ct elementele de pe diagonala principal sunt mai
mari, cu att rata succesului discriminrii este mai mare. Se
folosete
raportul 21
2211nn
pS +=nn +
ce exprim proporia elementelor diagonale, iar
orice valoare a sa peste 50% este considerat ca validnd succesul
tehnicii. (Comparativ cu situaia n care am dispune de o procedur
aleatoare, de repartizare uniform n cele dou clase, pentru care
raportul are evident valoarea 50%.)
Sp
-
5. Aplicaie exemplu
S presupunem c dorim s gsim un model de scoring atunci cnd
dispunem de un eantion de 12 firme asupra crora s-au nregistrat
2
indicatori, i anume proprii capitaluri1
=I totaledatoriiscurt termen pe datorii2
=I circulante active i .
Datele privind nivelul acestor indicatori financiar-contabili
precum i starea fiecrei firme sunt prezentate n tabelul urmtor (am
notat cu F o firm n stare de faliment i cu B o firm n stare
bun)
proprii capitaluri totaledatorii
1 =I scurt termen pe datoriicirculante active
2 =IFirma Starea firmei
1 0.6 0.2 F 2 1 0.4 F 3 0.9 0.7 F 4 0.65 0.65 F 5 1.1 1.1 F 6
0.6 1.1 F 7 0.9 1.5 F 8 0.3 0.55 B 9 0.4 0.7 B
10 0.68 0.95 B 11 0.4 1.05 B 12 0.25 1.25 B 13 0.57 1.47 B 14
0.45 1.68 B
S presupunem c cei doi indicatori financiar-contabili urmeaz,
att pentru populaia de firme n stare bun, ct i pentru populaia de
firme n stare proast, repartiii normale (vezi graficele din figura
9 i figura 10).
S analizm mai nti indicatorul I1 (vezi figura 9). Pentru firmele
n stare bun indicatorii de centrare (media, mediana, ) au valori
mici, n timp ce pentru firmele n stare proast aceiai indicatori de
centrare au valori mari. Evident, va exista un nivel al acestui
indicator I1, fie acesta , care are proprietatea c ori de cte ori
indicatorul ia valori mai mici dect este foarte probabil ca firma s
fie din clasa n stare bun i ori de cte ori indicatorul ia o valoare
mai mare dect este foarte probabil ca firma s fie n clasa n stare
proast. Exist i o zon de incertitudine, vecintate a nivelului , ce
are proprietatea c dac indicatorul I1 ia valori n acea zon nu putem
decide asupra strii firmei (ea poate fi sau proast, sau bun).
-
Aceeai analiz se poate face i pentru indicatorul I2 (vezi figura
10), cu o singur deosebire: de data aceasta, pentru firmele n stare
bun valorile indicatorilor de centrare sunt mari n timp ce pentru
firmele n stare proast indicatorii de centrare au valori mici.
Nivelul de separare apare i n acest caz (l-am notat cu ) aa cum
apare i zona de incertitudine ntr-o vecintate a nivelului , pentru
care nu putem decide starea firmei.
stare bun stare proast
Figura 9. Repartiiile valorilor indicatorului I1
stare bun
stare proast
Figura 10. Repartiiile valorilor indicatorului I2
-
Figura 11. Firmele n planul indicatorilor
Am descris o posibil analiz uni-dimensional lund pe rnd cte un
indicator financiar-contabil i comportamentul firmelor n raport cu
valoarea acestuia. Aceast analiz nu este ns suficient de relevant.
Tehnicile de analiz a discriminrii ne permit s analizm indicatorii
n ansamblul lor, surprinznd i aciunea lor comun. O prim analiz a
celor doi indicatori n ansamblul lor se poate face urmrind figura
11, n care firmele sunt prezentate n planul indicatorilor
financiar-contabili I1 i I2. n aceast figur firmele n stare bun
(marcate cu codul B) sunt delimitate destul clar de cele n stare
proast (marcate cu codul F), aprnd dou clase cu intersecia nevid
(intersecie pe care o putem asimila cu o zon de incertitudine a
clasificrii unei firme). Pentru o analiz complet urmrim rezultatele
urmtoare:
1) Mediile pe ntregul eantion sunt grupate n vectorul 0.950)
,6285.0(=m iar mediile pentru cele dou clase sunt
coninute n vectorii respectiv
.
1.092) ,4357.0(=Bm0.8071) ,8214.0(=Fm
2) Abaterile standard sunt 0.437) ,263.0(=s pentru ntregul
ean-tion i pentru clasa de firme n stare bun
respectiv pentru cele n stare proast.
0.404) ,149.0(=Bs0.451) ,203.0(=Fs
-
3) Matricea de varian-covarian pentru interiorul claselor
este
iar matricea de varian-covarian
pentru ansamblul firmelor este .
=
1575.00168.00168.00273.0
W
=1779.00107.00107.00645.0
V
4) Matricele de corelaie pentru interiorul claselor i total
sunt
respectiv .
1256.0256.01
1100.0100.01
5) Analiza indicatorului financiar-contabil cel mai discriminat
se face folosind tabelul urmtor, ce conine valori ale statisticii F
i Lambda a lui Wilks
Wilks' Partial F-remove Indicatorul Lambda Lambda (1,11)
p-level
I 0.885 0.399 16.519 0.0018 1I 0.423 0.835 2.1671 0.1690 2
Aadar, indicatorul cel mai discriminat este I1, lui
corespunzn-du-i o valoare mai mare pentru statistica F (care este
raportul dintre mprtierea dintre clase i mprtierea din interiorul
claselor).
6) Funcia de discriminare standardizat este
21 522.0997.0 IIz += . Cum centrele de greutate ale celor dou
clase de firme sunt proiectate pe axa de discriminare n punctele
1.25 respectiv 1.25 (prima valoare reprezint centroidul firmelor n
stare bun iar cea de-a doua valoare reprezint centroidul firmelor n
stare proast) putem considera scorul de tiere . 0=cz
7) Scorurile firmelor obinute pe baza funciei de discriminare
(de la punctul 6) sunt (prezentate n ordine cresctoare)
urmtoarele:
Scor pentru funcia z gsit
Firma Clasa iniial/ clasa repartizat
2 Faliment/Faliment -2.7442 5 Faliment/Faliment -2.4499
-
3 Faliment/Faliment -1.8203 7 Faliment/Faliment -0.8458 1
Faliment/Faliment -0.7540 4 Faliment/Faliment -0.4851 10
Bun/faliment -0.2872 6 Faliment/bun 0.3422 13 Bun/bun 0.9605 9
Bun/bun 0.9719 8 Bun/bun 1.3476 11 Bun/bun 1.3982 14 Bun/bun 1.8864
12 Bun/bun 2.4795
8) Matricea succesului discriminrii este
Rata succesului Corect p=.50000 p=.50000 Clasa1 1/clasa 1 85.714
6 1 Clasa 2/clasa 2 85.714 1 6
Total 85.714 7 7
adic rata succesului discriminrii este de 85.71% (= . )14/)66(
+9) Interpretarea axei de discriminare se face utiliznd
urmtorul
tabel al coeficienilor de corelaie
Indicatorul Coeficientul de corelaie cu axa
I -0.863 1I 0.266 2
Observm c coeficientul de corelaie ntre indicatorul I1 i axa de
discriminare este 0.863, iar coeficientul de corelaie ntre
indicatorul I2 i ax este 0.266. Prin urmare, cel mai
discriminant
este indicatorul proprii capitaluri
totaledatorii1 =I , care d i o interpretare
unicei axe de discriminare.
-
5.3 Analize pe tabele de contingen. Analiza corespondenelor n
marketing
Tabelele de contingen descrise n 1.4 se pot crea ori de cte ori
populaia studiat este mprit n subpopulaii prin variabile
categoriale nominale. Informaii de acest gen provin de obicei din
chestionare.
De regul, se grupeaz cte dou variabile categoriale i se obin
aa-numitele tabele cu dubl intrare, ce conin frecvenele absolute pe
nivele.
Fie de exemplu dou variabile categoriale X i X1 2, prima avnd r
modaliti iar cea de-a doua avnd c modaliti. S notam cu N matricea
ce conine frecvenele absolute pentru modalitile cele dou variabile,
adic
Total pe linii
Modaliti X1\X2
1 2 j c
11
n12
nc
n1 1njn11
21
n22
nc
n2 2njn22
1in
2in
icn
ijn ini
rcn rn1rn 2rn rjnr n Total
coloane cn1n 2n jn
Evident, elementul din tabelul anterior exprim numrul de
indivizi (din totalul celor n) pentru care variabila X
ijn
1 are modalitatea i i variabila X2 are modalitatea j. Aa cum am
precizat n 1.4, matricea este bordat cu o coloan a totalurilor pe
linii i cu o linie a totalurilor pe coloane.
n aplicaii se obinuiete a se asocia matricei N dou alte matrice
(tabele) i anume:
a) matricea frecvenelor condiionate relativ la linii, numit i
matricea profil-linie;
b) matricea frecvenelor condiionate relativ la coloane, numit i
matricea profil-coloan.
Vom prezenta n cele ce urmeaz modul de construire a celor dou
matrice i proprietile lor.
-
Matricea profil-linie se obine din matricea iniial N mprind
fiecare element al acesteia prin totalul liniei corespunztoare,
adic
elementul de pe linia i i coloana j va fi n matricea
profil-linie in
nij . Noua
matrice astfel obinut o vom nota L. Dac vom considera toate
liniile matricei profil-linie L, ele vor forma
n spaiul cR al modalitilor variabilei X un nor alctuit din r
puncte. 2Centrul de greutate al acestui nor de puncte se calculeaz
folosind
matricea de ponderi 11 Dn
. Matricea D1 este o matrice diagonal (de
dimensiune r r) a totalurilor pe linii:
=
.
...000
..........0...000..000..00
3
2
1
1
rn
nn
n
D .
Fie vectorul centrului de greutate. Componenta sa se obine ca o
sum ponderat a elementelor coloanei j din matricea profil-linie,
adic din vectorul coloan
),...,,...,,( 21 cjl mmmmm =
m j
T
2
2
1
1 ,...,,...,,
rrj
i
ijjj
nn
nn
nn
nn
ponderile fiind coninute n vectorul coloan
T21 ,...,,...,,
nn
nn
nn
nn ri .
Prin urmare, componenta a centrului de greutate a matricei
profil-linie va fi
jm
nn
nn
nn
m jkr
k k
kjj
=
==1
iar centrul de greutate va avea
coordonatele:
T1 ,...,,...,
=
nn
nn
nnm cjl .
-
Matricea profil-coloan se obine din matricea iniial N mprind
fiecare element al acesteia prin totalul corespunztor pe coloan,
adic
elementul de pe linia i i coloana j va fi n matricea
profil-coloan j
ij
n
n
.
Vom nota cu C noua matrice format. Dac vom considera toate
coloanele matricei profil-coloan C, ele
vor forma, n spaiul rR al modalitilor variabilei X1, un nor
alctuit din c puncte.
Centrul de greutate al acestui nor de puncte se calculeaz
folosind
acum matricea de ponderi 21 Dn
unde matricea D2 este matricea diagonal a
totalurilor pe coloane
=
.
...000
..........0...000..000..00
3
2
1
2
cn
nn
n
D .
Fie vectorul centrului de greutate al acestui nor de puncte.
Componenta sa se obine ca o sum ponderat a elementelor liniei i din
matricea profil-coloan, adic din vectorul coloan
T21 ),...,,...,,( ri
c mmmmm =im
T
2
2
1
1 ,...,,...,,
cic
j
ijiinn
nn
nn
nn
T21 ,...,,...,,
nn
nn
nn
nn cj . i ponderile
nn
nn
nn
m ikc
k k
iki
=
==1
Prin urmare, iar centrul de greutate al
matricei profil-coloan va avea coordonatele: T
1 ,...,,...,
= n
nn
nn
nm ric .
-
Observaii: Cum condiia de independen a celor dou variabile
categoriale Xnn
nn
jiij = nn i X nseamn 1 2 pentru orice i i j, vom obine
urmtoarele egaliti:
nn
nn j
i
ij = { }ri ,...,2,1= { }cj ,...,2,1=a) i pentru orice
i
nn
nn i
j
ij
= { }ri ,...,2,1= { }cj ,...,2,1=b) . pentru orice i Condiia a)
nseamn c, n cazul n care variabilele categoriale sunt
independente statistic, toate punctele norului de puncte ale
matricei profil-
linie vor coincide cu centrul lor de greutate T
1 ,...,,...,
=
nn
nn
nnm cjl .
Analog, condiia b) nseamn c, n cazul n care variabilele
categoriale sunt independente statistic, toate punctele norului de
puncte ale matricei profil-coloan vor coincide cu centrul lor de
greutate
T1 ,...,,...,
=
nn
nn
nnm ric .
Atunci cnd variabilele nu sunt independente statistic este
important s evalum ct de aproape sau de departe sunt punctele de
centrul lor de greutate.
S revenim la matricea profil-linie n care considerm dou linii i
i i
ale cror elemente sunt T
21 ,...,,...,,
iic
i
ij
i
i
i
inn
nn
nn
nn i respectiv
T
'
'
'
'
'
2'
'
1' ,...,,...,,
ici
i
ji
i
i
i
inn
nn
nn
nn
.
cRntre aceste linii privite ca puncte n spaiul calculm distana
ponderat dat de metrica 2 i anume
2
'
'
1
2 )',(2
=
=
i
ji
i
ijc
j jnn
nn
nniid .
-
n consecin, putem calcula distana de la o linie i a matricei
profil-
linie la centrul de greutate T
1 ,...,,...,
=
nn
nn
nnm cjl prin formula:
2
1
2 ),(2
=
= nnnnnnmid jiij
c
j j
l .
care d o msur 2 a deprtrii punctului i de centrul norului. Putem
s calculm distana (ponderat) de la toate punctele (linii) ale
matricei profil-linie la centrul lor de greutate obinnd ceea ce
se numete ineria norului de puncte
lm
=
=
=
=
r
i
j
i
ijc
j j
ir
i
lin
nnn
nn
nnmid
nn
1
2
11
2 ),(2
Un simplu calcul ne va conduce la urmtoarea expresie a ineriei
norului de puncte (abatere faa de centrul de greutate)
= =
=r
i
c
j ji
jiij
nnnnnnn
n1 1
22
/)/(1 (3)
(recunoatem n expresia de mai sus i valoarea statisticii 2).
Analog, putem s introducem o msur de tip 2 ntre coloanele
matricei profil-coloan i apoi s calculm distana ponderat a
punctelor
din nor la centrul lor de greutate T
1 ,...,,...,
= n
nn
nn
nm ric ; obinem
aceeai expresie (3).
Observaii: 1) Norul de puncte asociat matricei profil-linie
formeaz un subspaiu W cR ; 1 n spaiul
lm0 cR (din spaiul 2) vectorul ) este un vector ortogonal n
sensul metricii 2 pe subspaiul W . 1
Analiza corespondenelor este analiza componentelor principale
aplicat celor dou matrice profil-linie i profil-coloan asociate
matricei de contingen. Principiile aflrii axelor principale i ale
componentelor
-
principale fiind cele prezentate n 3.1, practic avem de rezolvat
urmtoarele dou sisteme de ecuaii algebrice duale i anume:
aaLC =T i (4) bLbC =TPropoziia 1. Ambele sisteme (4) au soluia
10 = (valoare proprie
a matricei i ). Mai mult, n caz c TLC LC T cr spectrul matricei
se regsete n spectrul matricei , iar n caz c
TLCLC T cr > spectrul matricei
se regsete n spectrul matricei . LC T TLCn analiza factorilor i
componentelor principale valoarea proprie se elimin, aa cum se
elimin i vectorul propriu corespunztor,
reinndu-se restul de r1 factori a respectiv c1 factori b. 10
=
Propoziia 2. Cu notaiile de mai sus, ntre vectorii proprii a i
vectorii proprii b exist urmtoarele legturi:
i
r
i j
ijj an
nb
= =
1
1j
c
j i
iji bn
na
= =
1
1 i .
n tabelul urmtor prezentm sintetic descrierea factorilor
principali i a componentelor principale ca vectori proprii ai
matricelor i . TLC LC T
ACP pentru matricea profil-linie
ACP pentru matricea profil-coloan
Factorii principali
Vectorii proprii ai matricei
Vectorii proprii ai matricei LC T TLC
Vectorii proprii a ai matricei , normalizai prin
Vectorii proprii b ai matricei , normalizai prin
Componen-tele principale TLC LC T
=aDan
T1
1 =bDbn
T2
1
n cazul analizei corespondenelor nu are sens s calculm
corelaiile dintre componentele principale i coloanele respectiv
liniile din matricele profil corespunztoare. Interpretarea
componentelor principale se face prin evaluarea aa-numitei
contribuii a liniei respectiv a coloanei la ineria total a norului
de puncte.
Ineria recuperat de o ax (fie c aceast ax este a sau b) poate fi
evaluat astfel
=
=
==c
jjj
r
iii bnn
ann
J1
2
1
2 )(1)(1 ,
-
prin urmare vom defini contribuia liniei i din matricea
profil-linie la ineria norului (pe o ax a) prin formula:
J
an
n
iCTRi
i 2)()(
=
nniCTR i>)(i vom avea n atenie acele linii i pentru care
.
Analog, vom defini contribuia coloanei j din matricea
profil-coloan la ineria norului (pe o ax b) prin
J
bn
n
jCTRj
j 2)()(
=
nn
jCTR j>)(i vom avea n atenie acele coloane pentru care .
Aplicaie - exemplu. ntr-un sondaj de opinie lansat de o fabric
de
bere n scopul obinerii datelor necesare elaborrii strategiei de
extindere i diversificare a produciei, una dintre temele urmrite a
fost dependena de categoria de venit a mrcii de bere consumate. A
fost chestionat un eantion reprezentativ format din 1355 de
consumatori, iar datele obinute sunt prezentate n tabelul de
contingen urmtor. Evident, pe linii apar mrcile de bere indicate,
iar pe coloane 6 categorii de venit (ordonate de la venit foarte
mic pn la venit foarte mare)
C.Venit V1 V2 V3 V4 V5 V6 Total Azu 12 24 30 14 8 6 94 Buc 8 14
23 22 11 16 94 Bra 11 22 23 11 12 13 92 Cis 18 30 11 6 10 5 90 Fav
9 15 14 8 8 6 60 Gam 8 14 12 17 12 5 68 Mam 11 20 18 22 15 13 99
Ori 1 7 14 16 11 17 76 Rah 12 30 47 27 14 12 152 Sil 17 23 25 26 15
17 123 Urs 10 20 16 26 4 4 80 Bws 3 11 5 6 1 3 29 Dab 5 2 8 11 18
23 46 Dre 10 21 13 8 7 3 62 Efe 13 23 8 11 9 3 67 Hpk 6 12 5 8 8 2
41
-
C.Venit V1 V2 V3 V4 V5 V6 Total Tub 15 14 18 20 9 6 82 Total 169
302 290 259 182 153 1355
S parcurgem cteva etape de analiz plecnd de la acest tabel de
contingen.
1) Matricea profil-linie L este prezentat n tabelul urmtor (n
care pe ultima linie apare vectorul-centroid al norului de
puncte)
C.Venit V1 V2 V3 V4 V5 V6 Azu 0.128 0.255 0.319 0.149 0.085
0.064Buc 0.085 0.149 0.245 0.234 0.117 0.170Bra 0.120 0.239 0.250
0.120 0.130 0.141Cis 0.200 0.333 0.122 0.067 0.111 0.056Fav 0.150
0.250 0.233 0.133 0.133 0.100Gam 0.118 0.206 0.176 0.250 0.176
0.074Mam 0.111 0.202 0.182 0.222 0.152 0.131Ori 0.013 0.092 0.184
0.211 0.145 0.224Rah 0.079 0.197 0.309 0.178 0.092 0.079Sil 0.138
0.187 0.203 0.211 0.122 0.138Urs 0.125 0.250 0.200 0.325 0.050
0.050Bws 0.103 0.379 0.172 0.207 0.034 0.103Dab 0.109 0.043 0.174
0.239 0.391 0.500Dre 0.161 0.339 0.210 0.129 0.113 0.048Efe 0.194
0.343 0.119 0.164 0.134 0.045Hpk 0.146 0.293 0.122 0.195 0.195
0.049Tub 0.183 0.171 0.220 0.244 0.110 0.073
ml 0.125 0.223 0.214 0.191 0.134 0.113Pentru fiecare linie (marc
de bere) se identific acea categorie de
venit ai crei consumatori consum cel mai mult marca respectiv.
2) Matricea profil-coloan C este prezentat transpus n tabelul
urmtor (mpreun cu vectorul-centroid al norului de puncte):
C.Ven Azu Buc Bra Cis Fav Gam Mam Ori Rah Sil Urs Bws Dab Dre
Efe Hpk Tub V1 0.07 0.05 0.07 0.11 0.05 0.05 0.07 0.01 0.07 0.10
0.06 0.02 0.03 0.06 0.08 0.04 0.09 V2 0.08 0.05 0.07 0.10 0.05 0.05
0.07 0.02 0.10 0.08 0.07 0.04 0.01 0.07 0.08 0.04 0.05 V3 0.10 0.08
0.08 0.04 0.05 0.04 0.06 0.05 0.16 0.09 0.06 0.02 0.03 0.04 0.03
0.02 0.06 V4 0.05 0.08 0.04 0.02 0.03 0.07 0.08 0.06 0.10 0.10 0.10
0.02 0.04 0.03 0.04 0.03 0.08 V5 0.04 0.06 0.07 0.05 0.04 0.07 0.08
0.06 0.08 0.08 0.02 0.01 0.10 0.04 0.05 0.04 0.05 V6 0.04 0.10 0.08
0.03 0.04 0.03 0.08 0.11 0.08 0.11 0.03 0.02 0.15 0.02 0.02 0.01
0.04 mc 0.07 0.07 0.07 0.07 0.04 0.05 0.07 0.06 0.11 0.09 0.06 0.02
0.03 0.05 0.05 0.03 0.06
-
Pentru fiecare linie (ce reprezint aici categoria de venit) se
identific acea marc/acele mrci de bere consumate maximal de ctre
categoria respectiv.
3) Evaluarea acoperirii ineriei totale a norului de puncte prin
axele factoriale, evaluare ce utilizeaz valorile proprii ale
matricei (sau ale matricei ) este urmtoarea: TCL LC T
Nr. Val. proprie % inerie % cumulat 1 0.1013 62.5% 62.5% 2
0.0323 19.9% 82.4% 3 0.0178 11.0% 93.4% 4 0.0043 2.7% 96.1% 5
0.0064 3.9% 100.0%
Se observ c primele dou axe factoriale acoper peste 82% din
ineria norului de puncte, ceea ce se consider a fi relevant pentru
analiz.
4) Continum aadar cu 2 axe factoriale. Pentru fiecare dintre
acestea putem folosi formula
=
=
==c
jjj
r
iii bnn
ann
J1
2
1
2 )(1)(1
pentru a-i evalua ineria. Apoi, contribuia fiecrei coloane j la
aceast inerie se obine din formula
2)(1)( jj b
nn
JjCTR =
iar contribuia fiecrei linii i la ineria asociat axei este dat
de: 2)(1)( i
i an
nJ
iCTR = . Concret, rezultatele obinute din analiza coloanelor
sunt urmtoarele:
Ineria: 0.1358 0.1711 C.Venit Axa1 Axa2
V1 0.084 0.158 V2 0.279 0.087 V3 0.371 0.011 V4 0.003 0.195 V5
0.103 0.170 V6 0.520 0.020
-
Prin urmare, contribuia maxim la prima ax factorial aparine
categoriei de venit V6 (foarte ridicat), iar la a doua ax factorial
aparine categoriei de venit V3 (mic spre mediu).
Analog, rezultatele obinute din analiza liniilor sunt
urmtoarele:
ineria 0.0409 0.0575 Marca Axa1 Axa2 Azu 0.037 0.045 Buc 0.029
0.060 Bra 0.000 0.003 Cis 0.257 0.076 Fav 0.005 0.008 Gam 0.000
0.000 Mam 0.005 0.000 Ori 0.127 0.028 Rah 0.008 0.196 Sil 0.003
0.001 Urs 0.032 0.086 Bws 0.015 0.000 Dab 0.539 0.112 Dre 0.052
0.026 Efe 0.055 0.120 Hpk 0.009 0.050 Tub 0.007 0.009
Prin urmare, contribuia maxim la prima ax factorial aparine
mrcii Dab, iar la a doua ax factorial aparine mrcii Cis.
5) ncheiem analiza cu reprezentarea grafic a ambelor seturi de
modaliti n planul celor 2 axe factoriale. (Fiecare modalitate, fie
c este o categorie de venit, fie ca este o marc de bere, va fi
reprezentat prin cel dou componente principale ale sale.)
Graficul este prezentat n figura 12.
Se observ c prima ax factorial exprim opoziia dintre veniturile
mici i cele mari. De asemenea, este destul de clar asocierea dintre
marca Dab i categoria de venit V6.
S presupunem c iniiatorul acestei anchete este, de exemplu,
marca Tub. Constat c se afl n zona de indiferen, dar constat i
poziia concurenilor si. Este vizibil c ecartul su fa de categoria
V6 este mai mare dect cel fa de categoria V4. n consecin, politica
sa de diversificare ar trebui s se adreseze acestui segment de
consumatori.
-
B raGamS il
Hp k
F a v
Tub
R ahU rs
A z u
B w s
D re
Ef e
C is V 1
V 2
V 3
V 4
M a m
B ucOri
V 5D ab
V 6
Figura 12. Reprezentarea simultan n planul factorial
Ca un alt exerciiu de aplicare a analizei corespondenelor se pot
folosi datele din tabelul urmtor 1. Datele sunt prelevate dintr-un
eantion de 10000 de studeni la diferite faculti (Fac) i provenind
din categorii socio-profesionale ale prinilor (CSP) dup cum urmeaz:
fermier (Ferm), muncitor agricol (MAgr), patron (Patr), profesie
liberal (PLib), cadre medii (CMed), salariat (Salr), muncitor
(Munc), personal de serviciu (Serv), alte profesii (Alte).
CSP\Fac Drept Econo-mice
Litere tiine Medi-cin
Farma-cie
Fac. tehn.
Alte fac.
Total
Ferm 80 36 134 99 65 28 58 11 511 MAgr 6 2 15 6 4 1 4 1 39 Patr
168 74 312 137 208 53 62 21 1035 PLib 470 191 806 400 876 164 79 45
3031 CMed 236 99 493 264 281 56 87 36 1552 Salr 145 52 281 133 135
30 54 20 850 Munc 166 64 401 193 127 23 129 28 1131 Serv 16 6 27 11
8 2 8 2 80 Alte 305 115 624 247 301 47 90 42 1771 Total 1592 639
3093 1490 1005 404 571 206 10000
1 G. Saporta, Probabilits, Analyse des Donnes et Statistique,
Ed. Technip, Paris 1990
-
Se va ncerca a da rspuns urmtoarelor ntrebri:
1) Ce studii urmeaz copiii avnd prini dintr-o categorie
socio-profesional?
2) Ce origine socio-profesional au studenii de la diverse
faculti? 3) Alegerea unei faculti depinde sau nu de categoria
socio-
profesional a prinilor i, dac da, cum anume?
Capitolul 5. Aplicaii economice5.1 Analiza i clasificarea
firmelor pe baza indicatorilor financiari5.2 Modele de credit
scoring analiza discriminant utilizat pentru diagnoza financiar5.3
Analize pe tabele de contingen. Analiza corespondenelor n
marketing