-
Multivarijatna analiza podatakaStatističko modeliranje,
prediktivna analitika
Doc. dr.sc. Vesna Lužar-StifflerCAIR Centar d.o.o. – “The House
of Statistics”iSveučilište u ZagrebuZagreb, Hrvatska
e-mail: [email protected]:
www.cair-center.hr
Medicinski fakultet Sveučilišta u ZagrebuDoktorski studij
Prosinac 2010
mailto:[email protected]://www.cair-center.hr/
-
SadržajMULTIVARIJATNA ANALIZA PODATAKA 1. Uvod i primjeri metoda
multivarijatne analize 2. Metode za redukciju podataka, ekstrakciju
važnih faktora i
grafičke prikaze◼ Komponentna analiza◼ Faktorska analiza◼
Multidimenzionalno skaliranje (MDS), Biplot, CoPlot
3. Metode za analizu veza među skupovima varijabli◼
Multivarijatna regresijska analiza◼ Kanonička korelacijska
anali
STATISTIČKO MODELIRANJE, PREDIKTIVNA ANALITIKA 4. Metode za
klasifikaciju
◼ Diskriminativna analiza (Fisherova)◼ Kanonička diskriminativna
analiza◼ Logistička regresija◼ Stabla za odlučivanje
5. Metode za grupiranje podataka: Klaster analiza◼ Metoda k
sredina (k-means)◼ Hijerarhijske metode
2
-
3
Preporučena literatura
Sharma, S., 1996. Applied Multivariate Techniques. John Wiley
& Sons, Inc.
Dillon W.R., M.Goldstein, 1984. Multivariate Analysis: Methods
and Applications. John Wiley & Sons, Inc.
A. K. Jain and R. C. Dubes. Algorithms for
Clustering Data. Printice Hall, 1988.
-
4
Dio 1.
Pregled i primjeri multivarijatne analize
-
5
Dio 1.1
Uvod i primjeri multivarijatnih statistika
-
6
Cilj
◼ Prepoznati i odabrati prikladan tip analize za traženje
odgovora na pojedina (tipična) pitanja u multivarijatnim
istraživanjima.
-
7
Univarijatne imultivarijatne statistike
Univarijatne statistike
◼ Analizira se svaka zavisna variabla (ZV)zasebno.
Primjeri: srednja vrijednost, t-test, ANOVA
Multivarijatne statistike
◼ Analizira se više zavisnih varijabli odjednom.
Primjeri: vektor srednjih vrijednosti, Hotelling’s T2, MANOVA
(multivarijatna ANOVA)
-
8
Prednosti multivarijatnih metoda
Univarijatne statistike◼ Sa porastom broja ZV raste rizik
pogreške I.
reda (tj. odbacivanja istinite nulte hipoteze) ◼ Razmatraju se
samo veze nezavisnih varijabli
(NV) sa ZV, a ne i veze između ZV.
Multivarijatne statistike◼ Pogreška I. reda se kontrolira tako
što se čitav
skup zavisnih varijabli razmatra zajedno u višedimenzionalnom
prostoru.
◼ Razmatraju se veze
između ZV i između ZV i NV.
-
9
Primjene multivarijatnihstatistika
Multivarijatne statistike se mogu koristiti za traženje odgovora
na razna pitanja u istraživačkim projektima.
Razmotrimo nekoliko primjera primjene multivarijatnih statistika
u
znanstvenim istraživanjima.
-
10
Usporedba učinkovitosti lijekova
Farmaceutska tvrtka želi usporediti učinkovitost◼ Dvaju
različitih formulacija (standardne i nove)
lijeka za liječenje depresije i obs.-komp. ponaš.
Kako mjeriti učinkovitost? ◼ Rezultat na testu depresivnosti
◼ Rezultati na 2 različita testa obsesivno-kompulsivnog
ponašanja.
U ovom primjeru:
2 kategorije JEDNE nezavisne varijable (2 lijeka),
3 zavisne varijable.
-
11
Usporedba učinkovitosti lijekova
Farmaceutska tvrtka želi usporediti učinkovitost◼ Dvaju
različitih formulacija (standardne i nove)
lijeka za liječenje depresije i obs.-komp. ponaš.
◼ 3 različite doze (50, 100, 200 mg).
Kako mjeriti učinkovitost? ◼ Rezultat na testu depresivnosti
◼ Rezultati na 2 različita testa obsesivno-kompulsivnog
ponašanja.
U ovom primjeru
2 nezavisne varijable (2 3 faktorijalni dizajn),
3 zavisne varijable.
-
12
Multivarijatna analiza varijance: MANOVA
Proširenje ANOVA-e na više varijabli.
Testira se značajnost ◼ razlika između grupa
◼ istovremeno po više zavisnih varijabli
◼ uzimajući u obzir korelacije između zavisnih varijabli.
Pitanje u istraživanju: “Postoje li signifikantne razlike između
2 ili više grupa na skupu zavisnih varijabli?”
-
13
Primjer korporacijskog treninga
Tvrtka želi usporediti učinkovitost 3 metode za obučavanje
zaposlenika u studiji sa ponovljenim mjerenjima.
Učinkovitost je definirana kao:
◼ Rezultat na testu poznavanja korporacijskih pravila
◼ Rezultat na testu vještina potrebnih za radno mjesto.
Zaposlenici su testirani u 3 vremenska intervala
◼ Nakon 2 tjedna
◼ Nakon 4 tjedna
◼ Nakon 6 tjedana
-
14
Dijagnostička korisnost /primjenjivost instrumenta
Kako se ponaša novi psihološki instrument u usporedbi sa
standardnim instrumentom?▪ Standardni instrument je sastavljen od
12
pitanja (na osnovu dijagnostičkih kriterija) i mora ga
administrirati educirani ispitivač.
▪ Novi (testirani) instrument sadrži 20 pitanja i ispunjava se
bez ispitivača.
Primjer sa▪ 12 kvantitativnih prediktora (nezavisnih
varijabli) i
▪ 20 kvantitativnih zavisnih varijabli.
-
15
Multivarijatna multipla regresija
Testira se značajnost linearnih veza između skupa prediktora i
skupa zavisnih varijabli uzimajući u obzir korelacije između
zavisnih varijabli.
Pitanje u istraživanju:
“Da li varijabilitet skupa kvantitativnih prediktora na
adekvatan način opisuje/ predviđa skup kvantitativnih zavisnih
varijabli?”
-
16
Kanonička korelacijska analiza
◼ U kanoničkoj korelacijskoj analizi se testira ista hipoteza
kao i u multivarijatnoj regresiji, ali se još
◼ Interpretiraju veze prediktora sa kanoničkim varijablama
zavisnih varijablama,
◼ Interpretiraju veze zavisnih varijabli sa kanoničkim
varijablama prediktora,
◼ Istražuje koliko dimenzija međusobno dijele skupovi zavisnih i
nezavisnih varijabli.
-
17
Primjer patološkog kockanja
Istraživači žele koristiti odgovore na pitanja u upitniku za
klasifikaciju ljudi u 3 grupe:
◼ Opsesivne kockare,
◼ Osobe koje igraju na sreću (“bingo”) i
◼ Osobe bez afiniteta prema kockanju (kontrolna skupina)
3 skupine učesnika je odgovorilo na upitnik sa 12 pitanja.
Pitanje: Koje linearne kombinacije (12) odgovora objašnjavaju
većinu varijabiliteta između 3 grupe kockara?
-
18
Profiliranje i predviđanje
Kartičarska tvrtka želi (prije izdavanja kreditne kartice)
iskoristiti financijske informacije za odlučivanje da li će
potencijalni klijent biti rizičan (napr. neuredan platiša) ili
ne.
Kardiolog želi razumjeti koja kombinacija varijabli
(sist./dijast. tlak, dob, spol, težina, laboratorijski nalazi, …)
najbolje predviđa rizik od infarkta.
-
19
Diskriminativna analiza
Diskriminativna analiza (DA) je metoda za redukciju dimenzija
(varijabli) koja se može primijeniti za određivanje linearne
kombinacije varijabli na kojoj su kategorije tj grupe najviše
udaljene. DA je konceptualno slična logističkoj regresiji za
multivarijatne podatke, a MANOVI po računalnom pristupu.
-
20
Primjer: bol lica i vilice (TMJ)
Istraživači žele razumjeti simptome bolesti temporomandibular
jaw disorder (TMJ). 120+ pacijenata je odgovorilo na 14 pitanja o
simptomima. Mnogo od tih odgovora je u međusobnoj asocijaciji
(vezi).
Istraživač želi ◼ reducirati ukupan broj varijabli sa 14 na
neki
manji broj i ◼ eliminirati potencijalne probleme vezane uz
kolinearnost (visoke korelacije među varijablama).
-
21
Komponentna analiza
Metoda za redukciju dimenzija (ukupnog broja varijabli)
◼ Kreiraju se nove varijable koje su linearne kombinacije skupa
početnih, koreliranih varijabli,
◼ Nove varijable su nekorelirane (“ortogonalne”)
◼ Ne pretpostavlja se postojanje latentne (skrivene) faktorske
strukture.
Praktično pitanje:
“Kako reducirati skup od 14 koreliranih varijabli na manji skup
nekoreliranih varijabli?”
-
22
Primjer: bol lica i vilice (TMJ)
Istraživači žele otkriti da li percepcije simptoma pacijenata
odražavaju nekoliko “latentnih” (skrivenih) faktora bolesti ili
jedan jedini.
Prikupljeni su odgovori od 120+ pacijenata na 14 pitanja vezana
uz simptome bolesti TMJ◼ Eksplorativnom se analizom identificiraju
mogući
“latentni” faktori bolesti. ◼ Konfirmativnim se analizom
testiraju postavljene
hipoteze o faktorima bolesti.
-
23
Faktorska analiza
Eksplorativna faktorska analiza je tehnika za traženje
“latentnih” varijabli. Često se pogrešno brka sa komponentnom
analizom.
Metode faktorske analize se koriste kada se pretpostavlja da
postoji “skrivena” faktorska struktura, tj. da se sa malim brojem
latentnih dimenzija može jednostavnije opisati mjereni proces ili
ponašanje.
-
24
Pitanja u istraživanjima faktorskom analizom
◼ “Jesu li percepcije matematike rezultat jednog jedinog
stava-mišljenja ili ima više skrivenih sustava koji svi zajedno
doprinose percepcijama o matematici?”
◼ “Da li je rast nekog živog organizma rezultat jednostavnog
procesa rasta ili postoji više latentnih sustava koji zasebno
pridonose rastu organizma?”
◼ “Da li je ekonomski rast jednostavan sustav ili je rezultat
nekoliko latentnih varijabli koje su u međusobnoj vezi i zajednički
pridonose ekonomskom okruženju?”
-
25
Morfološki tipovi
Istraživački tim nastoji istražiti da li se na osnovu
morfoloških karakteristika mlađih osoba muškog spola iz RH može
identificirati manji broj homogenih grupa -morfoloških tipova.
-
26
Klaster analiza
Klaster: skup objekata (entiteta/ opservacija) koji su
◼ međusobno slični ako pripadaju istom klasteru,
◼ međusobno različiti ako pripadaju različitim klasterima.
Klaster analiza
◼ Traženje sličnosti među objektima na osnovu izmjerenih
karakteristika i grupiranje sličnih objekata u klastere.
-
27
Bogatstvo informacija u odnosu na jednostavnost
Multivarijatna analiza uzima u obzir kompleksne,
višedimenzionalne odnose među varijablama. MV statistike mogu biti
složene za interpretaciju. ◼ Razlog zašto se univarijatne metode
češće
koriste – lakše ih je razumjeti
◼ Ulaganje vremena i truda u razumijevanje višedimenzionalnih
veza može biti profitabilno, vrijedno truda. Ali …
◼ Katkada je priroda problema tako kompleksna da se treba
vratiti na univarijatnu analizu radi razumijevanja.
-
28
Treba imati na umu da analiza nikada ne može biti bolja od
podataka na kojima se primjenjuje
◼ Navesti pitanja koja će se istraživati.
◼ Dizajnirati studiju kojom će se moći istražiti navedena
pitanja.
◼ Definirati i dokumentirati plan istraživanja.
◼ Izmjeriti varijable u skladu sa planom.
◼ Oprezno pregledati podatke (pogreške i neobične opservacije –
“outlier”-e ).
Ne može biti “Garbage In, Roses Out.” (Tabachnik and Fidell
2001)
-
53
Dio 2
Metode za redukciju podataka, ekstrakciju važnih faktora i
grafičke prikaze
◼ 2.1 Metoda glavnih komponenata
◼ 2.2. Faktorska analiza
◼ 2.3. Grafičke metode
-
54
2.1 Metoda glavnih komponenata (PCA)
Ciljevi:
◼ Objasniti ključne koncepte PCA metode
◼ Opisati strategije za određivanje broja glavnih
komponenata
◼ Demo na primjeru: PAIN podaci (Jmp i SAS)
-
Suviše varijabli
55
Systolic
blood
pressure
Diastolic
blood
pressure
Diet
Exercise
LDL Cholesterol
HDL Cholesterol
Medication
-
Moguća rješenja
◼ Eliminacija nekih redundantnih varijabli. Može dovesti do
gubitka važnih informacija koje
su na jedinstven način sadržane u eliminiranim varijablama.
◼ Kreiranje kompozitnih skorova iz varijabli (sume ili
prosjeci). Gubitak varijabiliteta među varijablama Više kompozitnih
skorova može i nadalje biti
kolinearno◼ Kreiranje ponderiranih linearnih kombinacija
varijabli uz zadržavanje većine varijabiliteta Manje varijabli;
mali ili nikakav gubitak
varijabiliteta Nove varijable (lin. kombinacije) nisu
kolinearne.
56
-
Metoda glavnih komponenata (PCA)
◼ Je metoda za redukciju dimenzija (ulaznih varijabli), kojom se
kreiraju nove varijable koje se zovu glavne komponente
◼ Kreira se onoliko komponenata koliko ima ulaznih
varijabli.
◼ Problemi
Komponente nisu uvijek direktno iterpretabilne
Odabir malog broja “važnih” komponenata
57
-
Glavne komponente (PC)
◼ Su ponderirane linearne kombinacije ulaznih varijabli
◼ Su međusobno ortogonalne i nezavisne
◼ generiraju se tako da se sa prvom komponentom izvuće najveći
dio varijabiliteta sadržan u ulaznim varijablama (x1,x2,…xp), sa
slijedećom komponentom najveći preostali dio varijabiliteta
itd.
58
-
Geometrijska svojstva Sa LS regresijom se
minimizira suma kvadrata vertikalnih udaljenosti do
(regresijskog) pravca(okomitih na x os)
Se PCA se minimizira suma kvadrata udaljenosti okomitih na PC
os.
59y1
y2
..
.
..
...
.
..
..
...
..
y2
..
.
..
...
.
..
..
...
..
PC os
Regresijskipravac
-
Detalji PCA metode
60
j glavnih komponenata su LS rješenje (po metodi najmanjih
kvadrata) slijedećeg modela:
Y = XB
gdje
Y n x p matrica skorova na komponentama
X n x j matrica standardiziranih (ili centriranih) ulaznih
varijabli
B j x p matrica svojstvenih vektora korelacijske (ili
kovarijančne) matrice ulaznih varijabli.
-
Koliko komponenata zadržati?
61
◼ “Scree plot” svostvenih vrijednosti (eng. eigenvalues):
◼ Proporcija varijanceobjašnjena svakomkomponentom:
◼ Kumulativna varijancaobjašnjena komponentama:
◼ Svoj. vrijednost i > 1
1 2
1 2
or .. ( )
..
( )
i i
p
k
tr
tr
+ + +
+ + +
R
R
**
* * * *
-
Koliko komponenata zadržati?
PB kriterij (Momirović i sur., 1971)
Intenzivno računarske metode
◼ simulacijske metode,
◼ randomizacijske metode,
◼ bootstrap
Statistički testovi
◼ Samo za komponentnu analizu na matrici kovarijanci
(centriranim podacima)
62
-
Skorovi glavnih komponenata
Skorovi glavnih komponenata mogu se kreirati
◼ za svaku observaciju u X (matrici ulaznih podataka)
◼ na svakoj glavnoj komponenti
◼ na standardiziranim ili originalnim ulaznim varijablama.
63
-
Grafička eksploracija PC-a
64
Outlier?
-
Pretpostavke za PCA
Podaci koji nedostaju – nedostaju na slučajan način (missing at
random)
Nema outliera (stršećih podataka)
Singularnost - nije matematički problem (jer nema invertiranja
matrica, kao npr. u regresiji)
65
-
PRIMJER: “PAIN” PODACI TEMPOROMANDIBULARJAW DISORDER (TMJ)
66
http://www.deardoctor.com/img/inthisissue/issue6/jaw_pain.jpghttp://drhamiltonoc.com/images/jaw-pic1.jpghttp://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpghttp://i24.ebayimg.com/05/s/08/0e/77/13_2.JPGhttp://www.physicalsense.biz/treatment/whatwetreat/images/jaw-pain.jpg
-
Ulazne varijable
hurtchew Does it hurt when you chew?
hurtwide Does it hurt when you open wide or take a big bite?
noise Does your jaw make a noise so that it bothers you or
others?
stiffjaw Stiff jaw (in the morning)?
cracking Locking/cracking of jaw joint (in the morning)?
painslp Does the pain or discomfort disturb your sleep?
painrout Does the pain or discomfort interfere with your daily
routine or other activities?
paintab Do you take tablets for pain or discomfort?
amhdache Headache (in the morning)?
earpain Do you have ear pain or pain in front of the ears?
grind Has anyone ever heard you grinding your teeth in your
sleep, or are you aware of it yourself?
clampset Are you aware that you clamp or set your jaw?
sorejaw Sore jaw or teeth (in the morning)?
facepain Do you have pain in the face, jaw, eyes, throat, neck,
or temples?
67
-
Distribucije
68
Mean 4,4958678
Std Dev 1,0418251Mean 5,4793388
Std Dev 1,0731509
Mean 5,0082645
Std Dev 1,076227
hurtchew hurtwide noise
…
-
Matrica korelacija
69
hurtchew hurtwide noise stiffjaw cracking painslp painrout
paintab amhdach earpain grind clampset sorejaw facepain
dayslost
hurtchew 1,0000 0,9186 0,7395 0,8335 0,7467 0,0601 0,0481 0,1070
0,0136 0,1459 0,2000 0,1874 0,0907 0,3428 0,4090
hurtwide 0,9186 1,0000 0,7541 0,8474 0,7022 0,0438 0,0003 0,0819
-0,0015 0,0918 0,1579 0,1311 0,0308 0,3561 0,3418
noise 0,7395 0,7541 1,0000 0,7420 0,5986 0,0946 0,0773 0,1199
0,0635 0,0998 0,1605 0,1426 0,0178 0,2799 0,2382
stiffjaw 0,8335 0,8474 0,7420 1,0000 0,6755 -0,0232 -0,0575
0,0116 -0,0675 0,1090 0,1477 0,1054 0,0496 0,2244 0,2860
cracking 0,7467 0,7022 0,5986 0,6755 1,0000 0,0751 0,0723 0,1820
0,0372 0,1565 0,2230 0,1275 0,1279 0,1766 0,3441
painslp 0,0601 0,0438 0,0946 -0,0232 0,0751 1,0000 0,7594 0,7860
0,8634 0,1667 0,0664 0,1925 0,1521 0,3490 0,4497
painrout 0,0481 0,0003 0,0773 -0,0575 0,0723 0,7594 1,0000
0,6806 0,7415 0,1261 0,1411 0,1335 0,1000 0,1980 0,4205
paintab 0,1070 0,0819 0,1199 0,0116 0,1820 0,7860 0,6806 1,0000
0,7548 0,1426 0,0849 0,1315 0,1682 0,2964 0,5102
amhdach 0,036 -0,0015 0,0635 -0,0675 0,0372 0,8634 0,7415 0,7548
1,0000 0,1310 0,0413 0,1232 0,1545 0,2853 0,3845
earpain 0,1459 0,0918 0,0998 0,1090 0,1565 0,1667 0,1261 0,1426
0,1310 1,0000 0,7299 0,7663 0,7646 0,0917 0,3975
grind 0,2000 0,1579 0,1605 0,1477 0,2230 0,0664 0,1411 0,0849
0,0413 0,7299 1,0000 0,6943 0,6795 0,1438 0,3690
clampset 0,1874 0,1311 0,1426 0,1054 0,1275 0,1925 0,1335 0,1315
0,1232 0,7663 0,6943 1,0000 0,6541 0,1773 0,3844
sorejaw 0,0907 0,0308 0,0178 0,0496 0,1279 0,1521 0,1000 0,1682
0,1545 0,7646 0,6795 0,6541 1,0000 0,1545 0,4024
facepain 0,3428 0,3561 0,2799 0,2244 0,1766 0,3490 0,1980 0,2964
0,2853 0,0917 0,1438 0,1773 0,1545 1,0000 0,3977
dayslost 0,4090 0,3418 0,2382 0,2860 0,3441 0,4497 0,4205 0,5102
0,3845 0,3975 0,3690 0,3844 0,4024 0,3977 1,0000
-
Matrica korelacija – “color map”
70
-
Svojstvene vrijednosti i “scree plot”
71
Number Eigenvalue Percent CumPercent
1 5,1183 34,122 34,1222 3,4912 23,275 57,3973 2,6600 17,733
75,1314 0,8332 5,555 80,6855 0,5646 3,764 84,4496 0,4058 2,706
87,1557 0,3809 2,539 89,6948 0,3091 2,061 91,7559 0,2813 1,875
93,63110 0,2245 1,497 95,12811 0,1924 1,283 96,41012 0,1865 1,243
97,65313 0,1608 1,072 98,72514 0,1190 0,794 99,51815 0,0722 0,482
100,000
Prve 3 komponente sadržavaju 75% ukupnog varijabiliteta= (5.1 +
3.5 + 2.7)/15
Lakat?
-
72
2.1 Faktorska analiza (FA)
Ciljevi:
◼ Objasniti razlike između PCA i FA (metode zajedničkih
faktora)
◼ Opisati nekoliko metoda za ekstrakciju faktora
◼ Objasniti razliku između ortogonalne i kose (oblique) rotacije
faktora
◼ Demo na primjeru: PAIN podaci (Jmp i SAS)
-
Zašto FA?
Očekujemo da su ulazne/ opservirane/ manifestne varijable
funkcije varijabli koje ne možemo direktno opservirati (latentne
varijable)
◼ Da identificiramo latentne varijable kako bi naučili nešto
interesantno o ponašanju naše populacije.
◼ Da identificiramo odnose među pojedinim latentnim
varijablama.
◼ Da pokažemo da je mali broj latentnih varijabli odgovoran za
proces ili ponašanje koje smo izmijerili (da bismo pojednostavili
teoriju).
◼ Da opišemo korelacije među opserviranim varijablama.
73
-
Osnovna podjela FA
Metode za eksplorativnu FA
◼ Cilj: eksploracija
Konfirmativna FA
◼ Cilj: potvrda neke unaprijed postavljene hipoteze
Ovdje: samo eksplorativna FA
74
-
75
Eksplorativna FA
F1:Consumer
confidence
F2: Buying
power
New Home
Buys
Durable
Goods Buys
Borrowing
Income
Import
Purchases
u1
u2
u3
u4
u5
?
-
76
Components versus Factors, Revisited
Glavne komponente –
simptomi
Latentni faktori –
bolest
-
77
Model zajedničkih faktora
Y = X + E
gdje
Y manifestne varijable
X zajednički faktori
ponderi (koeficijenti)
E unikni faktori + varijanca pogreške
-
78
Pretpostavke za metodu zajedničkih faktora
◼ Unikni faktori (reziduali) su međusobno nekorelirani.
◼ Unikni faktori (reziduali) su nekorelirani sa zajedničkim
(latentnim) faktorima.
Uz ta ograničenja, mogu se naći rješenja (za danu korelacijsku
matricu R):
or R = β β+U R -U = β β
-
79
PCA vs FA
PCA FA
Sve komponente zajedno
sadrže ukupno 100%
varijance (svih ulaznih
varijabli).
Svi faktori zajedno ne
sadrže nužno ukupno 100%
varijance (svih ulaznih
varijabli).
Komponente se izvode iz
varijabli i opisuju 100%
varijabiliteta podataka.
Faktori su procjene latentnih
varijabli i opisuju samo
zajednički dio varijabiliteta
manifestnih varijabli.
-
80
Ograničenja eksploratorne FA
Faktorski skorovi nisu linearne kombinacije ulaznih varijabli.
Oni su procjene latentnih faktora. Treba izbjegavati “namještanje
rezultata”:◼ Pažljivim izborom manifestnih varijabli.
◼ Primjenom rotacije za interpretaciju faktora.
◼ Izvođenjem konfirmativne analize za testiranje hipoteze o
adekvatnosti faktorskog rješenja
-
81
Pregled metoda za ekstrakciju faktora
Analiza glavnih faktora (Principal Factor Analysis - PFA)◼
Računarski efikasna◼ Najčešće se koristi.
Maximum Likelihood FA (FA najveće vjerodostojnosti – MLFA)◼
Manje računarski efikasna (iterativna procedura)◼ Bolje procjene
nego sa PFA na velikim uzorcima.◼ Mogu se testirati hipoteze o
broju faktora.
Priorne procjene komunaliteta su obično kvadrati multiplih
korelacija svake pojedine varijable sa svim ostalim
varijablama.
-
82
Koliko faktora?
◼ Proporcija varijance opisana sa Minimalnim brojem faktora
potrebnih da opišu
100% zajedničke varijance.
◼ Scree test Točka gdje se nalazi “lakat” u krivulji
◼ Kriteriji bazirani na interpretabilnosti Barem 3 varijable
imaju visoke koeficijente
(loading) na svakom faktoru Varijable na pojedinom faktoru
dijele zajedničko
konceptualno značenje Varijable na različitim faktorima mjere
različite
konstrukte (latentne faktore) Rotirani faktori demonstriraju
“jednostavnu
strukturu”.
-
DEMO: “PAIN” PODACI TEMPOROMANDIBULARJAW DISORDER (TMJ)
83
http://www.deardoctor.com/img/inthisissue/issue6/jaw_pain.jpghttp://drhamiltonoc.com/images/jaw-pic1.jpghttp://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpghttp://i24.ebayimg.com/05/s/08/0e/77/13_2.JPGhttp://www.physicalsense.biz/treatment/whatwetreat/images/jaw-pain.jpg
-
Komunaliteti (priorni)
84
Prior Communality Estimates: SMC
hurtche
w
hurtwid
e
noise stiffjaw crackin
g
painslp painrou
t
paintab amhdac
he
earpain grind clamps
et
sorejaw facepai
n
0.878 0.878 0.628 0.775 0.612 0.823 0.657 0.673 0.782 0.738
0.650 0.658 0.652 0.308
SMC: Na dijagonalu reducirane matrice R-U se na
početkupostavljaju (Rj
2) kvadrati multiplih korelacija j-te varijable sa svim ostalim
varijablama (j=1,p).
-
Svojstvene vrijednosti reducirane matrice (R-U)
85
Preliminary Eigenvalues: Total = 42.2227014
Average = 3.01590724
Eigenvalue Difference Proportion Cumulative
1 22.1866011 8.8566626 0.5255 0.5255
2 13.3299385 5.4335408 0.3157 0.8412
3 7.8963977 7.3961789 0.1870 1.0282
4 0.5002189 0.2362913 0.0118 1.0400
5 0.2639276 0.0650434 0.0063 1.0463
6 0.1988841 0.1909592 0.0047 1.0510
7 0.0079249 0.0792444 0.0002 1.0512
8 -0.0713195 0.1620991 -0.0017 1.0495
9 -0.2334186 0.0273054 -0.0055 1.0440
10 -0.2607240 0.0411412 -0.0062 1.0378
11 -0.3018652 0.0570478 -0.0071 1.0306
12 -0.3589130 0.0828409 -0.0085 1.0221
13 -0.4417539 0.0514436 -0.0105 1.0117
14 -0.4931974 -0.0117 1.0000
3 faktora na osnovu “proportion”kriterija
-
Scree plot
86
-
Test značajnosti za broj faktora (3)
87
Significance Tests Based on 121 Observations
Test DF Chi-Square Pr > ChiSq
H0: No
common
factors
91 1356.7888
-
Matrica sklopa (factor pattern)
88
Factor Pattern
Factor1 Factor2 Factor3
hurtchew 0.94910 -0.11071 -0.04773
hurtwide 0.94297 -0.14657 -0.10148
noise 0.78511 -0.05376 -0.08561
stiffjaw 0.86188 -0.19845 -0.05177
cracking 0.75905 -0.04229 -0.01028
painslp 0.16230 0.90769 -0.21114
painrout 0.11640 0.77729 -0.17748
paintab 0.19416 0.78821 -0.19268
amhdache 0.10793 0.87939 -0.22613
earpain 0.23652 0.32783 0.82067
grind 0.27884 0.21407 0.74109
clampset 0.26239 0.31251 0.72470
sorejaw 0.16759 0.32315 0.74447
facepain 0.38357 0.27465 -0.0576
Korelacije faktora imanifestnih varijabli
Variance Explained by Each Factor
Factor Weighted Unweighted
Factor1 29.9257685 4.19235839
Factor2 18.4760420 3.33128063
Factor3 10.4227732 2.49250606
Pomicanjevilice
Utjecajboli naživot
Stiskanje iškripanjezubima
-
Matrica sklopa (factor pattern):grafikon
89
-
90
Dali su faktori u korelaciji?
Buying
Power
Consumer
Confidence
Buying
Power
Consumer
Confidence
Orthogonalna
Oblique
Metode za rotaciju faktora
-
91
Metode za rotaciju faktora
Varimax-Orthogonalna:
◼ Maksimizira se varijanca kolona matrice sklopa.
Promax-Oblique – u 2 koraka:
◼ 1. Varimax rotacija
◼ 2. Relaksiraju se uvijeti ortogonalnosti i dalje se
rotira.
U SAS-u je moguće koristiti još niz drugih metoda za
rotaciju
-
92
Rezultati faktorske analize
Svojstvene vrijednosti (1, 2,… p)
U FA se ispisuju svojstvene vrijednosti reducirane matrice
korelacija (R-U).
◼ U PCA, svojstvene vrijednosti matrice R.
◼ Pravilo i> 1 ima manje smisla primijeniti u FA.
◼ Scree plot svojstvenih vrijednosti je koristan u FA.
-
93
Rezultati faktorske analize
Matrica sklopa (Factor Pattern Matrix)
◼ Matrica standardiziranih regresijskih koeficijenata za Y = XB
+ E
◼ Jednaka je matrici korelacija između početnih varijabli i
ekstrahiranih (ortogonalnih) zajedničkih faktora.
-
94
Rezultati faktorske analize
Rotirana matrica sklopa
◼ Matrica standardiziranih regresijskih koeficijenata za
rotirane faktore
◼ Jednaka je matrici korelacija između početnih varijabli i
rotiranih zajedničkih faktora (za ortogonalne rotacije).
-
95
Rezultati faktorske analize
Matrica strukture
◼ Kreira se samo za oblique (kose) rotacije
◼ To je matrica korelacija ulaznih varijablii i rotiranih
zajedničkih faktora.
-
96
Rezultati faktorske analize
Matrica referenčne strukture
◼ Kreira se samo za oblique (kose) rotacije
◼ To je matrica semiparcijalnih korelacija između ulaznih
varijabli i zajedničkih faktora, nakon eliminacije efekata ostaih
faktora iz svakog pojedinog faktora.
-
97
Rezultati faktorske analize
Korelacije između faktora◼ generiraju se samo za oblique
(kose)
rotacije
Grafikoni faktora
Konačne procjene komunaliteta◼ R2 za predviđanje varijabli iz
faktora
◼ Zovu se kvadrati kanoničkih korelacija (squared canonical
correlations) (u ML metodi)
Varijance objašnjene svakim faktorom
-
DEMO: “PAIN” PODACI TEMPOROMANDIBULARJAW DISORDER (TMJ)
98
http://www.deardoctor.com/img/inthisissue/issue6/jaw_pain.jpghttp://drhamiltonoc.com/images/jaw-pic1.jpghttp://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpghttp://i24.ebayimg.com/05/s/08/0e/77/13_2.JPGhttp://www.physicalsense.biz/treatment/whatwetreat/images/jaw-pain.jpg
-
Ortogonalna rotacija
99
-
Rotirana matrica sklopa
100
Rotated Factor Pattern
Factor1 Factor2 Factor3
hurtchew 0.95158 0.03084 0.09422
hurtwide 0.95904 0.01259 0.03239
noise 0.78672 0.07526 0.04504
stiffjaw 0.88236 -0.06184 0.05018
cracking 0.74922 0.05982 0.11462
painslp 0.02799 0.94176 0.08435
painrout 0.00150 0.80258 0.07133
paintab 0.07747 0.82742 0.07400
amhdache -0.01810 0.91270 0.05254
earpain 0.06377 0.08949 0.90821
grind 0.13556 0.01174 0.80887
clampset 0.10451 0.10757 0.81805
sorejaw 0.00754 0.09952 0.82267
facepain 0.33392 0.32564 0.09137
-
101
2.3 Grafičke metode
Ciljevi:
◼ Objasniti i demonstrirati metodu multidimenzionalnog
skaliranja (MDS)
◼ Opisati i demonstrirati grafičku metodu CoPlot
◼ Opisati i demonstrirati grafičku metodu BIPLOT
◼ Demo na primjerima: PAIN, CARS i Anthrax kod djece (Jmp i
SAS)
-
MDS
primarni cilj multidimenzionalnog skaliranja je mapiranje
objekata (opservacija, pacijenata, događaja) iz više- u
nižedimenzionalni (napr dvodimenzionalni) prostor tako da njihov
relativni položaj u tom prostoru odražava stupanj izmjerene
sličnosti među objektima.
Sličnosti među opservacijama u podacima se transformiraju u
udaljenosti na mapi (zemljovidu) tako da su slične opservacije
međusobno bliže nego što su one koje su manje slične.
102
-
MDS analiza zračnih udaljenosti između 10 američkih gradova
103
-
MDS analiza zračnih udaljenosti između 10 američkih gradova
104
-
MDS za CARS podatke
105
Varijablekoje su uvisokojkorelaciji
-
Nedostatci MDS metode
Iako opservacije čine ključnu ulogu u određivanju udaljenosti na
MDS mapi, one se ne prikazuju na konačnom grafičkom prikazu. (Ne
mogu se na istoj mapi prikazati istodobno i varijable i
opservacije)
Osi MDS mape nemaju neko inherentno značenje (što ograničana
interpretabilnost)
106
-
CoPlot
Je novija metoda za grafičku analizu multivarijatnih podataka
koja omogućuje simultanu analizu opservacija i varijabli
CoPlot-om se mapiraju opservacije ivarijable na takav način da
njihovi odnosi ostaju sačuvani, što omogućuje bogatiju
interpretaciju.
107
-
Neke primjene CoPlot-a
Evaluacija učinkovitosti banaka,
Socioekonomske razlike među gradovima,
Karakteristike uspješnih spajanja i akvizicija,
Karakteristike automobila,
U medicini (antraks u dječjoj populaciji, D.M. Bravata i
sur.)
108
-
Koraci u generiranju CoPlot-a*
109
Original Data Matrix (Y)
Variable 1 Variable 2 Variable 3
Observation 1 y11 y 12 y 13
Observation 2 y 21 y 22 y 23
Observation 3 y 31 y 32 y 33
Observation 4 y 41 y 42 y 44
Step 1: Standardize the data so that all the variables are on
the same scale where .
Standardized Data Matrix (Z)
Variable 1 Variable 2 Variable 3
Observation 1 z11 z 12 z 13
Observation 2 z 21 z 22 z 23
Observation 3 z 31 z 32 z 33
Observation 4 z 41 z 42 z 43
s
yyz
j
ij
jij−
=
Step 2: Create a distance matrix that describes the distance
between each of the observations where. zzD qrk
rprpq−=
=1
Distance Matrix (D)
Observation 1 Observation 2 Observation 3 Observation 4
Observation 1 0 d 12 d 13 d 14
Observation 2 d 21 0 d 23 d 24
Observation 3 d 31 d 32 0 d 34
Observation 4 d 41 d 42 d43 0
/* Prema D.M. Bravata i sur., Statistics in Medicine, 2007
Originalna matricapodataka (nxp)
Standardizirana matricapodataka (sredine=0,st.dev=1)
Matrica udaljenosti(nxn)
-
Koraci u generiranju CoPlot-a*
110
Step 4: Add projections of vectors representing the
variables.
Step 3: Generate map of distances among observations.
-
Alternativan prikaz CARS podataka
111
Variables Only Observations Only
BOJA (zemlja porijekla): bijela=US, siva=Europa, crna=Japan)
-
Podatci o Antraksu u djece
demographic information (e.g., age, gender, nationality),
symptom and disease progression information (e.g., source of
infection such as inhalational or gastrointestinal, symptoms when
patient first presented for treatment, whether the patient
developed secondary meningoencephalitis, survival information),
and
treatment information (e.g., whether the patient received
antibiotics or anti-serum)
112
-
Podatci o Antraksu u djece:varijable
Source of infection (such as inhalational
vsgastrointestinal)
Age (years) Year of publication of case report Gender U.S.
versus non-U.S. cases Any antibiotics Penicillin-based antibiotics
Any serum (either anthrax-specific or general
anti-serum) Died Developed meningoencephalitis
113
-
Inicijalna CoPlot mapa djece s antraksom
114
Gender i age suNajmanje važne(najkraći vektori),pa ih je bolje
eliminirati
-
CoPlot mapa djece s antraksom, boja: izvor infekcije
115
BOJA:bijela:
kožat.siva=gastrotestinals.siva=udisanjecrna=ostalo
Bez gender i age
Outlier: 2.5 god djevojčica(udisanje, preživjela,Serum)
-
CoPlot mapa djece s antraksom, boja: preživjeli/umrli
116
BOJA:Bijela=preživjeliCrna=umrli
-
BIPLOT
Kao i CoPlot omogučuje simultani prikaz opservacija i
varijabli
Baziran je na (SVD) dekompoziciji matrice podataka:
X = G H’
U BIPLOTu se retci nx2 matrice G prikazuju kao točke, koje
odgovaraju opservacijama, a retci p x 2 matrice se prikazuju kao
vektori, koji odgovaraju varijablama.
117
-
BIPLOT za PAIN podatke
118
-
BIPLOT za podatke PROTEIN CONSUMPTION IN EUROPE
119
-
SadržajMULTIVARIJATNA ANALIZA PODATAKA 1. Uvod i primjeri metoda
multivarijatne analize 2. Metode za redukciju podataka, ekstrakciju
važnih faktora i
grafičke prikaze◼ Komponentna analiza◼ Faktorska analiza◼
Multidimenzionalno skaliranje (MDS), Biplot, CoPlot
3. Metode za analizu veza među skupovima varijabli◼
Multivarijatna regresijska analiza◼ Kanonička korelacijska
anali
STATISTIČKO MODELIRANJE, PREDIKTIVNA ANALITIKA 4. Metode za
klasifikaciju
◼ Diskriminativna analiza (Fisherova)◼ Kanonička diskriminativna
analiza◼ Logistička regresija◼ Stabla za odlučivanje
5. Metode za grupiranje podataka: Klaster analiza◼ Metoda k
sredina (k-means)◼ Hijerarhijske metode
147
-
148
Dio 4
Metode za klasifikaciju:
◼ 4.1 Diskriminativna analiza (Fisherova) i kanonička
diskriminativna analiza
◼ 4.2 Logistička regresija
◼ 4.3 Stabla za odlučivanje
-
4.1 Diskriminativna analiza (Fisherova) i kanonička
diskriminativna analiza
Ciljevi◼ Razumijeti ciljeve diskriminativne
analize (DA).◼ Identificirati sličnosti između DA i
multivarijatnih generalnih linearnih modela.
◼ Objasniti kako se izvodi kanonička DA.
◼ Demo: PIZZA podaci. Interpretirati rezultate kanoničke
diskriminativne analize (SAS, SAS/EG).
149
-
150
Pitanja u istraživanjima
◼ Kardiolog želi razumjeti koja kombinacija varijabli
(sist./dijast. tlak, dob, spol, težina, laboratorijski nalazi, …)
najbolje predviđa rizik od infarkta.
◼ Kartičarska tvrtka želi (prije izdavanja kreditne kartice)
iskoristiti financijske i demografske informacije o klijentu u
odlučivanju da li budući klijent predstavlja potencijalni rizik za
tvrtku.
◼ Ministarstvo znanosti, obrazovanja i športa želi koristiti
rezultate testova/ispita i varijable ponašanja u razredu za
identifikaciju učenika kojima je potreban dodatni program
učenja.
◼ Osiguravajuće društvo želi razumjeti koje demografske
varijable i varijable ponašanja karakteriziraju različite tipove
vozača.
-
151
Zašto DA?
Sa DA možemo
◼ Interpretirati rezultate kroz identifikaciju varijabli na
kojima se grupe najviše razlikuju
◼ Koristiti linearnu kombinaciju varijabli za predviđanje
pripadnosti pojedinoj grupi.
◼ Provjeriti (validirati) model na “novim” podacima
-
152
“Vođena” analiza podataka
Ima niz metoda za klasifikaciju observacija na osnovu danog
skupa varijabli. No,
◼ Diskriminativna analiza NIJE KLASTER analiza
◼ Za provođenje diskriminativne analize potrebno je imati
informaciju o pripadnosti grupi (za razliku od klaster analize)
◼ Diskriminativnom se analizom pronalazi linearna kombinacija
prediktora koja najbolje diferencira grupe
◼ Te se linearne kombinacije mogu primijeniti u budućnosti (tj.
kada grupna pripadnost NIJE poznata) za predviđanje pripadnosti
grupi.
-
153
Ciljevi DA
1. Interpretacija: “Kako se grupe razlikuju?”
Naći i interpretirati linearne kombinacije varijabli koje
optimalno predviđaju grupne razlike.
2. Klasifikacija: “Koliko se točno mogu observacije
klasificirati u grupe?”
Primjenom funkcija varijabli predviđa se pripadnost pojedinoj
grupi i procjenjuje pogreška.
-
154
Podjela metoda diskriminativne analize
Klasična Fisherova diskriminativna analiza (FDA)◼ Linearni model
(za jednake matrice
kovarijanci po grupama)
◼ Kvadratni model (za nejednake matrice kovarijanci po
grupama)
Kanonička diskriminativna analiza (KDA)
Neparametarske metode
-
155
Usporedba FDA i KDA(uz pretpostavku da je br.varijabli > br.
grupa)
FDA (linearna)
Br.funkcija = br.grupa
Opservacije se skoriraju prema sličnosti sa centroidima grupa.
Skorovi se transformiraju u vjerojatnosti pripadnosti grupama
Primjenjuje se kada je primarni cilj klasifikacija
PROC DISCRIM
KDA
Br.funkcija = br.grupa – 1
Traže se funkcije koje maksimalno razdvajaju centroide grupa
Primjenjuje se kada je primarni cilj interpretacija (kako se
grupe razlikuju)
PROC CANDISC i PROC DISCRIM
-
156
Fisherova diskriminativna analiza(linearni model, jednake
matrice varijanci i kovarijanci)
2 2
2(x) (x) ( )t tD d g t= +
Mahalanobisova
udaljenost-2(ln(prior))
Posteriornavjerojatnostpripadnostigrupi j
Kvadrat udaljenostiopservacije x do grupe t
Klasifikacija: Opservacija x se klasificira u grupu za koju
je(posteriorna) vjerojatnost da joj pripada najveća
-
Mahalanobisova udaljenost
Neka su xi i xj dvije multivarijatne opservacije (i-ti i j-ti
redak nxp matrice X). Zbog jednostavnosti pretpostavimo da su
podaci centrirani.
Neka je S kovarijančna matrica (S=X’X/n)
Tada se Euklidska udaljenost između xi i xjmože izraziti kao dE
(xi , xj ) = (xi - xj )’ (xi - xj )
= (xik - xjk )2
a Mahalanobisova udaljenost kaodM (xi , xj ) = (xi - xj )’ S
-1(xi - xj )
157
-
Mahalanobisova udaljenost
U usporedbi sa običnom Euklidskom udaljenosti (i nekim drugim
udaljenostima), prednost Mahalanobisove udaljenosti je u tome što
eksplicitno uzima u obzir eventualne korelacije između
varijabli.
158
-
DEMO: PIZZA PODACIVarijable: mois prot fat ash sodium carb
calGrupa: Brand (g=10)
159
http://www.yorkblog.com/onlyyork/Pizza-Capricciosa.jpghttp://www.magmapizza.com/wp-content/uploads/2010/02/3_pizzas.jpghttp://www.finestchef.com/Mexican
Pizza.jpghttp://www.correllconcepts.com/Encyclopizza/01_Intro/pizza_pepperoni_pizza.jpg
-
164
Preliminarna eksploracija
Brandovi (marke) pizze se razlikuju po količini vlage (MOIS)
Isto semožeprovjeritiza ostalevarijable
-
167
Rezultati DA
Multivarijatni testovi
Testira se hipoteza (Ho) da su svi centroidi (multivarijatne
sredine) jednaki
Ho se odbacuje
-
168
Rezultati: Posteriorne vjerojatnosti pripadnosti grupama
(brandovima)
Klasificiranjeu grupu sanajvećomvjerojatnostipripadnosti
-
169
Rezultati DA (zbirni): Mjere točnosti klasifikacije (na podacima
za razvoj modela )
Od ukupno 32observacije pizze D 30 (93.75%)ihje na (osnovu
DA)klasificiranou D, a 2 u C
-
170
Rezultati
pogreške klasifikacije
2/32 = 0.0625
Procjena ukupne pogreške = 10.33%
Napomena: da je procjena pogreške suviše “optimistička”,Treba je
procjeniti na neovisnim podacima
-
178
Kanonička diskriminativna analiza: Multivarijatni linearni
model
Linearni model u KDA je ustvari isti kao i u MANOVA-i: Y = X +
E
◼ Pretpostavke su iste kao i u MANOVA-i
◼ Ako podaci nisu multivarijatno normalno distribuirani, tada je
obično bolje
primijeniti neparametarski model ili
transformirati varijable.
-
179
Ključni rezultati KDA
Kanoničke diskriminativne funkcije/varijable (CAN)
◼ Odredjivanje broja značajnih CAN varijabli (multivarijatni
testovi)
Korelacije izmedju početnih varijabli (prediktora) i CAN
varijabli
◼ Interpretacija CAN varijabli
Centroidi grupa na kanoničkim varijablama
Grafički prikaz opservacija/grupa u prostoru prvih 2 CAN
varijabli
-
180
Kako se prikazuju rezultati KDA?- u prostoru prvih 2 CAN
varijabli
-
181
Broj kanoničkih diskriminativnih varijabli/funkcija
◼ Broj kanoničkih diskriminativnih varijabli je minimum broja
prediktora i broja grupa - 1: k=min(p,g-1).
◼ U primjeru sa promotivnim strategijama broj varijabli je 4, a
strategija 3, pa je br. kan.diskr. funkcija = min(4,3-1) =2.
◼ Na osnovu multivarijatnih testova se odredjuje koliko CAN
varijabli treba zadržati
-
183
Kanonička diskriminativna analiza (CAN) i spremanje CAN
varijabli u dataset CAN (out=can)
Insert code➔ispod “proc discrim” upisati: can ncan=4 out=can
-
DEMO: PIZZA PODACIVarijable: mois prot fat ash sodium carb
calGrupa: Brand (g=10)
184
http://www.yorkblog.com/onlyyork/Pizza-Capricciosa.jpghttp://www.magmapizza.com/wp-content/uploads/2010/02/3_pizzas.jpghttp://www.finestchef.com/Mexican
Pizza.jpghttp://www.correllconcepts.com/Encyclopizza/01_Intro/pizza_pepperoni_pizza.jpg
-
185
Rezultati CAN
Canonical
Correlation
Adjusted
Canonical
Correlation
Approximate
Standard
Error
Squared
Canonical
Correlation
Eigenvalues of Inv(E)*H
= CanRsq/(1-CanRsq)
Eigenvalue
Differenc
e Proportion Cumulative
1 0.997704 0.997599 0.000265 0.995414 217.0622 177.6426 0.7689
0.7689
2 0.987552 . 0.001431 0.975260 39.4196 15.3281 0.1396 0.9085
3 0.979870 . 0.002305 0.960146 24.0914 22.5183 0.0853 0.9939
4 0.781906 0.775787 0.022475 0.611376 1.5732 1.4462 0.0056
0.9995
5 0.335722 0.308307 0.051313 0.112710 0.1270 0.1047 0.0004
0.9999
6 0.147726 . 0.056569 0.021823 0.0223 0.0172 0.0001 1.0000
7 0.071200 . 0.057538 0.005069 0.0051 0.0000 1.0000
Kanoničke korelacije mjere jakost veze između početnih varijabli
i grupa
-
186
Rezultati CAN:odredjivanje koliko CAN varijabli treba
zadržati
Test of H0: The canonical correlations in the current row and
all that follow are zero
Likelihood
Ratio
Approximate
F Value Num DF Den DF Pr > F
1 0.00000152 249.60 63 1605.6
-
187
Rezultati CAN
Zatvoriti i ponovno izvesti (RUN)
Matrica struktura(korelacije kanoničkih varijablisa početnim
varijablama):CAN1: -carb, protCAN2: -mois,cal,fat….
-
188
Rezultati CAN: grafički prikaz
Grafički prikazati CAN varijable:
◼ Odabrati view➔server list➔
kliknuti na CAN
◼ Graph➔line plot➔ odabrati
-
189
Line plot: Task roles TAB
-
190
Line plot: Appearance>Interpolations TAB
OdabratiScatter za sveGrupe (A-J)
-
191
Opservacije/grupe u prostoru prvih 2 kanoničkih
varijabli/dimenzija
Grupe (brandovi pizze) prikazani u prostoru prvih 2 kanoničkih
dimenzija
Manjeugljikohidrata(carb)
Više vlage (moist),manje kalorijai masti
manje vlage (moist),viče kalorijai masti
Višeugljikohidrata(carb)
-
192
4.2 Logistička regresija
Logistička
Regresijska
Analiza
Linearna
Regresijska
Analiza
Zavisna var. Analiza
Kategorijska
Kvantitativna
-
193
Tipovi logističkih regresija
Zav.
varijabla
Tip
Logističke Regresije
Two
Categories
Three
or More
CategoriesOrdinalna
Binarna
Nominalna
Binary
YES NO
Nominal
Ordinal
-
194
Logistic Regression Curve
x
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Pro
babili
ty
-
195
Logit Transformacija
Logističkom regresijom se modelira transformacija vjerojatnosti,
koja se zove LOGIT transformacija
Gdje je
i indeks opservacije.
pi je vjerojatnost da se neki događaj (napr. prodaja) dogodi za
opservaciju (napr. osobu) i.
log je prirodni log (sa bazom e).
−=
i
ii
p
pp
1log)logit(
-
196
Pretpostavka
Logit
Transform
pi
Predictor
Logit (pi)
Predictor
-
197
Model logističke regresije
logit (pi) = 0 + 1X1 + εigdje
logit (pi) je logit transformacija vjerojatnosti događaja za
opservaciju i
0 intercept (koeficijent – slobodni član) regresijskog
pravca
1 koeficijent nagiba regresijskog pravca
εi pogreška (residual) za opservaciju i
-
DEMO: MORFOLOŠKE KARAKTERISTIKE HRVATA(ROČNICI HRVATSKE
VOJSKE)
198
Anja Habus-Korbar, Mag.rad, PMF – Biologija/Toksikologija
http://www.google.com/imgres?imgurl=http://www.walydesign.com/imagethumb.php%3Fs%3Dimages/mements.jpg%26w%3D495&imgrefurl=http://www.walydesign.com/measurements/&usg=__uuCA9fFzJoeZL86kWFA9Qq7o1Lc=&h=409&w=495&sz=35&hl=en&start=1&zoom=1&itbs=1&tbnid=2VdHx0n6WnCMGM:&tbnh=107&tbnw=130&prev=/images%3Fq%3Dbody%2Bmeasurements%2Bfor%2Bmen%26hl%3Den%26gbv%3D2%26tbs%3Disch:1
-
199
Primjeri
Marketing: Pronalaženje odvojenih grupa klijenata radi kreiranja
ciljanih marketinških programa
Osiguranje: identifikacija grupa osiguranika sa visokim iznosima
šteta
Maloprodaja: pronalaženje grupa trgovina sa sličnim
karakteristikama prodaje
Antropometrija: identifikacija različitih morfoloških tipova
-
Podaci
38 morfoloških karakteristika
5 regija:
◼ Jastrebarsko (1),
◼ Koprivnica (2)
◼ Pula (3),
◼ Sinj (4) i
◼ Požega (6)
n= 4200 ročnika
200
Područje A (sjeverozapad)
Područje B (jugoistok)
-
Rezultati kanoničke diskriminativne analize
201
regije
-
Rezultati logističke regresije
202
Varijabla DFProcjenakoeficijenta
St.grješka Wald 2 Pr >2
Stand.procjenakoef.
Omjerrizika
Slobodni
član
1 35.2716 6.27080 31.64
-
Predviđena vjerojatnost i najvažnije prediktorske varijable
203
Prikaz odnosa vjerojatnosti pripadnosti području A i mjera SL i
SZ
-
204
4.3 Klasifikacijska stabla ilistabla za odlučivanje
Data mining metoda (metoda statističkog učenja) koja se može
koristiti za klasifikaciju (predikciju (predviđanje) pripadnosti
klasi (kategoriji))
Vrlo popularna u računarstvu, statistici i raznim područjima
primjene.
Metoda za “nadzirano učenje” (u terminologiji data mining-a)
Alternativne metode:
◼ Neuralne mreže
◼ Logistička regresija
◼ SVM
◼ Nearest Neighbors, etc.
Računarski intenzivne metode
-
205
Primjer: Rizik za infarkt (MI)Obs smoking obese hypertension
mi
1 prev yes no yes
2 prev no no no
3 prev no yes no
4 prev no yes no
5 prev yes yes yes
6 current no no yes
7 current yes yes yes
8 current yes no yes
9 current yes yes yes
10 never no no no
11 never yes no no
12 never no yes yes
13 never no yes yes
14 never no yes yes
-
206
Klasifikacijsko stablo
smoking
obesehypertension
prev
current
never
yesyesno no
MI=yes
MI=yes
MI=noMI=yesMI=no
-
207
Pravila klasifikacijskog stabla
Smoking=prev
◼ and obese=yes ➔MI
◼ and obese=no➔not MI
Smoking=current➔MI
Smoking=never
◼ and hypertension=no➔not MI
◼ and hypertension=yes➔MI
-
208
Primjer: Telekomunikacijski “churn”
Moguće pred.varijable (“inputs”)
◼ x1= promjena # poziva
◼ x2= dob
◼ …..
Izlaz (Response) (“target”)
◼ Y = 1 ako “churner”,
◼ 0 ako “nonchurner”
-
209
Klasifikacijsko stablo
31/100
X1 >-5 X1= 30
0
1/50
1
14/20
Npr. Telcox1= promjena # pozivax2= dobY = 1 ako “churner”,
0 ako “nonchurner”Napomena:16/30 na training uzorku14/32 na
validation uzorku
R1: 16/30(14/32)
R3: 14/20R2: 1/50
15/70
split on variable values
“leaves” are classifications
(e.g., 0/1)
-
210
Primjer klasifikacijskog stabla iz SAS Enterprise Miner-a
-
DEMO: MORFOLOŠKE KARAKTERISTIKE HRVATA(ROČNICI HRVATSKE
VOJSKE)
211
http://www.google.com/imgres?imgurl=http://www.walydesign.com/imagethumb.php%3Fs%3Dimages/mements.jpg%26w%3D495&imgrefurl=http://www.walydesign.com/measurements/&usg=__uuCA9fFzJoeZL86kWFA9Qq7o1Lc=&h=409&w=495&sz=35&hl=en&start=1&zoom=1&itbs=1&tbnid=2VdHx0n6WnCMGM:&tbnh=107&tbnw=130&prev=/images%3Fq%3Dbody%2Bmeasurements%2Bfor%2Bmen%26hl%3Den%26gbv%3D2%26tbs%3Disch:1
-
Stablo za klasifikaciju u područje A ili B
212
-
Interpretacija/ opis stabla
Prvo je razdvajanje na temelju širine lica: ◼ ako su novaci užeg
lica, vjerojatnost pripadnosti
području A je 95%.◼ ako imaju šire lice, vjerojatnost za
područje A je
manja i iznosi 22% (odnosno vjerojatnost za pripadnost području
B je 78%).
Navedeni se čvor ponovno grana na temelju širine zdjelice te je
za one ročnike koji su šireg lica, a uže zdjelice procijenjeno s
91% da pripadaju području B, dok su oni šireg lica i šire zdjelice
većinom procijenjeni kao pripadnici područja A (69%).
Itd.
213
-
214
Dio 5
Klaster analiza
-
215
Ciljevi
◼ Definirati klastering i “ne-vođenu”analizu podataka.
◼ Objasniti različite tipove klaster analize .
◼ Objasniti nekoliko ključnih mjera udaljenosti koje se koriste
za procjenu sličnosti između eksperimentalnih jedinica.
-
216
Definicija
“Klaster analiza je skup metoda za kreiranje smislene i
informativne klasifikacije prethodno neklasificiranih podataka, na
osnovu vrijednosti varijabli opserviranih/izmjerenih na svakoj
eksperimentalnoj jedinici.”
B. S. Everitt (1998), “The Cambridge Dictionary of
Statistics”
-
217
…još definicija
Klaster: skup objekata (entiteta/ opservacija) koji su
◼ međusobno slični ako pripadaju istom klasteru,
◼ međusobno različiti ako pripadaju različitim klasterima.
Klaster analiza
◼ Traženje sličnosti među objektima na osnovu izmjerenih
karakteristika i grupiranje sličnih objekata u klastere.
U data miningu: “nevođeno učenje” (klase nisu definirane)
Tipične primjene:
◼ Dobivanje uvida u distribucije podataka
◼ Segmentacija
◼ Početan korak za daljnje analize
-
218
Kvaliteta: Što je dobar klastering?
Dobra klaster metoda će proizvesti kvalitetne klastere
sa
◼ Visokim intra-klasnim sličnostima (unutar klastera)
◼ Niskim inter-klasnim sličnostima (između klastera)
Kvaliteta rezultata klasteringa ovisi o
◼ Primijenjenoj mjeri sličnosti i
◼ Načinu implementacije/metodi.
Kvaliteta klaster metode se takodjer mjeri
sposobnošću metode da otkrije neke ili sve skrivene
oblike u podatcima.
-
219
Sličnost/različitost: matrica udaljenosti između objekata
npx...
nfx...
n1x
...............ip
x...if
x...i1
x
...............1p
x...1f
x...11
x
Matrica podataka (nxp)
0...)2,()1,(
:::
)2,3()
...ndnd
0dd(3,1
0d(2,1)
0
Matrica različitosti (nxn)Između n objekata
Za mjerenje sličnosti/različitosti se obično koriste
udaljenosti
-
220
Tipovi klaster metoda
Hijerarhijsko klasteriranje
Optimizacijsko (partitivno) klasteriranje◼ K-means
(k-sredina)
◼ K-medoids
Kombinacije k-means i hijerarhijskog klasteriranja
Metode bazirane na funkcijama gustoće vjerojatnosti
-
221
Agglomerative DivisiveIteration
1
2
3
4
Hijerarhijsko klasteriranje
-
222
Optimizacijsko (Partitivno) klasteriranje: k-sredina
k “Seeds” Opservacije
XX
X
X
Početno stanje Konačno stanje
Stara lokacija
X
XX X
X
XX
X
Nova lokacija
-
223
Heuristička iteracija
1. Nađi inicijalnu particiju n objekata u g grupa.
2. Izračunaj promjenu pogreške nastalu premještanjem svake
observacije iz svog klastera u drugi.
3. Odaberi one promjene pri kojima se pogreška najviše
umanji.
4. Ponavljaj korake 2 i 3 sve dok više nije moguće pomacima
umanjiti pogrešku.
-
224
Mjere sličnosti - ciljevi
◼ Definirati sličnost i što čini “dobru” mjeru sličnosti.
◼ Opisati nekoliko mjera sličnosti.
-
225
Što je sličnost?
Iako konceptualno jasan pojam, često ga je teško precizno
kvantificirati.
Što je sličnije patki: vrana ili pingvin?
Varijable i metrika koje koristimo za “izračunavanje” sličnosti
(napr. Euklidska ili Pearsonov korelacijski koeficijent) bitno
utječu na klastere koje ćemo dobiti.
-
226
Što čini dobru mjeru sličnosti
1. simetrija: d(x,y) = d(y,x)
2. Ako je d(x,y) 0 tada je x y
3. Ako je d(x,y) = 0 tada je x = y
Neke od popularnih mjera sličnosti (napr. korelacija) ne
zadovoljavaju sva navedena svojstva.
-
227
Mjere sličnosti/udaljenosti
Ovisno o skali mjerenja (binarna, nominalna, ordinalna,
intervalna, kvocjentna)
Za intervalne su najpopularnije◼ Udaljenosti Minkowskog:
◼ Za q=1 ➔ Manhattan
◼ Za q=2 ➔ Euklidska
qq
pp
qq
jx
ix
jx
ix
jx
ixjid )||...|||(|),(
2211−++−+−=
-
228
Euklidska udaljenost kao mjera sličnosti za kvantitativne
varijable
Pitagorin teorem: Kvadrat nad hipotenuzom = sumi kvadrata nad
katetama.
( )=
−=d
i
iiE wxD1
2
x1
x2
(x1,
x2)
(0, 0)
=
=2
1
22
i
ixh
-
229
City block (Manhattan) udaljenost je udaljenost između 2 točke
mjerena po ortogonalnim koord. osima.
=
−=d
i
iiM wxD1
1
“City Block” udaljenost kao mjera sličnosti za kvantitativne
varijable
(w1,w2)
(x1,x2)
-
230
1 2 3 4 5 … 17
Gene A 01100100100111001
Gene B 01110000111111011
DH = 00010100011000010 = 5
Gene expression levels under 17 conditions
(low=0, high=1)
=
−=d
i
iiH wx D1
Hamming udaljenost kao mjera sličnosti za binarne varijable
-
231
Hijerarhijske metode:mjere udaljenosti između klastera
Single linkage: najmanja udaljenost između jednog objekta u
jednom klasteru i jednog u drugom:
dis(Ki, Kj) = min(tip, tjq)
Complete linkage: najveća udaljenost između jednog objekta u
jednom klasteru i jednog u drugom:
dis(Ki, Kj) = max(tip, tjq)
Average linkage: prosječna udaljenost između jednog objekta
u
jednom klasteru i jednog u drugom:
dis(Ki, Kj) = avg(tip, tjq)
Centroid: udaljenost između centroida dvaju klastera
dis(Ki, Kj) = dis(Ci, Cj)
Ward: suma kvadrata između klastera po svim varijablama
-
232
Hijerarhijske metode – prema metodi združivanja klastera
Average Linkage
Centroid Linkage
Complete Linkage
Density Linkage
Single Linkage
Ward’s
itd
-
233
Primjer: Poverty
Varijable:
◼ Birth rate
◼ Death rate
Objekti:
◼ 97 zemalja (1995.god)
Metoda:
◼ Hijerarhijska, average linkage
-
234
Koraci
Pridružite dataset poverty
Odaberite analyze➔multivariate➔cluster
analysis
Task
roles TAB
-
235
Koraci
options
-
236
Rezultati: dendogram
-
237
Varijable:birth ratedeath rateinfant death rate
-
238
Primjer: Croatian coast beach sand
Rad: Tracing compositional variability and source rocks of beach
sands along the Croatian coast using cluster
analysis(B.Lužar-Oberiter, V.Lužar-Stiffler,et.al.)
varijable ◼ 20tak minerala mjerenih kao kompozitne
varijable (udio)
Metoda:◼ Hijerarhijska, average
◼ Standardizacija varijabli: raspon
-
239
-
Prikaz klastera na prve 2 kanoničke dimenzije
240
-
Prikaz klastera na prve 2 kanoničke dimenzije
241
-
Interpretacija uz pomoč stabla
242