Multivarijatna analiza podataka · STATISTIČKO MODELIRANJE, PREDIKTIVNA ANALITIKA 4. Metode za klasifikaciju Diskriminativna analiza (Fisherova) Kanonička diskriminativna analiza

Multivarijatna analiza podatakaStatističko modeliranje, prediktivna analitika

Doc. dr.sc. Vesna Lužar-StifflerCAIR Centar d.o.o. – “The House of Statistics”iSveučilište u ZagrebuZagreb, Hrvatska

e-mail: [email protected]: www.cair-center.hr

Medicinski fakultet Sveučilišta u ZagrebuDoktorski studij Prosinac 2010

mailto:[email protected]://www.cair-center.hr/

SadržajMULTIVARIJATNA ANALIZA PODATAKA 1. Uvod i primjeri metoda multivarijatne analize 2. Metode za redukciju podataka, ekstrakciju važnih faktora i

grafičke prikaze◼ Komponentna analiza◼ Faktorska analiza◼ Multidimenzionalno skaliranje (MDS), Biplot, CoPlot

3. Metode za analizu veza među skupovima varijabli◼ Multivarijatna regresijska analiza◼ Kanonička korelacijska anali

STATISTIČKO MODELIRANJE, PREDIKTIVNA ANALITIKA 4. Metode za klasifikaciju

◼ Diskriminativna analiza (Fisherova)◼ Kanonička diskriminativna analiza◼ Logistička regresija◼ Stabla za odlučivanje

5. Metode za grupiranje podataka: Klaster analiza◼ Metoda k sredina (k-means)◼ Hijerarhijske metode

2

3

Preporučena literatura

Sharma, S., 1996. Applied Multivariate Techniques. John Wiley & Sons, Inc.

Dillon W.R., M.Goldstein, 1984. Multivariate Analysis: Methods and Applications. John Wiley & Sons, Inc.

A. K. Jain and R. C. Dubes. Algorithms for

Clustering Data. Printice Hall, 1988.

4

Dio 1.

Pregled i primjeri multivarijatne analize

5

Dio 1.1

Uvod i primjeri multivarijatnih statistika

6

Cilj

◼ Prepoznati i odabrati prikladan tip analize za traženje odgovora na pojedina (tipična) pitanja u multivarijatnim istraživanjima.

7

Univarijatne imultivarijatne statistike

Univarijatne statistike

◼ Analizira se svaka zavisna variabla (ZV)zasebno.

Primjeri: srednja vrijednost, t-test, ANOVA

Multivarijatne statistike

◼ Analizira se više zavisnih varijabli odjednom.

Primjeri: vektor srednjih vrijednosti, Hotelling’s T2, MANOVA (multivarijatna ANOVA)

8

Prednosti multivarijatnih metoda

Univarijatne statistike◼ Sa porastom broja ZV raste rizik pogreške I.

reda (tj. odbacivanja istinite nulte hipoteze) ◼ Razmatraju se samo veze nezavisnih varijabli

(NV) sa ZV, a ne i veze između ZV.

Multivarijatne statistike◼ Pogreška I. reda se kontrolira tako što se čitav

skup zavisnih varijabli razmatra zajedno u višedimenzionalnom prostoru.

◼ Razmatraju se veze

između ZV i između ZV i NV.

9

Primjene multivarijatnihstatistika

Multivarijatne statistike se mogu koristiti za traženje odgovora na razna pitanja u istraživačkim projektima.

Razmotrimo nekoliko primjera primjene multivarijatnih statistika u

znanstvenim istraživanjima.

10

Usporedba učinkovitosti lijekova

Farmaceutska tvrtka želi usporediti učinkovitost◼ Dvaju različitih formulacija (standardne i nove)

lijeka za liječenje depresije i obs.-komp. ponaš.

Kako mjeriti učinkovitost? ◼ Rezultat na testu depresivnosti

◼ Rezultati na 2 različita testa obsesivno-kompulsivnog ponašanja.

U ovom primjeru:

2 kategorije JEDNE nezavisne varijable (2 lijeka),

3 zavisne varijable.

11

Usporedba učinkovitosti lijekova

Farmaceutska tvrtka želi usporediti učinkovitost◼ Dvaju različitih formulacija (standardne i nove)

lijeka za liječenje depresije i obs.-komp. ponaš.

◼ 3 različite doze (50, 100, 200 mg).

Kako mjeriti učinkovitost? ◼ Rezultat na testu depresivnosti

◼ Rezultati na 2 različita testa obsesivno-kompulsivnog ponašanja.

U ovom primjeru

2 nezavisne varijable (2 3 faktorijalni dizajn),

3 zavisne varijable.

12

Multivarijatna analiza varijance: MANOVA

Proširenje ANOVA-e na više varijabli.

Testira se značajnost ◼ razlika između grupa

◼ istovremeno po više zavisnih varijabli

◼ uzimajući u obzir korelacije između zavisnih varijabli.

Pitanje u istraživanju: “Postoje li signifikantne razlike između 2 ili više grupa na skupu zavisnih varijabli?”

13

Primjer korporacijskog treninga

Tvrtka želi usporediti učinkovitost 3 metode za obučavanje zaposlenika u studiji sa ponovljenim mjerenjima.

Učinkovitost je definirana kao:

◼ Rezultat na testu poznavanja korporacijskih pravila

◼ Rezultat na testu vještina potrebnih za radno mjesto.

Zaposlenici su testirani u 3 vremenska intervala

◼ Nakon 2 tjedna

◼ Nakon 4 tjedna

◼ Nakon 6 tjedana

14

Dijagnostička korisnost /primjenjivost instrumenta

Kako se ponaša novi psihološki instrument u usporedbi sa standardnim instrumentom?▪ Standardni instrument je sastavljen od 12

pitanja (na osnovu dijagnostičkih kriterija) i mora ga administrirati educirani ispitivač.

▪ Novi (testirani) instrument sadrži 20 pitanja i ispunjava se bez ispitivača.

Primjer sa▪ 12 kvantitativnih prediktora (nezavisnih

varijabli) i

▪ 20 kvantitativnih zavisnih varijabli.

15

Multivarijatna multipla regresija

Testira se značajnost linearnih veza između skupa prediktora i skupa zavisnih varijabli uzimajući u obzir korelacije između zavisnih varijabli.

Pitanje u istraživanju:

“Da li varijabilitet skupa kvantitativnih prediktora na adekvatan način opisuje/ predviđa skup kvantitativnih zavisnih varijabli?”

16

Kanonička korelacijska analiza

◼ U kanoničkoj korelacijskoj analizi se testira ista hipoteza kao i u multivarijatnoj regresiji, ali se još

◼ Interpretiraju veze prediktora sa kanoničkim varijablama zavisnih varijablama,

◼ Interpretiraju veze zavisnih varijabli sa kanoničkim varijablama prediktora,

◼ Istražuje koliko dimenzija međusobno dijele skupovi zavisnih i nezavisnih varijabli.

17

Primjer patološkog kockanja

Istraživači žele koristiti odgovore na pitanja u upitniku za klasifikaciju ljudi u 3 grupe:

◼ Opsesivne kockare,

◼ Osobe koje igraju na sreću (“bingo”) i

◼ Osobe bez afiniteta prema kockanju (kontrolna skupina)

3 skupine učesnika je odgovorilo na upitnik sa 12 pitanja.

Pitanje: Koje linearne kombinacije (12) odgovora objašnjavaju većinu varijabiliteta između 3 grupe kockara?

18

Profiliranje i predviđanje

Kartičarska tvrtka želi (prije izdavanja kreditne kartice) iskoristiti financijske informacije za odlučivanje da li će potencijalni klijent biti rizičan (napr. neuredan platiša) ili ne.

Kardiolog želi razumjeti koja kombinacija varijabli (sist./dijast. tlak, dob, spol, težina, laboratorijski nalazi, …) najbolje predviđa rizik od infarkta.

19

Diskriminativna analiza

Diskriminativna analiza (DA) je metoda za redukciju dimenzija (varijabli) koja se može primijeniti za određivanje linearne kombinacije varijabli na kojoj su kategorije tj grupe najviše udaljene. DA je konceptualno slična logističkoj regresiji za multivarijatne podatke, a MANOVI po računalnom pristupu.

20

Primjer: bol lica i vilice (TMJ)

Istraživači žele razumjeti simptome bolesti temporomandibular jaw disorder (TMJ). 120+ pacijenata je odgovorilo na 14 pitanja o simptomima. Mnogo od tih odgovora je u međusobnoj asocijaciji (vezi).

Istraživač želi ◼ reducirati ukupan broj varijabli sa 14 na neki

manji broj i ◼ eliminirati potencijalne probleme vezane uz

kolinearnost (visoke korelacije među varijablama).

21

Komponentna analiza

Metoda za redukciju dimenzija (ukupnog broja varijabli)

◼ Kreiraju se nove varijable koje su linearne kombinacije skupa početnih, koreliranih varijabli,

◼ Nove varijable su nekorelirane (“ortogonalne”)

◼ Ne pretpostavlja se postojanje latentne (skrivene) faktorske strukture.

Praktično pitanje:

“Kako reducirati skup od 14 koreliranih varijabli na manji skup nekoreliranih varijabli?”

22

Primjer: bol lica i vilice (TMJ)

Istraživači žele otkriti da li percepcije simptoma pacijenata odražavaju nekoliko “latentnih” (skrivenih) faktora bolesti ili jedan jedini.

Prikupljeni su odgovori od 120+ pacijenata na 14 pitanja vezana uz simptome bolesti TMJ◼ Eksplorativnom se analizom identificiraju mogući

“latentni” faktori bolesti. ◼ Konfirmativnim se analizom testiraju postavljene

hipoteze o faktorima bolesti.

23

Faktorska analiza

Eksplorativna faktorska analiza je tehnika za traženje “latentnih” varijabli. Često se pogrešno brka sa komponentnom analizom.

Metode faktorske analize se koriste kada se pretpostavlja da postoji “skrivena” faktorska struktura, tj. da se sa malim brojem latentnih dimenzija može jednostavnije opisati mjereni proces ili ponašanje.

24

Pitanja u istraživanjima faktorskom analizom

◼ “Jesu li percepcije matematike rezultat jednog jedinog stava-mišljenja ili ima više skrivenih sustava koji svi zajedno doprinose percepcijama o matematici?”

◼ “Da li je rast nekog živog organizma rezultat jednostavnog procesa rasta ili postoji više latentnih sustava koji zasebno pridonose rastu organizma?”

◼ “Da li je ekonomski rast jednostavan sustav ili je rezultat nekoliko latentnih varijabli koje su u međusobnoj vezi i zajednički pridonose ekonomskom okruženju?”

25

Morfološki tipovi

Istraživački tim nastoji istražiti da li se na osnovu morfoloških karakteristika mlađih osoba muškog spola iz RH može identificirati manji broj homogenih grupa -morfoloških tipova.

26

Klaster analiza

Klaster: skup objekata (entiteta/ opservacija) koji su

◼ međusobno slični ako pripadaju istom klasteru,

◼ međusobno različiti ako pripadaju različitim klasterima.

Klaster analiza

◼ Traženje sličnosti među objektima na osnovu izmjerenih karakteristika i grupiranje sličnih objekata u klastere.

27

Bogatstvo informacija u odnosu na jednostavnost

Multivarijatna analiza uzima u obzir kompleksne, višedimenzionalne odnose među varijablama. MV statistike mogu biti složene za interpretaciju. ◼ Razlog zašto se univarijatne metode češće

koriste – lakše ih je razumjeti

◼ Ulaganje vremena i truda u razumijevanje višedimenzionalnih veza može biti profitabilno, vrijedno truda. Ali …

◼ Katkada je priroda problema tako kompleksna da se treba vratiti na univarijatnu analizu radi razumijevanja.

28

Treba imati na umu da analiza nikada ne može biti bolja od podataka na kojima se primjenjuje

◼ Navesti pitanja koja će se istraživati.

◼ Dizajnirati studiju kojom će se moći istražiti navedena pitanja.

◼ Definirati i dokumentirati plan istraživanja.

◼ Izmjeriti varijable u skladu sa planom.

◼ Oprezno pregledati podatke (pogreške i neobične opservacije – “outlier”-e ).

Ne može biti “Garbage In, Roses Out.” (Tabachnik and Fidell 2001)

53

Dio 2

Metode za redukciju podataka, ekstrakciju važnih faktora i grafičke prikaze

◼ 2.1 Metoda glavnih komponenata

◼ 2.2. Faktorska analiza

◼ 2.3. Grafičke metode

54

2.1 Metoda glavnih komponenata (PCA)

Ciljevi:

◼ Objasniti ključne koncepte PCA metode

◼ Opisati strategije za određivanje broja glavnih komponenata

◼ Demo na primjeru: PAIN podaci (Jmp i SAS)

Suviše varijabli

55

Systolic

blood

pressure

Diastolic

blood

pressure

Diet

Exercise

LDL Cholesterol

HDL Cholesterol

Medication

Moguća rješenja

◼ Eliminacija nekih redundantnih varijabli. Može dovesti do gubitka važnih informacija koje

su na jedinstven način sadržane u eliminiranim varijablama.

◼ Kreiranje kompozitnih skorova iz varijabli (sume ili prosjeci). Gubitak varijabiliteta među varijablama Više kompozitnih skorova može i nadalje biti

kolinearno◼ Kreiranje ponderiranih linearnih kombinacija

varijabli uz zadržavanje većine varijabiliteta Manje varijabli; mali ili nikakav gubitak

varijabiliteta Nove varijable (lin. kombinacije) nisu

kolinearne.

56

Metoda glavnih komponenata (PCA)

◼ Je metoda za redukciju dimenzija (ulaznih varijabli), kojom se kreiraju nove varijable koje se zovu glavne komponente

◼ Kreira se onoliko komponenata koliko ima ulaznih varijabli.

◼ Problemi

Komponente nisu uvijek direktno iterpretabilne

Odabir malog broja “važnih” komponenata

57

Glavne komponente (PC)

◼ Su ponderirane linearne kombinacije ulaznih varijabli

◼ Su međusobno ortogonalne i nezavisne

◼ generiraju se tako da se sa prvom komponentom izvuće najveći dio varijabiliteta sadržan u ulaznim varijablama (x1,x2,…xp), sa slijedećom komponentom najveći preostali dio varijabiliteta itd.

58

Geometrijska svojstva Sa LS regresijom se

minimizira suma kvadrata vertikalnih udaljenosti do (regresijskog) pravca(okomitih na x os)

Se PCA se minimizira suma kvadrata udaljenosti okomitih na PC os.

59y1

y2

..

.

..

...

.

..

..

...

..

y2

..

.

..

...

.

..

..

...

..

PC os

Regresijskipravac

Detalji PCA metode

60

j glavnih komponenata su LS rješenje (po metodi najmanjih kvadrata) slijedećeg modela:

Y = XB

gdje

Y n x p matrica skorova na komponentama

X n x j matrica standardiziranih (ili centriranih) ulaznih varijabli

B j x p matrica svojstvenih vektora korelacijske (ili kovarijančne) matrice ulaznih varijabli.

Koliko komponenata zadržati?

61

◼ “Scree plot” svostvenih vrijednosti (eng. eigenvalues):

◼ Proporcija varijanceobjašnjena svakomkomponentom:

◼ Kumulativna varijancaobjašnjena komponentama:

◼ Svoj. vrijednost i > 1

1 2

1 2

or .. ( )

..

( )

i i

p

k

tr

tr

+ + +

+ + +

R

R

**

* * * *

Koliko komponenata zadržati?

PB kriterij (Momirović i sur., 1971)

Intenzivno računarske metode

◼ simulacijske metode,

◼ randomizacijske metode,

◼ bootstrap

Statistički testovi

◼ Samo za komponentnu analizu na matrici kovarijanci (centriranim podacima)

62

Skorovi glavnih komponenata

Skorovi glavnih komponenata mogu se kreirati

◼ za svaku observaciju u X (matrici ulaznih podataka)

◼ na svakoj glavnoj komponenti

◼ na standardiziranim ili originalnim ulaznim varijablama.

63

Grafička eksploracija PC-a

64

Outlier?

Pretpostavke za PCA

Podaci koji nedostaju – nedostaju na slučajan način (missing at random)

Nema outliera (stršećih podataka)

Singularnost - nije matematički problem (jer nema invertiranja matrica, kao npr. u regresiji)

65

PRIMJER: “PAIN” PODACI TEMPOROMANDIBULARJAW DISORDER (TMJ)

66

http://www.deardoctor.com/img/inthisissue/issue6/jaw_pain.jpghttp://drhamiltonoc.com/images/jaw-pic1.jpghttp://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.google.com/imgres?imgurl=http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpg&imgrefurl=http://www.dentalinsurancecare.com/jaw-pain.html&usg=__eEEBDq-KiyIGMckj3IShXBrwqu8=&h=400&w=300&sz=12&hl=en&start=16&zoom=1&itbs=1&tbnid=tfQEquHoyO6ZWM:&tbnh=124&tbnw=93&prev=/images%3Fq%3Djaw%2Bpain%26hl%3Den%26gbv%3D2%26tbs%3Disch:1http://www.dentalinsurancecare.com/images/jaw-pain-21278873.jpghttp://i24.ebayimg.com/05/s/08/0e/77/13_2.JPGhttp://www.physicalsense.biz/treatment/whatwetreat/images/jaw-pain.jpg

Ulazne varijable

hurtchew Does it hurt when you chew?

hurtwide Does it hurt when you open wide or take a big bite?

noise Does your jaw make a noise so that it bothers you or others?

stiffjaw Stiff jaw (in the morning)?

cracking Locking/cracking of jaw joint (in the morning)?

painslp Does the pain or discomfort disturb your sleep?

painrout Does the pain or discomfort interfere with your daily routine or other activities?

paintab Do you take tablets for pain or discomfort?

amhdache Headache (in the morning)?

earpain Do you have ear pain or pain in front of the ears?

grind Has anyone ever heard you grinding your teeth in your sleep, or are you aware of it yourself?

clampset Are you aware that you clamp or set your jaw?

sorejaw Sore jaw or teeth (in the morning)?

facepain Do you have pain in the face, jaw, eyes, throat, neck, or temples?

67

Distribucije

68

Mean 4,4958678

Std Dev 1,0418251Mean 5,4793388

Std Dev 1,0731509

Mean 5,0082645

Std Dev 1,076227

hurtchew hurtwide noise

…

Matrica korelacija

69

hurtchew hurtwide noise stiffjaw cracking painslp painrout paintab amhdach earpain grind clampset sorejaw facepain dayslost

hurtchew 1,0000 0,9186 0,7395 0,8335 0,7467 0,0601 0,0481 0,1070 0,0136 0,1459 0,2000 0,1874 0,0907 0,3428 0,4090

hurtwide 0,9186 1,0000 0,7541 0,8474 0,7022 0,0438 0,0003 0,0819 -0,0015 0,0918 0,1579 0,1311 0,0308 0,3561 0,3418

noise 0,7395 0,7541 1,0000 0,7420 0,5986 0,0946 0,0773 0,1199 0,0635 0,0998 0,1605 0,1426 0,0178 0,2799 0,2382

stiffjaw 0,8335 0,8474 0,7420 1,0000 0,6755 -0,0232 -0,0575 0,0116 -0,0675 0,1090 0,1477 0,1054 0,0496 0,2244 0,2860

cracking 0,7467 0,7022 0,5986 0,6755 1,0000 0,0751 0,0723 0,1820 0,0372 0,1565 0,2230 0,1275 0,1279 0,1766 0,3441

painslp 0,0601 0,0438 0,0946 -0,0232 0,0751 1,0000 0,7594 0,7860 0,8634 0,1667 0,0664 0,1925 0,1521 0,3490 0,4497

painrout 0,0481 0,0003 0,0773 -0,0575 0,0723 0,7594 1,0000 0,6806 0,7415 0,1261 0,1411 0,1335 0,1000 0,1980 0,4205

paintab 0,1070 0,0819 0,1199 0,0116 0,1820 0,7860 0,6806 1,0000 0,7548 0,1426 0,0849 0,1315 0,1682 0,2964 0,5102

amhdach 0,036 -0,0015 0,0635 -0,0675 0,0372 0,8634 0,7415 0,7548 1,0000 0,1310 0,0413 0,1232 0,1545 0,2853 0,3845

earpain 0,1459 0,0918 0,0998 0,1090 0,1565 0,1667 0,1261 0,1426 0,1310 1,0000 0,7299 0,7663 0,7646 0,0917 0,3975

grind 0,2000 0,1579 0,1605 0,1477 0,2230 0,0664 0,1411 0,0849 0,0413 0,7299 1,0000 0,6943 0,6795 0,1438 0,3690

clampset 0,1874 0,1311 0,1426 0,1054 0,1275 0,1925 0,1335 0,1315 0,1232 0,7663 0,6943 1,0000 0,6541 0,1773 0,3844

sorejaw 0,0907 0,0308 0,0178 0,0496 0,1279 0,1521 0,1000 0,1682 0,1545 0,7646 0,6795 0,6541 1,0000 0,1545 0,4024

facepain 0,3428 0,3561 0,2799 0,2244 0,1766 0,3490 0,1980 0,2964 0,2853 0,0917 0,1438 0,1773 0,1545 1,0000 0,3977

dayslost 0,4090 0,3418 0,2382 0,2860 0,3441 0,4497 0,4205 0,5102 0,3845 0,3975 0,3690 0,3844 0,4024 0,3977 1,0000

Matrica korelacija – “color map”

70

Svojstvene vrijednosti i “scree plot”

71

Number Eigenvalue Percent CumPercent

1 5,1183 34,122 34,1222 3,4912 23,275 57,3973 2,6600 17,733 75,1314 0,8332 5,555 80,6855 0,5646 3,764 84,4496 0,4058 2,706 87,1557 0,3809 2,539 89,6948 0,3091 2,061 91,7559 0,2813 1,875 93,63110 0,2245 1,497 95,12811 0,1924 1,283 96,41012 0,1865 1,243 97,65313 0,1608 1,072 98,72514 0,1190 0,794 99,51815 0,0722 0,482 100,000

Prve 3 komponente sadržavaju 75% ukupnog varijabiliteta= (5.1 + 3.5 + 2.7)/15

Lakat?

72

2.1 Faktorska analiza (FA)

Ciljevi:

◼ Objasniti razlike između PCA i FA (metode zajedničkih faktora)

◼ Opisati nekoliko metoda za ekstrakciju faktora

◼ Objasniti razliku između ortogonalne i kose (oblique) rotacije faktora

◼ Demo na primjeru: PAIN podaci (Jmp i SAS)

Zašto FA?

Očekujemo da su ulazne/ opservirane/ manifestne varijable funkcije varijabli koje ne možemo direktno opservirati (latentne varijable)

◼ Da identificiramo latentne varijable kako bi naučili nešto interesantno o ponašanju naše populacije.

◼ Da identificiramo odnose među pojedinim latentnim varijablama.

◼ Da pokažemo da je mali broj latentnih varijabli odgovoran za proces ili ponašanje koje smo izmijerili (da bismo pojednostavili teoriju).

◼ Da opišemo korelacije među opserviranim varijablama.

73

Osnovna podjela FA

Metode za eksplorativnu FA

◼ Cilj: eksploracija

Konfirmativna FA

◼ Cilj: potvrda neke unaprijed postavljene hipoteze

Ovdje: samo eksplorativna FA

74

75

Eksplorativna FA

F1:Consumer

confidence

F2: Buying

power

New Home

Buys

Durable

Goods Buys

Borrowing

Income

Import

Purchases

u1

u2

u3

u4

u5

?

76

Components versus Factors, Revisited

Glavne komponente –

simptomi

Latentni faktori –

bolest

77

Model zajedničkih faktora

Y = X + E

gdje

Y manifestne varijable

X zajednički faktori

ponderi (koeficijenti)

E unikni faktori + varijanca pogreške

78

Pretpostavke za metodu zajedničkih faktora

◼ Unikni faktori (reziduali) su međusobno nekorelirani.

◼ Unikni faktori (reziduali) su nekorelirani sa zajedničkim (latentnim) faktorima.

Uz ta ograničenja, mogu se naći rješenja (za danu korelacijsku matricu R):

or R = β β+U R -U = β β

79

PCA vs FA

PCA FA

Sve komponente zajedno

sadrže ukupno 100%

varijance (svih ulaznih

varijabli).

Svi faktori zajedno ne

sadrže nužno ukupno 100%

varijance (svih ulaznih

varijabli).

Komponente se izvode iz

varijabli i opisuju 100%

varijabiliteta podataka.

Faktori su procjene latentnih

varijabli i opisuju samo

zajednički dio varijabiliteta

manifestnih varijabli.

80

Ograničenja eksploratorne FA

Faktorski skorovi nisu linearne kombinacije ulaznih varijabli. Oni su procjene latentnih faktora. Treba izbjegavati “namještanje rezultata”:◼ Pažljivim izborom manifestnih varijabli.

◼ Primjenom rotacije za interpretaciju faktora.

◼ Izvođenjem konfirmativne analize za testiranje hipoteze o adekvatnosti faktorskog rješenja

81

Pregled metoda za ekstrakciju faktora

Analiza glavnih faktora (Principal Factor Analysis - PFA)◼ Računarski efikasna◼ Najčešće se koristi.

Maximum Likelihood FA (FA najveće vjerodostojnosti – MLFA)◼ Manje računarski efikasna (iterativna procedura)◼ Bolje procjene nego sa PFA na velikim uzorcima.◼ Mogu se testirati hipoteze o broju faktora.

Priorne procjene komunaliteta su obično kvadrati multiplih korelacija svake pojedine varijable sa svim ostalim varijablama.

82

Koliko faktora?

◼ Proporcija varijance opisana sa Minimalnim brojem faktora potrebnih da opišu

100% zajedničke varijance.

◼ Scree test Točka gdje se nalazi “lakat” u krivulji

◼ Kriteriji bazirani na interpretabilnosti Barem 3 varijable imaju visoke koeficijente

(loading) na svakom faktoru Varijable na pojedinom faktoru dijele zajedničko

konceptualno značenje Varijable na različitim faktorima mjere različite

konstrukte (latentne faktore) Rotirani faktori demonstriraju “jednostavnu

strukturu”.

DEMO: “PAIN” PODACI TEMPOROMANDIBULARJAW DISORDER (TMJ)

83


Komunaliteti (priorni)

84

Prior Communality Estimates: SMC

hurtche

w

hurtwid

e

noise stiffjaw crackin

g

painslp painrou

t

paintab amhdac

he

earpain grind clamps

et

sorejaw facepai

n

0.878 0.878 0.628 0.775 0.612 0.823 0.657 0.673 0.782 0.738 0.650 0.658 0.652 0.308

SMC: Na dijagonalu reducirane matrice R-U se na početkupostavljaju (Rj

2) kvadrati multiplih korelacija j-te varijable sa svim ostalim varijablama (j=1,p).

Svojstvene vrijednosti reducirane matrice (R-U)

85

Preliminary Eigenvalues: Total = 42.2227014

Average = 3.01590724

Eigenvalue Difference Proportion Cumulative

1 22.1866011 8.8566626 0.5255 0.5255

2 13.3299385 5.4335408 0.3157 0.8412

3 7.8963977 7.3961789 0.1870 1.0282

4 0.5002189 0.2362913 0.0118 1.0400

5 0.2639276 0.0650434 0.0063 1.0463

6 0.1988841 0.1909592 0.0047 1.0510

7 0.0079249 0.0792444 0.0002 1.0512

8 -0.0713195 0.1620991 -0.0017 1.0495

9 -0.2334186 0.0273054 -0.0055 1.0440

10 -0.2607240 0.0411412 -0.0062 1.0378

11 -0.3018652 0.0570478 -0.0071 1.0306

12 -0.3589130 0.0828409 -0.0085 1.0221

13 -0.4417539 0.0514436 -0.0105 1.0117

14 -0.4931974 -0.0117 1.0000

3 faktora na osnovu “proportion”kriterija

Scree plot

86

Test značajnosti za broj faktora (3)

87

Significance Tests Based on 121 Observations

Test DF Chi-Square Pr > ChiSq

H0: No

common

factors

91 1356.7888

Matrica sklopa (factor pattern)

88

Factor Pattern

Factor1 Factor2 Factor3

hurtchew 0.94910 -0.11071 -0.04773

hurtwide 0.94297 -0.14657 -0.10148

noise 0.78511 -0.05376 -0.08561

stiffjaw 0.86188 -0.19845 -0.05177

cracking 0.75905 -0.04229 -0.01028

painslp 0.16230 0.90769 -0.21114

painrout 0.11640 0.77729 -0.17748

paintab 0.19416 0.78821 -0.19268

amhdache 0.10793 0.87939 -0.22613

earpain 0.23652 0.32783 0.82067

grind 0.27884 0.21407 0.74109

clampset 0.26239 0.31251 0.72470

sorejaw 0.16759 0.32315 0.74447

facepain 0.38357 0.27465 -0.0576

Korelacije faktora imanifestnih varijabli

Variance Explained by Each Factor

Factor Weighted Unweighted

Factor1 29.9257685 4.19235839

Factor2 18.4760420 3.33128063

Factor3 10.4227732 2.49250606

Pomicanjevilice

Utjecajboli naživot

Stiskanje iškripanjezubima

Matrica sklopa (factor pattern):grafikon

89

90

Dali su faktori u korelaciji?

Buying

Power

Consumer

Confidence

Buying

Power

Consumer

Confidence

Orthogonalna

Oblique

Metode za rotaciju faktora

91

Metode za rotaciju faktora

Varimax-Orthogonalna:

◼ Maksimizira se varijanca kolona matrice sklopa.

Promax-Oblique – u 2 koraka:

◼ 1. Varimax rotacija

◼ 2. Relaksiraju se uvijeti ortogonalnosti i dalje se rotira.

U SAS-u je moguće koristiti još niz drugih metoda za rotaciju

92

Rezultati faktorske analize

Svojstvene vrijednosti (1, 2,… p)

U FA se ispisuju svojstvene vrijednosti reducirane matrice korelacija (R-U).

◼ U PCA, svojstvene vrijednosti matrice R.

◼ Pravilo i> 1 ima manje smisla primijeniti u FA.

◼ Scree plot svojstvenih vrijednosti je koristan u FA.

93


Matrica sklopa (Factor Pattern Matrix)

◼ Matrica standardiziranih regresijskih koeficijenata za Y = XB + E

◼ Jednaka je matrici korelacija između početnih varijabli i ekstrahiranih (ortogonalnih) zajedničkih faktora.

94


Rotirana matrica sklopa

◼ Matrica standardiziranih regresijskih koeficijenata za rotirane faktore

◼ Jednaka je matrici korelacija između početnih varijabli i rotiranih zajedničkih faktora (za ortogonalne rotacije).

95


Matrica strukture

◼ Kreira se samo za oblique (kose) rotacije

◼ To je matrica korelacija ulaznih varijablii i rotiranih zajedničkih faktora.

96


Matrica referenčne strukture

◼ Kreira se samo za oblique (kose) rotacije

◼ To je matrica semiparcijalnih korelacija između ulaznih varijabli i zajedničkih faktora, nakon eliminacije efekata ostaih faktora iz svakog pojedinog faktora.

97


Korelacije između faktora◼ generiraju se samo za oblique (kose)

rotacije

Grafikoni faktora

Konačne procjene komunaliteta◼ R2 za predviđanje varijabli iz faktora

◼ Zovu se kvadrati kanoničkih korelacija (squared canonical correlations) (u ML metodi)

Varijance objašnjene svakim faktorom

DEMO: “PAIN” PODACI TEMPOROMANDIBULARJAW DISORDER (TMJ)

98


Ortogonalna rotacija

99

Rotirana matrica sklopa

100

Rotated Factor Pattern

Factor1 Factor2 Factor3

hurtchew 0.95158 0.03084 0.09422

hurtwide 0.95904 0.01259 0.03239

noise 0.78672 0.07526 0.04504

stiffjaw 0.88236 -0.06184 0.05018

cracking 0.74922 0.05982 0.11462

painslp 0.02799 0.94176 0.08435

painrout 0.00150 0.80258 0.07133

paintab 0.07747 0.82742 0.07400

amhdache -0.01810 0.91270 0.05254

earpain 0.06377 0.08949 0.90821

grind 0.13556 0.01174 0.80887

clampset 0.10451 0.10757 0.81805

sorejaw 0.00754 0.09952 0.82267

facepain 0.33392 0.32564 0.09137

101

2.3 Grafičke metode

Ciljevi:

◼ Objasniti i demonstrirati metodu multidimenzionalnog skaliranja (MDS)

◼ Opisati i demonstrirati grafičku metodu CoPlot

◼ Opisati i demonstrirati grafičku metodu BIPLOT

◼ Demo na primjerima: PAIN, CARS i Anthrax kod djece (Jmp i SAS)

MDS

primarni cilj multidimenzionalnog skaliranja je mapiranje objekata (opservacija, pacijenata, događaja) iz više- u nižedimenzionalni (napr dvodimenzionalni) prostor tako da njihov relativni položaj u tom prostoru odražava stupanj izmjerene sličnosti među objektima.

Sličnosti među opservacijama u podacima se transformiraju u udaljenosti na mapi (zemljovidu) tako da su slične opservacije međusobno bliže nego što su one koje su manje slične.

102

MDS analiza zračnih udaljenosti između 10 američkih gradova

103

MDS analiza zračnih udaljenosti između 10 američkih gradova

104

MDS za CARS podatke

105

Varijablekoje su uvisokojkorelaciji

Nedostatci MDS metode

Iako opservacije čine ključnu ulogu u određivanju udaljenosti na MDS mapi, one se ne prikazuju na konačnom grafičkom prikazu. (Ne mogu se na istoj mapi prikazati istodobno i varijable i opservacije)

Osi MDS mape nemaju neko inherentno značenje (što ograničana interpretabilnost)

106

CoPlot

Je novija metoda za grafičku analizu multivarijatnih podataka koja omogućuje simultanu analizu opservacija i varijabli

CoPlot-om se mapiraju opservacije ivarijable na takav način da njihovi odnosi ostaju sačuvani, što omogućuje bogatiju interpretaciju.

107

Neke primjene CoPlot-a

Evaluacija učinkovitosti banaka,

Socioekonomske razlike među gradovima,

Karakteristike uspješnih spajanja i akvizicija,

Karakteristike automobila,

U medicini (antraks u dječjoj populaciji, D.M. Bravata i sur.)

108

Koraci u generiranju CoPlot-a*

109

Original Data Matrix (Y)

Variable 1 Variable 2 Variable 3

Observation 1 y11 y 12 y 13

Observation 2 y 21 y 22 y 23



Step 1: Standardize the data so that all the variables are on the same scale where .

Standardized Data Matrix (Z)

Variable 1 Variable 2 Variable 3

Observation 1 z11 z 12 z 13

Observation 2 z 21 z 22 z 23



s

yyz

j

ij

jij−

=

Step 2: Create a distance matrix that describes the distance between each of the observations where. zzD qrk

rprpq−=

=1

Distance Matrix (D)

Observation 1 Observation 2 Observation 3 Observation 4

Observation 1 0 d 12 d 13 d 14

Observation 2 d 21 0 d 23 d 24

Observation 3 d 31 d 32 0 d 34

Observation 4 d 41 d 42 d43 0

/* Prema D.M. Bravata i sur., Statistics in Medicine, 2007

Originalna matricapodataka (nxp)

Standardizirana matricapodataka (sredine=0,st.dev=1)

Matrica udaljenosti(nxn)

Koraci u generiranju CoPlot-a*

110

Step 4: Add projections of vectors representing the variables.

Step 3: Generate map of distances among observations.

Alternativan prikaz CARS podataka

111

Variables Only Observations Only

BOJA (zemlja porijekla): bijela=US, siva=Europa, crna=Japan)

Podatci o Antraksu u djece

demographic information (e.g., age, gender, nationality),

symptom and disease progression information (e.g., source of infection such as inhalational or gastrointestinal, symptoms when patient first presented for treatment, whether the patient developed secondary meningoencephalitis, survival information), and

treatment information (e.g., whether the patient received antibiotics or anti-serum)

112

Podatci o Antraksu u djece:varijable

Source of infection (such as inhalational vsgastrointestinal)

Age (years) Year of publication of case report Gender U.S. versus non-U.S. cases Any antibiotics Penicillin-based antibiotics Any serum (either anthrax-specific or general

anti-serum) Died Developed meningoencephalitis

113

Inicijalna CoPlot mapa djece s antraksom

114

Gender i age suNajmanje važne(najkraći vektori),pa ih je bolje eliminirati

CoPlot mapa djece s antraksom, boja: izvor infekcije

115

BOJA:bijela: kožat.siva=gastrotestinals.siva=udisanjecrna=ostalo

Bez gender i age

Outlier: 2.5 god djevojčica(udisanje, preživjela,Serum)

CoPlot mapa djece s antraksom, boja: preživjeli/umrli

116

BOJA:Bijela=preživjeliCrna=umrli

BIPLOT

Kao i CoPlot omogučuje simultani prikaz opservacija i varijabli

Baziran je na (SVD) dekompoziciji matrice podataka:

X = G H’

U BIPLOTu se retci nx2 matrice G prikazuju kao točke, koje odgovaraju opservacijama, a retci p x 2 matrice se prikazuju kao vektori, koji odgovaraju varijablama.

117

BIPLOT za PAIN podatke

118

BIPLOT za podatke PROTEIN CONSUMPTION IN EUROPE

119

SadržajMULTIVARIJATNA ANALIZA PODATAKA 1. Uvod i primjeri metoda multivarijatne analize 2. Metode za redukciju podataka, ekstrakciju važnih faktora i

grafičke prikaze◼ Komponentna analiza◼ Faktorska analiza◼ Multidimenzionalno skaliranje (MDS), Biplot, CoPlot

3. Metode za analizu veza među skupovima varijabli◼ Multivarijatna regresijska analiza◼ Kanonička korelacijska anali

STATISTIČKO MODELIRANJE, PREDIKTIVNA ANALITIKA 4. Metode za klasifikaciju

◼ Diskriminativna analiza (Fisherova)◼ Kanonička diskriminativna analiza◼ Logistička regresija◼ Stabla za odlučivanje

5. Metode za grupiranje podataka: Klaster analiza◼ Metoda k sredina (k-means)◼ Hijerarhijske metode

147

148

Dio 4

Metode za klasifikaciju:

◼ 4.1 Diskriminativna analiza (Fisherova) i kanonička diskriminativna analiza

◼ 4.2 Logistička regresija

◼ 4.3 Stabla za odlučivanje

4.1 Diskriminativna analiza (Fisherova) i kanonička diskriminativna analiza

Ciljevi◼ Razumijeti ciljeve diskriminativne

analize (DA).◼ Identificirati sličnosti između DA i

multivarijatnih generalnih linearnih modela.

◼ Objasniti kako se izvodi kanonička DA.

◼ Demo: PIZZA podaci. Interpretirati rezultate kanoničke diskriminativne analize (SAS, SAS/EG).

149

150

Pitanja u istraživanjima

◼ Kardiolog želi razumjeti koja kombinacija varijabli (sist./dijast. tlak, dob, spol, težina, laboratorijski nalazi, …) najbolje predviđa rizik od infarkta.

◼ Kartičarska tvrtka želi (prije izdavanja kreditne kartice) iskoristiti financijske i demografske informacije o klijentu u odlučivanju da li budući klijent predstavlja potencijalni rizik za tvrtku.

◼ Ministarstvo znanosti, obrazovanja i športa želi koristiti rezultate testova/ispita i varijable ponašanja u razredu za identifikaciju učenika kojima je potreban dodatni program učenja.

◼ Osiguravajuće društvo želi razumjeti koje demografske varijable i varijable ponašanja karakteriziraju različite tipove vozača.

151

Zašto DA?

Sa DA možemo

◼ Interpretirati rezultate kroz identifikaciju varijabli na kojima se grupe najviše razlikuju

◼ Koristiti linearnu kombinaciju varijabli za predviđanje pripadnosti pojedinoj grupi.

◼ Provjeriti (validirati) model na “novim” podacima

152

“Vođena” analiza podataka

Ima niz metoda za klasifikaciju observacija na osnovu danog skupa varijabli. No,

◼ Diskriminativna analiza NIJE KLASTER analiza

◼ Za provođenje diskriminativne analize potrebno je imati informaciju o pripadnosti grupi (za razliku od klaster analize)

◼ Diskriminativnom se analizom pronalazi linearna kombinacija prediktora koja najbolje diferencira grupe

◼ Te se linearne kombinacije mogu primijeniti u budućnosti (tj. kada grupna pripadnost NIJE poznata) za predviđanje pripadnosti grupi.

153

Ciljevi DA

1. Interpretacija: “Kako se grupe razlikuju?”

Naći i interpretirati linearne kombinacije varijabli koje optimalno predviđaju grupne razlike.

2. Klasifikacija: “Koliko se točno mogu observacije klasificirati u grupe?”

Primjenom funkcija varijabli predviđa se pripadnost pojedinoj grupi i procjenjuje pogreška.

154

Podjela metoda diskriminativne analize

Klasična Fisherova diskriminativna analiza (FDA)◼ Linearni model (za jednake matrice

kovarijanci po grupama)

◼ Kvadratni model (za nejednake matrice kovarijanci po grupama)

Kanonička diskriminativna analiza (KDA)

Neparametarske metode

155

Usporedba FDA i KDA(uz pretpostavku da je br.varijabli > br. grupa)

FDA (linearna)

Br.funkcija = br.grupa

Opservacije se skoriraju prema sličnosti sa centroidima grupa. Skorovi se transformiraju u vjerojatnosti pripadnosti grupama

Primjenjuje se kada je primarni cilj klasifikacija

PROC DISCRIM

KDA

Br.funkcija = br.grupa – 1

Traže se funkcije koje maksimalno razdvajaju centroide grupa

Primjenjuje se kada je primarni cilj interpretacija (kako se grupe razlikuju)

PROC CANDISC i PROC DISCRIM

156

Fisherova diskriminativna analiza(linearni model, jednake matrice varijanci i kovarijanci)

2 2

2(x) (x) ( )t tD d g t= +

Mahalanobisova

udaljenost-2(ln(prior))

Posteriornavjerojatnostpripadnostigrupi j

Kvadrat udaljenostiopservacije x do grupe t

Klasifikacija: Opservacija x se klasificira u grupu za koju je(posteriorna) vjerojatnost da joj pripada najveća

Mahalanobisova udaljenost

Neka su xi i xj dvije multivarijatne opservacije (i-ti i j-ti redak nxp matrice X). Zbog jednostavnosti pretpostavimo da su podaci centrirani.

Neka je S kovarijančna matrica (S=X’X/n)

Tada se Euklidska udaljenost između xi i xjmože izraziti kao dE (xi , xj ) = (xi - xj )’ (xi - xj )

= (xik - xjk )2

a Mahalanobisova udaljenost kaodM (xi , xj ) = (xi - xj )’ S

-1(xi - xj )

157

Mahalanobisova udaljenost

U usporedbi sa običnom Euklidskom udaljenosti (i nekim drugim udaljenostima), prednost Mahalanobisove udaljenosti je u tome što eksplicitno uzima u obzir eventualne korelacije između varijabli.

158

DEMO: PIZZA PODACIVarijable: mois prot fat ash sodium carb calGrupa: Brand (g=10)

159

http://www.yorkblog.com/onlyyork/Pizza-Capricciosa.jpghttp://www.magmapizza.com/wp-content/uploads/2010/02/3_pizzas.jpghttp://www.finestchef.com/Mexican Pizza.jpghttp://www.correllconcepts.com/Encyclopizza/01_Intro/pizza_pepperoni_pizza.jpg

164

Preliminarna eksploracija

Brandovi (marke) pizze se razlikuju po količini vlage (MOIS)

Isto semožeprovjeritiza ostalevarijable

167

Rezultati DA

Multivarijatni testovi

Testira se hipoteza (Ho) da su svi centroidi (multivarijatne sredine) jednaki

Ho se odbacuje

168

Rezultati: Posteriorne vjerojatnosti pripadnosti grupama (brandovima)

Klasificiranjeu grupu sanajvećomvjerojatnostipripadnosti

169

Rezultati DA (zbirni): Mjere točnosti klasifikacije (na podacima za razvoj modela )

Od ukupno 32observacije pizze D 30 (93.75%)ihje na (osnovu DA)klasificiranou D, a 2 u C

170

Rezultati

pogreške klasifikacije

2/32 = 0.0625

Procjena ukupne pogreške = 10.33%

Napomena: da je procjena pogreške suviše “optimistička”,Treba je procjeniti na neovisnim podacima

178

Kanonička diskriminativna analiza: Multivarijatni linearni model

Linearni model u KDA je ustvari isti kao i u MANOVA-i: Y = X + E

◼ Pretpostavke su iste kao i u MANOVA-i

◼ Ako podaci nisu multivarijatno normalno distribuirani, tada je obično bolje

primijeniti neparametarski model ili

transformirati varijable.

179

Ključni rezultati KDA

Kanoničke diskriminativne funkcije/varijable (CAN)

◼ Odredjivanje broja značajnih CAN varijabli (multivarijatni testovi)

Korelacije izmedju početnih varijabli (prediktora) i CAN varijabli

◼ Interpretacija CAN varijabli

Centroidi grupa na kanoničkim varijablama

Grafički prikaz opservacija/grupa u prostoru prvih 2 CAN varijabli

180

Kako se prikazuju rezultati KDA?- u prostoru prvih 2 CAN varijabli

181

Broj kanoničkih diskriminativnih varijabli/funkcija

◼ Broj kanoničkih diskriminativnih varijabli je minimum broja prediktora i broja grupa - 1: k=min(p,g-1).

◼ U primjeru sa promotivnim strategijama broj varijabli je 4, a strategija 3, pa je br. kan.diskr. funkcija = min(4,3-1) =2.

◼ Na osnovu multivarijatnih testova se odredjuje koliko CAN varijabli treba zadržati

183

Kanonička diskriminativna analiza (CAN) i spremanje CAN varijabli u dataset CAN (out=can)

Insert code➔ispod “proc discrim” upisati: can ncan=4 out=can

DEMO: PIZZA PODACIVarijable: mois prot fat ash sodium carb calGrupa: Brand (g=10)

184

http://www.yorkblog.com/onlyyork/Pizza-Capricciosa.jpghttp://www.magmapizza.com/wp-content/uploads/2010/02/3_pizzas.jpghttp://www.finestchef.com/Mexican Pizza.jpghttp://www.correllconcepts.com/Encyclopizza/01_Intro/pizza_pepperoni_pizza.jpg

185

Rezultati CAN

Canonical

Correlation

Adjusted

Canonical

Correlation

Approximate

Standard

Error

Squared

Canonical

Correlation

Eigenvalues of Inv(E)*H

= CanRsq/(1-CanRsq)

Eigenvalue

Differenc

e Proportion Cumulative

1 0.997704 0.997599 0.000265 0.995414 217.0622 177.6426 0.7689 0.7689

2 0.987552 . 0.001431 0.975260 39.4196 15.3281 0.1396 0.9085

3 0.979870 . 0.002305 0.960146 24.0914 22.5183 0.0853 0.9939

4 0.781906 0.775787 0.022475 0.611376 1.5732 1.4462 0.0056 0.9995

5 0.335722 0.308307 0.051313 0.112710 0.1270 0.1047 0.0004 0.9999

6 0.147726 . 0.056569 0.021823 0.0223 0.0172 0.0001 1.0000

7 0.071200 . 0.057538 0.005069 0.0051 0.0000 1.0000

Kanoničke korelacije mjere jakost veze između početnih varijabli i grupa

186

Rezultati CAN:odredjivanje koliko CAN varijabli treba zadržati

Test of H0: The canonical correlations in the current row and all that follow are zero

Likelihood

Ratio

Approximate

F Value Num DF Den DF Pr > F

1 0.00000152 249.60 63 1605.6

187

Rezultati CAN

Zatvoriti i ponovno izvesti (RUN)

Matrica struktura(korelacije kanoničkih varijablisa početnim varijablama):CAN1: -carb, protCAN2: -mois,cal,fat….

188

Rezultati CAN: grafički prikaz

Grafički prikazati CAN varijable:

◼ Odabrati view➔server list➔

kliknuti na CAN

◼ Graph➔line plot➔ odabrati

189

Line plot: Task roles TAB

190

Line plot: Appearance>Interpolations TAB

OdabratiScatter za sveGrupe (A-J)

191

Opservacije/grupe u prostoru prvih 2 kanoničkih varijabli/dimenzija

Grupe (brandovi pizze) prikazani u prostoru prvih 2 kanoničkih dimenzija

Manjeugljikohidrata(carb)

Više vlage (moist),manje kalorijai masti

manje vlage (moist),viče kalorijai masti

Višeugljikohidrata(carb)

192

4.2 Logistička regresija

Logistička

Regresijska

Analiza

Linearna

Regresijska

Analiza

Zavisna var. Analiza

Kategorijska

Kvantitativna

193

Tipovi logističkih regresija

Zav.

varijabla

Tip

Logističke Regresije

Two

Categories

Three

or More

CategoriesOrdinalna

Binarna

Nominalna

Binary

YES NO

Nominal

Ordinal

194

Logistic Regression Curve

x

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1.0

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

Pro

babili

ty

195

Logit Transformacija

Logističkom regresijom se modelira transformacija vjerojatnosti, koja se zove LOGIT transformacija

Gdje je

i indeks opservacije.

pi je vjerojatnost da se neki događaj (napr. prodaja) dogodi za opservaciju (napr. osobu) i.

log je prirodni log (sa bazom e).

−=

i

ii

p

pp

1log)logit(

196

Pretpostavka

Logit

Transform

pi

Predictor

Logit (pi)

Predictor

197

Model logističke regresije

logit (pi) = 0 + 1X1 + εigdje

logit (pi) je logit transformacija vjerojatnosti događaja za opservaciju i

0 intercept (koeficijent – slobodni član) regresijskog pravca

1 koeficijent nagiba regresijskog pravca

εi pogreška (residual) za opservaciju i

DEMO: MORFOLOŠKE KARAKTERISTIKE HRVATA(ROČNICI HRVATSKE VOJSKE)

198

Anja Habus-Korbar, Mag.rad, PMF – Biologija/Toksikologija

http://www.google.com/imgres?imgurl=http://www.walydesign.com/imagethumb.php%3Fs%3Dimages/mements.jpg%26w%3D495&imgrefurl=http://www.walydesign.com/measurements/&usg=__uuCA9fFzJoeZL86kWFA9Qq7o1Lc=&h=409&w=495&sz=35&hl=en&start=1&zoom=1&itbs=1&tbnid=2VdHx0n6WnCMGM:&tbnh=107&tbnw=130&prev=/images%3Fq%3Dbody%2Bmeasurements%2Bfor%2Bmen%26hl%3Den%26gbv%3D2%26tbs%3Disch:1

199

Primjeri

Marketing: Pronalaženje odvojenih grupa klijenata radi kreiranja ciljanih marketinških programa

Osiguranje: identifikacija grupa osiguranika sa visokim iznosima šteta

Maloprodaja: pronalaženje grupa trgovina sa sličnim karakteristikama prodaje

Antropometrija: identifikacija različitih morfoloških tipova

Podaci

38 morfoloških karakteristika

5 regija:

◼ Jastrebarsko (1),

◼ Koprivnica (2)

◼ Pula (3),

◼ Sinj (4) i

◼ Požega (6)

n= 4200 ročnika

200

Područje A (sjeverozapad)

Područje B (jugoistok)

Rezultati kanoničke diskriminativne analize

201

regije

Rezultati logističke regresije

202

Varijabla DFProcjenakoeficijenta

St.grješka Wald 2 Pr >2

Stand.procjenakoef.

Omjerrizika

Slobodni

član

1 35.2716 6.27080 31.64

Predviđena vjerojatnost i najvažnije prediktorske varijable

203

Prikaz odnosa vjerojatnosti pripadnosti području A i mjera SL i SZ

204

4.3 Klasifikacijska stabla ilistabla za odlučivanje

Data mining metoda (metoda statističkog učenja) koja se može koristiti za klasifikaciju (predikciju (predviđanje) pripadnosti klasi (kategoriji))

Vrlo popularna u računarstvu, statistici i raznim područjima primjene.

Metoda za “nadzirano učenje” (u terminologiji data mining-a)

Alternativne metode:

◼ Neuralne mreže

◼ Logistička regresija

◼ SVM

◼ Nearest Neighbors, etc.

Računarski intenzivne metode

205

Primjer: Rizik za infarkt (MI)Obs smoking obese hypertension mi

1 prev yes no yes

2 prev no no no

3 prev no yes no

4 prev no yes no

5 prev yes yes yes

6 current no no yes

7 current yes yes yes

8 current yes no yes

9 current yes yes yes

10 never no no no

11 never yes no no

12 never no yes yes

13 never no yes yes

14 never no yes yes

206

Klasifikacijsko stablo

smoking

obesehypertension

prev

current

never

yesyesno no

MI=yes

MI=yes

MI=noMI=yesMI=no

207

Pravila klasifikacijskog stabla

Smoking=prev

◼ and obese=yes ➔MI

◼ and obese=no➔not MI

Smoking=current➔MI

Smoking=never

◼ and hypertension=no➔not MI

◼ and hypertension=yes➔MI

208

Primjer: Telekomunikacijski “churn”

Moguće pred.varijable (“inputs”)

◼ x1= promjena # poziva

◼ x2= dob

◼ …..

Izlaz (Response) (“target”)

◼ Y = 1 ako “churner”,

◼ 0 ako “nonchurner”

209

Klasifikacijsko stablo

31/100

X1 >-5 X1= 30

0

1/50

1

14/20

Npr. Telcox1= promjena # pozivax2= dobY = 1 ako “churner”,

0 ako “nonchurner”Napomena:16/30 na training uzorku14/32 na validation uzorku

R1: 16/30(14/32)

R3: 14/20R2: 1/50

15/70

split on variable values

“leaves” are classifications

(e.g., 0/1)

210

Primjer klasifikacijskog stabla iz SAS Enterprise Miner-a

DEMO: MORFOLOŠKE KARAKTERISTIKE HRVATA(ROČNICI HRVATSKE VOJSKE)

211

http://www.google.com/imgres?imgurl=http://www.walydesign.com/imagethumb.php%3Fs%3Dimages/mements.jpg%26w%3D495&imgrefurl=http://www.walydesign.com/measurements/&usg=__uuCA9fFzJoeZL86kWFA9Qq7o1Lc=&h=409&w=495&sz=35&hl=en&start=1&zoom=1&itbs=1&tbnid=2VdHx0n6WnCMGM:&tbnh=107&tbnw=130&prev=/images%3Fq%3Dbody%2Bmeasurements%2Bfor%2Bmen%26hl%3Den%26gbv%3D2%26tbs%3Disch:1

Stablo za klasifikaciju u područje A ili B

212

Interpretacija/ opis stabla

Prvo je razdvajanje na temelju širine lica: ◼ ako su novaci užeg lica, vjerojatnost pripadnosti

području A je 95%.◼ ako imaju šire lice, vjerojatnost za područje A je

manja i iznosi 22% (odnosno vjerojatnost za pripadnost području B je 78%).

Navedeni se čvor ponovno grana na temelju širine zdjelice te je za one ročnike koji su šireg lica, a uže zdjelice procijenjeno s 91% da pripadaju području B, dok su oni šireg lica i šire zdjelice većinom procijenjeni kao pripadnici područja A (69%).

Itd.

213

214

Dio 5

Klaster analiza

215

Ciljevi

◼ Definirati klastering i “ne-vođenu”analizu podataka.

◼ Objasniti različite tipove klaster analize .

◼ Objasniti nekoliko ključnih mjera udaljenosti koje se koriste za procjenu sličnosti između eksperimentalnih jedinica.

216

Definicija

“Klaster analiza je skup metoda za kreiranje smislene i informativne klasifikacije prethodno neklasificiranih podataka, na osnovu vrijednosti varijabli opserviranih/izmjerenih na svakoj eksperimentalnoj jedinici.”

B. S. Everitt (1998), “The Cambridge Dictionary of Statistics”

217

…još definicija

Klaster: skup objekata (entiteta/ opservacija) koji su

◼ međusobno slični ako pripadaju istom klasteru,

◼ međusobno različiti ako pripadaju različitim klasterima.

Klaster analiza

◼ Traženje sličnosti među objektima na osnovu izmjerenih

karakteristika i grupiranje sličnih objekata u klastere.

U data miningu: “nevođeno učenje” (klase nisu definirane)

Tipične primjene:

◼ Dobivanje uvida u distribucije podataka

◼ Segmentacija

◼ Početan korak za daljnje analize

218

Kvaliteta: Što je dobar klastering?

Dobra klaster metoda će proizvesti kvalitetne klastere

sa

◼ Visokim intra-klasnim sličnostima (unutar klastera)

◼ Niskim inter-klasnim sličnostima (između klastera)

Kvaliteta rezultata klasteringa ovisi o

◼ Primijenjenoj mjeri sličnosti i

◼ Načinu implementacije/metodi.

Kvaliteta klaster metode se takodjer mjeri

sposobnošću metode da otkrije neke ili sve skrivene

oblike u podatcima.

219

Sličnost/različitost: matrica udaljenosti između objekata

npx...

nfx...

n1x

...............ip

x...if

x...i1

x

...............1p

x...1f

x...11

x

Matrica podataka (nxp)

0...)2,()1,(

:::

)2,3()

...ndnd

0dd(3,1

0d(2,1)

0

Matrica različitosti (nxn)Između n objekata

Za mjerenje sličnosti/različitosti se obično koriste udaljenosti

220

Tipovi klaster metoda

Hijerarhijsko klasteriranje

Optimizacijsko (partitivno) klasteriranje◼ K-means (k-sredina)

◼ K-medoids

Kombinacije k-means i hijerarhijskog klasteriranja

Metode bazirane na funkcijama gustoće vjerojatnosti

221

Agglomerative DivisiveIteration

1

2

3

4

Hijerarhijsko klasteriranje

222

Optimizacijsko (Partitivno) klasteriranje: k-sredina

k “Seeds” Opservacije

XX

X

X

Početno stanje Konačno stanje

Stara lokacija

X

XX X

X

XX

X

Nova lokacija

223

Heuristička iteracija

1. Nađi inicijalnu particiju n objekata u g grupa.

2. Izračunaj promjenu pogreške nastalu premještanjem svake observacije iz svog klastera u drugi.

3. Odaberi one promjene pri kojima se pogreška najviše umanji.

4. Ponavljaj korake 2 i 3 sve dok više nije moguće pomacima umanjiti pogrešku.

224

Mjere sličnosti - ciljevi

◼ Definirati sličnost i što čini “dobru” mjeru sličnosti.

◼ Opisati nekoliko mjera sličnosti.

225

Što je sličnost?

Iako konceptualno jasan pojam, često ga je teško precizno kvantificirati.

Što je sličnije patki: vrana ili pingvin?

Varijable i metrika koje koristimo za “izračunavanje” sličnosti (napr. Euklidska ili Pearsonov korelacijski koeficijent) bitno utječu na klastere koje ćemo dobiti.

226

Što čini dobru mjeru sličnosti

1. simetrija: d(x,y) = d(y,x)

2. Ako je d(x,y) 0 tada je x y

3. Ako je d(x,y) = 0 tada je x = y

Neke od popularnih mjera sličnosti (napr. korelacija) ne zadovoljavaju sva navedena svojstva.

227

Mjere sličnosti/udaljenosti

Ovisno o skali mjerenja (binarna, nominalna, ordinalna, intervalna, kvocjentna)

Za intervalne su najpopularnije◼ Udaljenosti Minkowskog:

◼ Za q=1 ➔ Manhattan

◼ Za q=2 ➔ Euklidska

qq

pp

qq

jx

ix

jx

ix

jx

ixjid )||...|||(|),(

2211−++−+−=

228

Euklidska udaljenost kao mjera sličnosti za kvantitativne varijable

Pitagorin teorem: Kvadrat nad hipotenuzom = sumi kvadrata nad katetama.

( )=

−=d

i

iiE wxD1

2

x1

x2

(x1,

x2)

(0, 0)

=

=2

1

22

i

ixh

229

City block (Manhattan) udaljenost je udaljenost između 2 točke mjerena po ortogonalnim koord. osima.

=

−=d

i

iiM wxD1

1

“City Block” udaljenost kao mjera sličnosti za kvantitativne varijable

(w1,w2)

(x1,x2)

230

1 2 3 4 5 … 17

Gene A 01100100100111001

Gene B 01110000111111011

DH = 00010100011000010 = 5

Gene expression levels under 17 conditions

(low=0, high=1)

=

−=d

i

iiH wx D1

Hamming udaljenost kao mjera sličnosti za binarne varijable

231

Hijerarhijske metode:mjere udaljenosti između klastera

Single linkage: najmanja udaljenost između jednog objekta u

jednom klasteru i jednog u drugom:

dis(Ki, Kj) = min(tip, tjq)

Complete linkage: najveća udaljenost između jednog objekta u


dis(Ki, Kj) = max(tip, tjq)

Average linkage: prosječna udaljenost između jednog objekta u


dis(Ki, Kj) = avg(tip, tjq)

Centroid: udaljenost između centroida dvaju klastera

dis(Ki, Kj) = dis(Ci, Cj)

Ward: suma kvadrata između klastera po svim varijablama

232

Hijerarhijske metode – prema metodi združivanja klastera

Average Linkage

Centroid Linkage

Complete Linkage

Density Linkage

Single Linkage

Ward’s

itd

233

Primjer: Poverty

Varijable:

◼ Birth rate

◼ Death rate

Objekti:

◼ 97 zemalja (1995.god)

Metoda:

◼ Hijerarhijska, average linkage

234

Koraci

Pridružite dataset poverty

Odaberite analyze➔multivariate➔cluster

analysis

Task

roles TAB

235

Koraci

options

236

Rezultati: dendogram

237

Varijable:birth ratedeath rateinfant death rate

238

Primjer: Croatian coast beach sand

Rad: Tracing compositional variability and source rocks of beach sands along the Croatian coast using cluster analysis(B.Lužar-Oberiter, V.Lužar-Stiffler,et.al.)

varijable ◼ 20tak minerala mjerenih kao kompozitne

varijable (udio)

Metoda:◼ Hijerarhijska, average

◼ Standardizacija varijabli: raspon

Prikaz klastera na prve 2 kanoničke dimenzije

240

Prikaz klastera na prve 2 kanoničke dimenzije

241

Interpretacija uz pomoč stabla

242

Multivarijatna analiza podataka · STATISTIČKO MODELIRANJE, PREDIKTIVNA ANALITIKA 4. Metode za klasifikaciju Diskriminativna analiza (Fisherova) Kanonička diskriminativna analiza

Documents