Bayesovo učenje Slideove pripremio: S. Pavlek
Jan 11, 2016
Bayesovo učenje
Slideove pripremio: S. Pavlek
13. siječnja 2005. Bayesovo učenje 2 / 29
Uvod – što je Bayesovo učenje
dodjeljivanje vjerojatnosti pojedinim
hipotezama
kvantitativno vaganje dokaza koji podržavaju
različite hipoteze
predmet zanimanja: algoritmi koji manipuliraju vjerojatnostima
analiza rada algoritama koji ne manipuliraju
direktno vjerojatnostima
13. siječnja 2005. Bayesovo učenje 3 / 29
Uvod – neka pitanja o kojima ćemo danas govoriti
MDL (Minimum Description Length) princip – zašto algoritmi za stabla odlučivanja favoriziraju kraća stabla
optimalni Bayesov klasifikator – teorijski optimalna metoda klasifikacije
jednostavni Bayesov klasifikator – po efikasnosti usporediv s neuronskim mrežama i stablom odlučivanja
13. siječnja 2005. Bayesovo učenje 4 / 29
Uvod – svojstva Bayesovih algoritama
povećavanje i smanjivanje vjerojatnosti hipoteze
umjesto izbacivanja hipoteze
prethodno znanje se kombinira sa podacima
moguće hipoteze koje daju ocjenu vjerojatnosti npr.: vjerojatnost da pacijent ima ima upalu pluća je 73%
klasifikacija pojedinog primjera na temelju više
hipoteza
13. siječnja 2005. Bayesovo učenje 5 / 29
Uvod – teškoće u primjeni
Bayesovi algoritmi zahtijevaju inicijalno
znanje mnogih vjerojatnosti
računska zahtjevnost koja znatno ograničava
primjenu čak i u ovom slučaju mogu se koristiti kao
standard za ocjenu uspješnosti drugih algoritama!
13. siječnja 2005. Bayesovo učenje 6 / 29
Sadržaj
Bayesov teorem Bayesov teorem i učenje koncepata direktna primjena
Najveća vjerojatnost i min. kvadrat pogreške
Princip najkraćeg opisa (Occamova britva)
Bayesov optimalni klasifikator
Jednostavni Bayesov klasifikator
13. siječnja 2005. Bayesovo učenje 7 / 29
Bayesov teorem
jedan od osnovnih teorema teorije vjerojatnosti h – hipoteza is skupa svih hipoteza H skup H je disjunktan i potpun A je događaj
PhA PAhPhPA
h1 h2 ... hn
A
13. siječnja 2005. Bayesovo učenje 8 / 29
Bayesov teorem - primjer
Primjer
H = {h1=(iz Skandinavije), h2=(iz ostatka Europe)};
P(h1) = 0,048; P(h2) = 0,952
A = {osoba je plava}; P(A) = 0,1
u Skandinaviji su gotovo svi plavi: P(A|h1) = 0,85
Ph1A PAh1Ph1PA
0, 85 0, 0480, 1
0, 408
P(h1|A) je “a posteriori” vjerojatnost hipoteze h1
13. siječnja 2005. Bayesovo učenje 9 / 29
Bayesov teorem i učenje koncepata – uvod
Određivanje najbolje hipoteze iz H ako je dano D.
Najbolja u BU znači- najvjerojatnija za dani D +
prethodna znanja!
izračunavanje vjerojatnosti hipoteze iz: početne (pretpostavljene, a priori) vjerojatnosti
vjerojatnosti pojavljivanja podatka uz uvjet da vrijedi
hipoteza
vjerojatnosti pojavljivanja samih podatka
13. siječnja 2005. Bayesovo učenje 10 / 29
Bayesov teorem i učenje koncepata – definicija
skup H – prostor svih mogućih hipoteza P(h) – a priori vjerojatnost neke hipoteze iz H P(D) – a priori vjerojatnost pojavljivanja primjera
za učenje D P(D|h) – vjerojatnost pojavljivanja D ako hipoteza
h vrijedi P(h|D) – vjerojatnost da vrijedi hipoteza h ako je
dan D!!!
PhD PDhPhPD
13. siječnja 2005. Bayesovo učenje 11 / 29
Bayesov teorem i učenje koncepata – MAP
MAP hipoteza – Maximum A Posteriori je ona
hipoteza za koju je P(h|D) najveći za
predočene podatke D (pišemo hMAP)
Na temelju Bayesovog teorema:
hMAP = maxhH P(h|D) = maxhH P(D|h) P(h)
P(D) izostavljen, jer je konst.
13. siječnja 2005. Bayesovo učenje 12 / 29
Maksimalna vjerodostojnost(maximum likelihood ML)
U slučeju kada su sve hipoteze ih h jednako vjerojatne, dalje pojednostavljujemo
hMAP = max hHP(h|D) = maxhH P(D|h)
vjerodostojnost
hML = maxhH P(D|h)
13. siječnja 2005. Bayesovo učenje 13 / 29
Bayesov teorem i učenje koncepata – primjer
Ima li pacijent određenu vrstu raka?
H = { h1 = (rak), h2 = (-rak) } P(rak) = 0,008; P(-rak) = 0,992
test na rak nije savršen – test je pozitivan u 98% slučajeva kad je rak prisutan, negativnan je u 97% kada ga nema P( test+ | rak) = 0,98; P( test- | rak) = 0,02 P( test- | -rak) = 0,97; P( test+ | -rak) = 0,03
Test je pozitivan. Ima li osoba rak?
13. siječnja 2005. Bayesovo učenje 14 / 29
Bayesov teorem i učenje koncepata – primjer
P( rak | test+ ) i P( -rak | test+) ? P( rak | test+ ) = P( test+ | rak) * P(rak) P( -rak | test+ )= P( test+ | -rak) * P(-rak)
računamo: P( rak | test+ ) = 0,98 * 0,008 = 0,0078 P( -rak | test+ )= 0,03 * 0,992 = 0,0298
Zaključujemo da je druga hipoteza hMAP= -rak
bolja! velika razlika u a priori vrijednostima hipoteza!
13. siječnja 2005. Bayesovo učenje 15 / 29
Primjer
Za točne vjerojatnosti treba znati P(D) tj. P(test+), što nemamo pa je dovoljno normalizirati dobivene vjerojatnosti jer njihova suma mora biti 1
P(rak+|test+) = 0.0078/(0.0078+0.0298) = 0.21 P(rak-|test+) = 0.0298/(0.0078+0.0298) = 0.79
još uvijek možemo s velikom vjerojatnošću tvrditi da osoba nema rak!
Uoči: hipoteze se ne odbacuju - vjerojatnost se smanjuje ili povečava
13. siječnja 2005. Bayesovo učenje 16 / 29
Direktna primjena BTna učenje koncepata
Pretpostavke:Primjeri za učenje D ne sadrže šumCiljni koncept je sadržan u prostoru hipoteza HSve su hipoteze jednako vjerojatne
P(h) = 1/|H| za svaki h iz H - zbog (3) i jer im suma mora biti jednaka jedinici
P(D|h) = 1 za di=h(xi) za sve di u D 0 inače
- zbog (1)
P(D) = 1/|VSH,D| ako je h konzistentna sa D 0 inače
13. siječnja 2005. Bayesovo učenje 17 / 29
Direktna primjena BTna učenje koncepata
A posteriori vjerojatnost je dakle
P(h|D) = 1/|VSH,D| ako je h konzistentna s D 0 inače
Gore korištena vrijednost za P(D) dobiva se iz teorema totalne vjerojatnosti i pretpostavke da su hipoteze međusobno isključive:
Hh
ii
i
))P(hh|P(DP(D)
HDiHDi VShVSh |H|
1*0
|H|
1*1
|H|
|VS|
|H|
1 DH,
VSh HDi
13. siječnja 2005. Bayesovo učenje 18 / 29
Hipoteze konzistentne s primjerima za učenje: 0<Pi<1, Pi=Pjnekonzistentne: Pi=0Algoritam uz gornje pretpostavke na P(h) i P(D|h) daje kao rezultat
prostor inačica VSH,D–isti rezultat kao i CE algoritam za učenje koncepata
Uz pretpostavku distribucije koja favorizira specifičnije hipoteze nad općenitijima (tj p(hi)>p(hj) za hi<hj), algoritam daje najspecifičniju hipotezu konzistentnu s primjerima za učenje
– isto kao i FS algoritam
Bayesovim algoritmom može se opisati rad algoritama za učenje, a odabirom P(h) i P(D|h) mogu se opisati pretpostavke o traženom konceptu koje ti algoritmi implicitno sadrže
13. siječnja 2005. Bayesovo učenje 19 / 29
13. siječnja 2005. Bayesovo učenje 20 / 29
Najveća vjerojatnost i minimalni kvadrat pogreške
problem učenja kontinuirane funkcije alternative: neuronske mreže, linearna regresija
Bayesova analiza pokazuje da svaki algoritam koji minimizira kvadrat pogreške između predviđanja hipoteze i podataka za učenje daje hipotezu s najvećom vjerojatnošću takvu hipotezu zovemo Maximum Likelihood,
pišemo hML
13. siječnja 2005. Bayesovo učenje 21 / 29
Najveća vjerojatnost i minimalni kvadrat pogreške
ML = MAP ako vrijedi unif. razd. za P(h)
hML = max P(D|h) = ... = min (di – h(xi))2
... T. Mitchell: Machine learning, page 165 - 167
13. siječnja 2005. Bayesovo učenje 22 / 29
Princip najkraćeg opisa (Minimum Description Length)
načelo blisko načelu Occamove britve
poslužit ćemo se konceptima iz teorije informacija
hMAP možemo prikazati logaritamski: hMAP =max P(D|h)P(h) = max log2 P(D|h) + log2 P(h)
ekvivalentno: hMAP = min [ - log2 P(D|h) - log2 P(h) ]
TINF: ako imamo poruke i, s vjerojatnošću pojavljivanja pi
najkompaktniji kod dodjeljuje log2 pi,bita svakoj poruci
13. siječnja 2005. Bayesovo učenje 23 / 29
Princip najkraćeg opisa (Minimum Description Length)
log2 P(h) – duljina optimalnog opisa h
log2 P(D|h) – duljina klasifikacija D uz uvjet h
hMDL je hipoteza h koja minimizira zbroj duljine
opisa hipoteze + opis podataka
13. siječnja 2005. Bayesovo učenje 24 / 29
Princip najkraćeg opisa – primjer
primjenimo MDL princip na na problem učenja stabla odlučivanja pretpostavimo da su instance već poznate i
pošiljatelju i primatelju – trebamo samo prenijeti klasifikacije
ako su klasifikacije jednake predviđanjima trebamo prenijeti samo hipotezu!
ako hipoteza pogrešno klasificira neke primjere njih je potrebno posebno prenijeti – kao iznimke
13. siječnja 2005. Bayesovo učenje 25 / 29
Princip najkraćeg opisa – primjer
hipoteza hMDL minimizira ovaj zbroj mogućnost balansiranja između kompleksnosti
hipoteze i broja grešaka koje hipoteza čini moguća metoda za rješavanje problema
petreniranosti
dokazuje li ovo jednom za uvijek da su kraće hipoteze bolje? Ne. Pokazano je samo da ako su izabrani
optimalni prikazi hipoteze i iznimaka MDL načelo proizvodi MAP hipoteze
13. siječnja 2005. Bayesovo učenje 26 / 29
Bayesov optimalni klasifikator
do sada smo tražili odgovor na pitanje “koja je najvjerojatnija hipoteza?”
no, često nas zanima odgovor na pitanje “koja je najvjerojatnija klasifikacija novog primjera?”
na drugo pitanje možemo odgovoriti tako da primjenimo MAP hipotezu na novom primjeru ali možemo i bolje! zamislimo sustav sa 3 hipoteze čije su a posteriori
vjerojatnosti: 0,4; 0,3; 0,3 prva hipoteza je MAP hipoteza
13. siječnja 2005. Bayesovo učenje 27 / 29
Bayesov optimalni klasifikator – primjer
pretpostavimo novi primjer x koji h1 klasificira
pozitivno, ali h2 i h3 negativno
uzmemo li u obzir sve hipoteze, vjerojatnost da je x pozitivan je 0,4, a da je negativan je 0,6
najvjerojatnija klasifikacija se razlikuje od klasifikacije koju daje MAP hipoteza!
13. siječnja 2005. Bayesovo učenje 28 / 29
Bayesov optimalni klasifikator – definicija
najvjerojatnija klasifikacija primjera se dobije linearnom kombinacijom klasifikacija svih hipoteza, gdje se kao težine uzimaju a posteriori vrijednosti vjerojatnosti hipoteza moguća klasifikacija vk može uzeti bilo koju
vrijednost iz V
P (vk | D) – vjerojatnost da je točna klasifikacija za
novi primjer vk
P (vk | D)P (vk | hi) * P (hi | D) ; hi iz H
13. siječnja 2005. Bayesovo učenje 29 / 29
Bayesov optimalni klasifikator – definicija
optimalna klasifikacija novog primjera je vk za koji je
P(vk | D) ima maksimum
Bayesov optimalni klasifikator:
max vk iz [ P (vk | hi) * P (hi | D) ]
niti jedna druga metoda učenja ne može nadmašiti Bayesov optimalni klasifikator u prosjeku!
hipoteza koja klasificira ne mora biti iz H
13. siječnja 2005. Bayesovo učenje 30 / 29
Gibbsov algoritam
Računska cijena BO klasifikatora je ekstremno visoka (računaju se aposteriori vjerojatnosti za sve h iz H)
Manje zahtjevna alternativa je Gibbsov algoritam:
1. Biraj h iz H slučajno, ravnajući se po distribuciji a posteriori vjerojatnosti
2. Koristi h za predviđanje slijedećeg primjera x
Uz neke uvjete na pretpostavljenu i stvarnu distribuciju vjerojatnosti, pokazuje se da je greška ovakvog algoritma najviše dva puta veća nego BO klasifikatora.
13. siječnja 2005. Bayesovo učenje 31 / 29
Jednostavni Bayesov klasifikator
vrlo praktična metoda Bayesovog učenja u nekim područjima usporediva s neuronskim
mrežam i stablima odlučivanja svaki primjer opisan kao konjunkcija atributa;
n-torka (a1, a2, ..., an) tražena f-ja može poprimiti bilo koju vrijednost iz
konačnog skupa V
zadatak Bayesovog klasifikatora je pridjeliti najvjerojatniju klasifikaciju vMAP
vMAP = max P( vj | a1, a2, ..., an)
13. siječnja 2005. Bayesovo učenje 32 / 29
Jednostavni Bayesov klasifikator
primjenimo li Bayesov teorem:vMAP = max P( a1, a2, ..., an | vj ) * P (vj)potrebno je procijeniti ove dvije vjerojatnosti na osnovi podataka za učenje P (vj) je frekvencija ponavljanja vj u skupu primjera P( a1, a2, ..., an | vj ) nije moguće izračunati na
temelju realno velikog skupa podataka za učenje
pretpostavka: vrijednosti atributa su uvjetno nezavisne P( a1, a2, ..., an | vj ) = Pak | vj) ; k
13. siječnja 2005. Bayesovo učenje 33 / 29
Jednostavni Bayesov klasifikator – definicija
Jednostavni Bayesov klasifikator:
vNB = max P ( vj ) P ak | vj ) ; k
P ak | vj) se procjenjuje na temelju
frekvencije pojavljivanja u ulaznom skupu podataka
kada je zadovoljen preduvjet o nezavisnosti jednostavna Bayesova klasifikacija identična MAP
klasifikaciji
13. siječnja 2005. Bayesovo učenje 34 / 29
Jednostavni Bayesov klasifikator – primjer
Primjenimo JBK na primjeru “Dan za tenis” str 59; 14 primjera za učenje; 4 atributa novi primjer: (sunčano, hladno, visoka, jak)
računamo vNB = max P ( vj ) P ak | vj ) ; k
vNB = max P ( vj ) P sunčano | vj ) P hladno | vj )
P visoka | vj ) P jak | vj )
treba nam 10 vjerojatnosti koje možemo procjeniti iz ulaznih podataka
13. siječnja 2005. Bayesovo učenje 35 / 29
Jednostavni Bayesov klasifikator – primjer
P(vj = DA) = 9 / 14 = 0,64
P(vj = NE) = 5 / 14 = 0,36
analogno, brojimo vrijednosti za ostale atribute
rezultat: P ( DA ) P sunčano | DA ) P hladno | DA )
P visoka | DA ) P jak | DA ) = 0,0053 P ( NE ) P sunčano | NE ) P hladno | NE )
P visoka | NE ) P jak | NE ) = 0,0206