Top Banner
“CHAPTER 3” Maximum Likelihood and Bayesian Estimation Oleh : AAN JELLI PRIANA (156150100111022) 1
46

Chapter 3 maximum likelihood and bayesian estimation-fix

Apr 13, 2017

Download

Technology

jelli123
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Chapter 3   maximum likelihood and bayesian estimation-fix

1

“CHAPTER 3”Maximum

Likelihood and Bayesian Estimation

Oleh : AAN JELLI PRIANA(156150100111022)

Page 2: Chapter 3   maximum likelihood and bayesian estimation-fix

2

INTRODUCTION

Max Likelihood

Bayesian

• Permasalahan estimasi parameter adalah salah satu hal klasik dalam statistik, yang dapat dilakukan melalui pendekatan dalam berbagai cara.

• Jika kita tahu bentuk parametrik densitas probabilitas kelas-kondisional kita dapat mengurangi learning task dari salah satu temuan distribusinya sendiri parameter yang ditemukan menggunakan hasil distribusi untuk klasifikasi.

• Kita akan mempertimbangkan dua prosedur umum estimasi yaitu:

Maksimum Likelihood Estimation dan Bayesian Estimation hasilnya secara

identik hampir sama namun secara konsep berbeda.

Page 3: Chapter 3   maximum likelihood and bayesian estimation-fix

3

OIntroductionO Bayesian framework

O Desain secara optimal classifier dengan diketahuinya:O P(i) : priorsO P(x | i) : class-conditional densities

Unfortunately, we rarely have this complete information!

O Desain classifier berdasarkan set of labeled training samples (supervised learning)O Asumsi: priors diketahuiO Membutuhkan kecukupan jumlah training samples

untuk estimasi class-conditional densities, khususnya saat dimensi feature space adalah besar

1

Page 4: Chapter 3   maximum likelihood and bayesian estimation-fix

4

MAXIMUM LIKELIHOOD ESTIMATION

O Metode maksimum Likelihood berusaha menemukan nilai parameter terbaik yang didukung oleh data training, yaitu memaksimalkan peluang mendapatkan sampel yang diamati sebenarnya.

O Memiliki sifat konvergensi yang baik dengan meningkatnya ukuran sampel; Diperkirakan nilai parameter mendekati nilai sebenarnya sebagai n meningkat.

O Lebih simpel dari pada alternative technique lainnya

Page 5: Chapter 3   maximum likelihood and bayesian estimation-fix

5

O Asumsi kita memiliki conditional classes danP(x | j) ~ N( j, j)

P(x | j) P (x | j, j), where

)...)x,xcov(,,,...,,(),( nj

mj

22j

11j

2j

1jjj

2

Menggunakan kelas j samples untuk estimasi class j parameters

PRINSIP UMUM MAXIMUM LIKELIHOOD ESTIMATION

Page 6: Chapter 3   maximum likelihood and bayesian estimation-fix

Pattern Classification, Chapter 3 6

O Example of a specific case: unknown

O P(x | ) ~ N(, )(Contoh dari multivariate normal population)

= , dimana Max Likelihood estimasi untuk “must satisfy”:

)x()|x(Pln and

)x()x(21)2(ln

21)|x(Pln

1kk

1k

tk

dk

0)ˆx( knk

1k

1

2

The Gaussian Case: Unknown μ

Page 7: Chapter 3   maximum likelihood and bayesian estimation-fix

Pattern Classification, Chapter 3 7

• Multiplying oleh & penataan ulang, diperoleh:

yang merupakan arithmetic average atau mean dari samples of the training samples!

Conclusion: Memberikan P(xk | j), j = 1, 2, …, c menjadi Gaussian pada d-dimensional feature space, mengestimasi vector = (1, 2, …, c)t dan performa classification menggunakan Bayes decision rule ( chapter 2).

nk

1kkx

n1ˆ

2

Page 8: Chapter 3   maximum likelihood and bayesian estimation-fix

Pattern Classification, Chapter 3 8

O Max Likelihood Estimation: O Univariate Gaussian Case: unknown &

= (1, 2) = (, 2)

02

)x(2

1

0)x(1

0))|x(P(ln

))|x(P(lnl

)x(2

12ln21)|x(Plnl

22

21k

2

1k2

k2

k1

21k

22k

2

The Gaussian Case :Unknown μ and Σ

Page 9: Chapter 3   maximum likelihood and bayesian estimation-fix

9

OIntroductionO Bayesian framework

O Desain secara optimal classifier dengan diketahuinya:O P(i) : priorsO P(x | i) : class-conditional densities

Unfortunately, we rarely have this complete information!

O Desain classifier berdasarkan set of labeled training samples (supervised learning)O Asumsi: priors diketahuiO Membutuhkan kecukupan jumlah training samples

untuk estimasi class-conditional densities, khususnya saat dimensi feature space adalah besar

1

Page 10: Chapter 3   maximum likelihood and bayesian estimation-fix

10

O Asumsi kita memiliki conditional classes danP(x | j) ~ N( j, j)

P(x | j) P (x | j, j), where

)...)x,xcov(,,,...,,(),( nj

mj

22j

11j

2j

1jjj

2

Menggunakan kelas j samples untuk estimasi class j parameters

PRINSIP UMUM MAXIMUM LIKELIHOOD ESTIMATION

Page 11: Chapter 3   maximum likelihood and bayesian estimation-fix

Pattern Classification, Chapter 3 11

O Max Likelihood Estimation: O Univariate Gaussian Case: unknown &

= (1, 2) = (, 2)

02

)x(2

1

0)x(1

0))|x(P(ln

))|x(P(lnl

)x(2

12ln21)|x(Plnl

22

21k

2

1k2

k2

k1

21k

22k

2

The Gaussian Case :Unknown μ and Σ

Page 12: Chapter 3   maximum likelihood and bayesian estimation-fix

Pattern Classification, Chapter 3 12

O Estimasi maksimum likelihood untuk 2 varians σ adalah bias

O An unbiased estimator untuk adalah:

222i .

n1n)xx(

n1E

matrix covariance Sample

nk

1k

tkk )ˆx)(x(

1-n1C

2

BIAS

Page 13: Chapter 3   maximum likelihood and bayesian estimation-fix

13

3.3 BAYESIAN ESTIMATION

O Estimasi Bayesian (pendekatan Bayesian Learning) untuk masalah klasifikasi pola.

O Meskipun nantinya hasil yang di dapat dengan metode ini umumnya hampir identik dengan hasil maksimum likelihood, namun terdapat perbedaan secara konseptual, yaitu:O dalam metode maksimum likelihood kita melihat vektor true

parameter, kita mencari , dan harus diperbaiki,θO dalam Bayesian learning, kita mempertimbangkan menjadi θ

variabel acak, dan data training untuk konversi distribusi pada variabel ini ke densitas (kepadatan) posterior probabilitas.

Page 14: Chapter 3   maximum likelihood and bayesian estimation-fix

14

Algorithm 1: Expectation-Maximization

Page 15: Chapter 3   maximum likelihood and bayesian estimation-fix

Pattern Classification, Chapter 3 15

O Estimasi maksimum likelihood untuk 2 varians σ adalah bias

O An unbiased estimator untuk adalah:

222i .

n1n)xx(

n1E

matrix covariance Sample

nk

1k

tkk )ˆx)(x(

1-n1C

2

BIAS

Page 16: Chapter 3   maximum likelihood and bayesian estimation-fix

16

3.3 BAYESIAN ESTIMATION

O Estimasi Bayesian (pendekatan Bayesian Learning) untuk masalah klasifikasi pola.

O Meskipun nantinya hasil yang di dapat dengan metode ini umumnya hampir identik dengan hasil maksimum likelihood, namun terdapat perbedaan secara konseptual, yaitu:O dalam metode maksimum likelihood kita melihat vektor true

parameter, kita mencari , dan harus diperbaiki,θO dalam Bayesian learning, kita mempertimbangkan menjadi θ

variabel acak, dan data training untuk konversi distribusi pada variabel ini ke densitas (kepadatan) posterior probabilitas.

Page 17: Chapter 3   maximum likelihood and bayesian estimation-fix

Pattern Classification, Chapter 1 17

Tujuan: Estimate menggunakan a-posteriori density P( | D)

O Univariate Gaussian case: P( | D) adalah sebagai unknown parameter

0 and 0 are known!

),N( ~ )P(),N( ~ ) | P(x

200

2

4

3.4 BAYESIAN PARAMETER ESTIMATION:GAUSSIAN CASE

Page 18: Chapter 3   maximum likelihood and bayesian estimation-fix

18

O Kasus di mana μ adalah satu-satunya parameter yang tidak diketahui.

O Untuk mempermudahnya, kita memperlakukan pertama kasus univariat :

3.4.1 The Univariate Case: p(μ|D)

Page 19: Chapter 3   maximum likelihood and bayesian estimation-fix

Bayesian Learning

Page 20: Chapter 3   maximum likelihood and bayesian estimation-fix

Pattern Classification, Chapter 1 20

O P( | D) telah dihitungO P(x | D) masih harus dihitung

membutuhkan:

Membutuhkan class-conditional density P(x | Dj, j)P(x | Dj, j) together with P(j) and using Bayes formula,

we obtain the Bayesian classification rule:

Gaussian is d)|(P).|x(P)|x(P DD

),(N~)|x(P 2n

2n D

)(P).,|x(PMax,x|(PMax jjjj

jj

DD

4

3.4.2 The Univariate Case: p(x|D)

Page 21: Chapter 3   maximum likelihood and bayesian estimation-fix

21

3.4.3 The Multivariate Case

O Treatment kasus multivariat dimana Σ diketahui tapi μ tidak, adalah langsunggeneralisasi dari kasus univariat.

Page 22: Chapter 3   maximum likelihood and bayesian estimation-fix

Pattern Classification, Chapter 1 22

O P(x | D) perhitungan dapat diterapkan untuk setiap situasi dimana kepadatan diketahui dapat parametrized.

O Asumsi dasarnya adalah:Bentuk P(x | ) diasumsikan diketahui, tapi nilai tidak diketahui sebenarnya.O Pengetahuan tentang diasumsikan dikenal sebagai prior

density P()O The rest of our knowledge about dikenal sebagai set D of n

random variables x1, x2, …, xn yang mengikuti P(x)

5

3.5 BAYESIAN PARAMETER ESTIMATION:GENERAL THEORY

Page 23: Chapter 3   maximum likelihood and bayesian estimation-fix

Pattern Classification, Chapter 1 23

The basic problem is:“Compute the posterior density P( | D)”then “Derive P(x | D)”

Penggunaan Bayes formula, kita memiliki:

Dan melalui asumsi independen:

)|x(P)|(P knk

1k

D

,d)(P).|(P)(P).|(P)|(P

D

DD

5

Page 24: Chapter 3   maximum likelihood and bayesian estimation-fix

24

Example 1: Recursive Bayes learning and maximum likelihood

O Metode Recursive Bayes pembaruan Bayesian parameter estimasi secara bertahap pada setiap poin training sampel.

O Pada prinsipnya lebih disukai maksimumlikelihood karena lebih mudah untuk menerapkan dan dalam batas training set besar memberikan pengklasifikasi yang hampir sama akurat.

Page 25: Chapter 3   maximum likelihood and bayesian estimation-fix

25

3.5.1 When do Maximum Likelihood and Bayes methods

differO Dalam hampir setiap kasus, maksimum likelihood dan Bayes

Solutions yang setara dalam batas asimtotik data training terbatas.

O Untuk masalah pengenalan pola praktis yang selalu memiliki seperangkat data training terbatas kapan kita harus memilih MLh or B?

O Kontribusi relatif sumber-sumber ini tergantung pada masalah ada argumen teoritis dan metodologis mendukung estimasi Bayesian, meskipun dalam prakteknya kemungkinan maksimum likelihood sederhana, dan bila digunakan untuk merancang pengklasifikasi, dapat menyebabkan pengklasifikasi hampir sama akurat.

Page 26: Chapter 3   maximum likelihood and bayesian estimation-fix

26

O Ada beberapa kriteria yang akan mempengaruhi pilihan: komputasi kompleksitas dan metode maksimum likelihood

lebih disukai O karena hanya memerlukan diferensial teknik kalkulus atau

pencarian gradien, daripada integrasi multidimensi kompleks. interpretability.

O Dalam banyak kasus maksimum likelihood akan lebih mudah untuk ditafsirkan karena ia mengembalikan model tunggal terbaik dari set desainer yang tersedia. Pendekatan Bayesian mencerminkan ketidakpastian yang tersisa dikemungkinan model.

keyakinan informasi sebelumnya, O seperti dalam bentuk p distribusi yang mendasari (x | ). Sebuah θ

solusi maksimum likelihood p (x | ) tentu saja harus dari bentuk θparametrik yang diasumsikan; tidak begitu untuk solusi Bayesian.

Page 27: Chapter 3   maximum likelihood and bayesian estimation-fix

27

O Ada tiga sumber kesalahan klasifikasi pada final sistem :

1. Bayes atau indistinguish ability error:kesalahan karena tumpang tindih kepadatan p (x | i) untuk nilai yang ωberbeda dari i. Kesalahan ini adalah properti yang melekat dari masalah dan tidak pernah bisa dihilangkan.

2. Model error: kesalahan karena memiliki model yang tidak sesuai. Kesalahan ini hanya dapat dihilangkan jika desainer menentukan model yang mencakup model yang benar yang dihasilkan data.

3. Kesalahan estimasi: kesalahan yang timbul dari kenyataan bahwa parameter diperkirakan dari sampel yang terbatas. Kesalahan ini dapat dikurangi dengan meningkatkan pelatihan data

Page 28: Chapter 3   maximum likelihood and bayesian estimation-fix

28

3.5.2 NON-INFORMATIVE PRIORS AND INVARIANCE

O Analoginya, dalam Bayesian framework kita memiliki "non-informatif" prior melalui parameter untuk distribusi kategori tunggal.

O Misalkan kita menggunakan metode Bayesian untuk menyimpulkan dari data mean dan varians dari Gaussian.

O Apa prior memungkinkan kita pasang di parameter ini? O Tentunya unit pengukuran spasial - meter, kaki, inci - adalah

historical accident dan tidak relevan dengan bentuk fungsional prior.

O Sehingga hal ini diimplikasikan sebagai scale invariance:

Page 29: Chapter 3   maximum likelihood and bayesian estimation-fix

29

3.6 SUFFICIENT STATISTICS

O Kecukupan statistik adalah fungsi dari sampel θyang berisi semua informasi yang diperlukan untuk menentukan . θ

O Kecukupan statistik untuk model tertentu (misalnya, eksponensial family) kita hanya perlu memperkirakan nilainya dari data untuk membuat classifier tidak ada fungsi lain dari data yang relevan.

Page 30: Chapter 3   maximum likelihood and bayesian estimation-fix

30

3.6.1 SUFFICIENT STATISTICS AND THE

EXPONENTIAL FAMILYO Untuk melihat bagaimana Faktorisasi Teorema

dapat digunakan untuk mendapatkan statistik yang cukup, pertimbangkan sekali lagi kasus normal d-dimensi akrab dengan kovarians tetap tetapi berarti tidak diketahui

Page 31: Chapter 3   maximum likelihood and bayesian estimation-fix

31

3.7 PROBLEMS OF DIMENSIONALITY

O Dalam kategori aplikasi multi praktis, itu sama sekali tidak biasa menghadapi masalahmelibatkan lima puluh atau seratus fitur, terutama jika fitur yang biner dihargai.Kita mungkin biasanya percaya bahwa setiap fitur berguna untuk setidaknya beberapa dari diskriminasi;sementara kita dapat meragukan bahwa setiap fitur memberikan informasi yang independen,sengaja fitur berlebihan belum disertakan. Ada dua isu yangharus dihadapkan. Yang paling penting adalah bagaimana akurasi klasifikasi tergantung padadimensi (dan jumlah data pelatihan); yang kedua adalah komputasi yang kompleksitas merancang classifier

Page 32: Chapter 3   maximum likelihood and bayesian estimation-fix

32

3.7.1 ACCURACY, DIMENSION, AND TRAINING SAMPLE SIZE

O Jika fitur secara statistik independen, ada beberapa hasil teoritis yang menyarankan kemungkinan kinerja yang sangat baik.

O Sebagai contoh, perhatikan dua kelas multivariat kasus normal dengan kovarians yang sama di mana p (x | ωj) ~ N (μj, Σ), j =1, 2. Jika a priori probabilitas yang sama, maka tidak sulit untuk menunjukkan ( bahwa tingkat kesalahan Bayes diberikan oleh

Page 33: Chapter 3   maximum likelihood and bayesian estimation-fix

33

3.7.3 OVERFITTINGO Ini sering terjadi jumlah sampel yang tersedia tidak

memadai, dan pertanyaan tentang kelanjutannya muncul.

O Salah satu kemungkinan adalah untuk mengurangi dimensi ini, baik dengan mendesain ulang extractor fitur, dengan memilih bagian yang tepat dari fitur yang ada, atau dengan menggabungkan fitur yang ada dalam beberapa cara. kemungkinan lainnya adalah asumsi semua kelas c berbagi matriks kovarians yang sama, dan untuk pool data yang tersedia

Page 34: Chapter 3   maximum likelihood and bayesian estimation-fix

Insufficient Data in Curve Fitting

Page 35: Chapter 3   maximum likelihood and bayesian estimation-fix

35

3.8 Expectation-Maximization (EM)

O Ide dasar dari harapan maksimalisasi atau algoritma EM, adalah untuk iteratively memperkirakan likelihood dari data yang ada. Metode memiliki prekursor dalam algoritma Baum-Welch .

Page 36: Chapter 3   maximum likelihood and bayesian estimation-fix

36

Algorithm 1: Expectation-Maximization

Page 37: Chapter 3   maximum likelihood and bayesian estimation-fix

37

3.9 BAYESIAN BELIEF NETWORKS

O Disini akan ditunjukan grafik dependensi yang dinamakan bayesian belief networks atau causal networks bentuk topologi directed acyclic graph (DAG)

Page 38: Chapter 3   maximum likelihood and bayesian estimation-fix

38

3.10 HIDDEN MARKOV MODELS

OHidden Markov Model (HMMs) telah menemukan penggunaan terbesar di masalah, untuk speech recognition or gesture recognition.

Page 39: Chapter 3   maximum likelihood and bayesian estimation-fix

39

3.10.1 First-order Markov models

O Kami menganggap urutan state pada successive times ,urutan state setiap saat t dilambangkanω (t). Sebuah urutan tertentu dari panjang T dilambangkan dengan

Page 40: Chapter 3   maximum likelihood and bayesian estimation-fix

40

3.10.2 FIRST-ORDER HIDDEN MARKOV MODELS

O Kami terus berasumsi bahwa pada setiap langkah waktu t sistem ini dalam ω negara (t) tapi sekarangkami juga menganggap bahwa itu memancarkan beberapa (terlihat) simbol v (t). Sementara canggih Markovmodel memungkinkan untuk emisi fungsi kontinu (mis, spektrum), kita akan membatasidiri untuk kasus di mana simbol diskrit dipancarkan

Page 41: Chapter 3   maximum likelihood and bayesian estimation-fix

41

CONTOH FIRST-ORDER HIDDEN MARKOV MODELS

Page 42: Chapter 3   maximum likelihood and bayesian estimation-fix

42

ALGORITHM 2: FORWARD

Page 43: Chapter 3   maximum likelihood and bayesian estimation-fix

43

ALGORITHM 3: BACKWARD

Page 44: Chapter 3   maximum likelihood and bayesian estimation-fix

44

3.10.5 DECODINGO Memberikan sequence dari visibel

state, permasalahan decoding adalah menemukan urutan kemungkinan terbaik dari hidden state.

Page 45: Chapter 3   maximum likelihood and bayesian estimation-fix

45

SUMMARYO Jika kita tahu bentuk parametrik densitas probabilitas kelas-

kondisional kita dapat mengurangi learning task dari salah satu temuan distribusinya sendiri .

O Maksimum Likelihood Estimation dan Bayesian Estimation hasilnya secara identik hampir sama namun secara konsep berbeda

O Perbedaan secara konseptual antara maximum likelihood dan bayesian estimation, yaitu: dalam metode maksimum likelihood kita melihat vektor true

parameter, kita mencari , θ dan harus diperbaiki, dalam Bayesian learning, kita mempertimbangkan θ menjadi

variabel acak, dan data training untuk konversi distribusi pada variabel ini ke densitas (kepadatan) posterior probabilitas.

Page 46: Chapter 3   maximum likelihood and bayesian estimation-fix

46

Implementation

O Go to Journal ..................