Kelompok 14_inferensi Likelihood

TUGAS I

INFERENSI LIKELIHOOD

RANGKUMAN BAB 2 DAN BAB 3

DISUSUN OLEH :

KELOMPOK 14

HARTINA HUSAIN H12113005

NURUL AINUN ABDULLAH H12113506

PRODI STATISTIKA UNHAS

TANGGAL TUGAS :19 SEPTEMBER 2015

TANGGAL KUMPUL :02 OKTOBER 2015

BAB 2 ELEMEN DARI INFERENSI LIKELIHOOD

2.5 Maksimum dan kelengkungan likelihood

Likelihood adalah suatu alat yang digunakan sebagai penalaran obyektif terhadap

data, terutama untuk menghadapi ketidak-pastian sehubungan dengan terbatasnya sejumlah

keterangan yang termuat pada data. Fungsi likelihood ini memuat informasi mengenai suatu

parameter tertentu.

Peran yang jelas dari Maximum likelihood estimate atau estimasi Maksimum

Likelihood (MLE) adalah untuk mendapatkan satu taksiran titik untuk satu parameter

kepentingan. Untuk mendapatkan satu taksiran titik ditentukan daerah aplikasi. Di suatu

kasus dimana model parameter mempunyai arti phisik, selayaknya mendapatkan taksiran

terbaik dari data,adapun ketidakpastian terjadi akibat adanya kesalahan yang bukan bagian

dari hal yang masuk akal.

Kita harus melihat MLE sebagai perangkat untuk menyederhanakan penyajian

fungsi kemungkinan, terutama dalam situasi analisis real data; sebuah angka

adalah jauh lebih sederhana daripada fungsi. Bayangkan tugas standar menggambarkan

karakteristik populasi penelitian: masih mungkin bagi pikiran kita untuk

menyerap, berkomunikasi, membandingkan dan alasan dengan 10 atau bahkan 20 sampel

berarti atau proporsi, tetapi akan sia-sia untuk tetap menyebut 20 kemungkinan

fungsi. Umumnya, satu nomor tidak cukup untuk mewakili fungsi; itu

MLE terkadang kurang cukup untuk mewakili fungsi kemungkinan. Log-likelihood

baik didekati dengan fungsi kuadrat, maka kita memerlukan setidaknya dua

jumlah untuk mewakilinya: lokasi maksimum dan lengkungan di

maksimum. Dalam hal ini kita sebut fungsi kemungkinan 'biasa'. Kapan

sampel kami menjadi besar fungsi kemungkinan umumnya tidak menjadi

biasa; teori besar sampel dalam Bab 9 menetapkan ini praktis

Bahkan. Untuk mengulang persyaratan penting ini, masalah biasa yang mana mereka

kita bisa mendekati log-kemungkinan sekitar MLE oleh kuadrat

fungsi; untuk kasus seperti kami juga akan mengatakan bahwa fungsi kemungkinan adalah

biasa. (Tidak menjadi bertele-tele, ketika kita mengatakan 'fungsi kemungkinan memiliki

baik pendekatan kuadrat ', kita berarti log-kemungkinan tidak.) ini

pendekatan adalah pelabuhan masuk untuk kalkulus ke dunia kemungkinan.

Untuk mempermudah kita akan mulai dengan parameter skalar; multiparameter yang

Kasus ini dibahas dalam Bagian 3.3. Pertama kita mendefinisikan fungsi nilai S (θ ) sebagai

turunan pertama dari log-likelihood:

Oleh karena itu MLE θ̂ adalah solusi dari persamaan nilai :

Pada keadaan Maksimum, turunan kedua dari log-kemungkinan negatif, sehingga kita

mendefinisikan kelengkungan pada θ̂ sebagai I (θ̂ )di mana :

Sebuah lengkungan besar I (θ̂ ) dikaitkan dengan puncak ketat atau yang kuat, intuitif

menunjukkan ketidakpastian kurang tentang θ. Dalam teori kemungkinan I (θ̂ ) adalah jumlah

kunci yang disebut informasi Fisher obseroed; dicatat bahwa itu dievaluasi

di MLE, sehingga sesuai dengan fungsi.

Contoh 2.9 :

Misalkan x1 , …. , x2 adalah sebuah sampel iid dari (θ , σ2) . Asumsikan bahwa σ 2 diketahui.

Abaikan konstanta yang tidak relevan.

Kemudian diperoleh

Selesaikan S (θ )=0 dihasilkan θ̂=x sebagai MLE dari θ. Turunan kedua dari log-

kemungkinan memberikan informasi Fisher yang diamati yaitu :

Disini var (θ̂ )= σ 2

n =I−1 (θ̂ ) . Informasi yang lebih besar berarti varians yang lebih kecil.

Selanjutnya standar error dari θ̂ adalah (θ̂ )= σ√n

=I−1/2 (θ̂ ).

Ini adalah contoh penting, untuk itu adalah tema umum dalam statistik yang

banyak properti yang tepat benar dalam kasus normal sekitar

benar dalam masalah biasa.

Contoh 2.10 :

Berdasarkan x dari binomial(n , θ) fungsi log-likelihood adalah :

Pertama kita dapat menemukan fungsi nilai

Diberikan MLE θ̂= xndan

sehingga pada MLE kita memiliki informasi Fisher

Dalam masalah realistis kita tidak memiliki solusi bentuk tertutup persamaan nilai. Misalkan

sampel iid berukuran n = 5 diambil dari N (θ , 1), dan hanya maksimum x (5 )=3.5 dilaporkan.

Dari contoh 2.4 diperoleh :

Cara terbaik adalah untuk menggunakan prosedur optimasi numerik untuk menemukan θ̂

langsung dari L(θ);dalam prakteknya kita bahkan tidak perlu mencari S(θ) analitis, dan

prosedur dapatjuga menyediakan I (θ̂ )numerik. Dalam contoh ini :

Secara informal, kita bisa mengatakan maksimal membawa informasi yang sama seperti 2,4

pengamatan dari N (θ ,1 ) .

Menggunakan-urutan kedua ekspansi Taylor sekitar

diperoleh

memberikan pendekatan kuadrat dari normalized log-kemungkinan sekitar θ.

Kita bisa menilai pendekatan kuadrat dengan memplot loglikelihood benar

dan pendekatan bersama. Dalam plot log-kemungkinan, kita menetapkan

maksimum log-kemungkinan untuk nol dan memeriksa berbagai 0 seperti

bahwa log-kemungkinan adalah sekitar antara -4 dan o. Dalam normal

contoh di atas pendekatan kuadrat adalah tepat:

sehingga pendekatan kuadrat dari log-kemungkinan sesuai dengan normal

perkiraan 8. Kami telah di sini aturan praktis dalam semua aplikasi kemungkinan:

kemungkinan reguler cukup berarti 8 adalah sekitar normal,

sehingga laporan yang sepenuhnya benar untuk model yang normal akan menjadi

sekitar benar karena θ̂.

Atau, dalam hal fungsi nilai, kita dapat mengambil derivatif

dari pendekatan kuadrat (2.4) untuk mendapatkan :

atau

Yang terakhir ini memiliki keuntungan menjadi berdimensi, dalam arti bahwa itu adalah

tidak terpengaruh oleh skala parameter θ.

2.6 Interval berbasis likelihood

kita hanya dapat menunjukkan fungsi kemungkinan dan, berdasarkan itu, menyatakan

kesimpulan kami pada pertanyaan yang menarik, atau membiarkan orang lain menarik

kesimpulan mereka sendiri. kita mengadopsi pendekatan ini dalam banyak contoh kita, tetapi

pendekatan seperti dapat sangat praktis, terutama ketika kita berhadapan dengan banyak

parameter.

Pure likelihood inference

Interval likelihood didefinisikan sebagai satu set nilai parameter dengan likelihood cukup

tinggi:

untuk beberapa titik cutoff c, di mana L(θ)/ L(θ̂) adalah likelihood normal.

Probabilitas dasar inferensi

Sementara nyaman, kemungkinan inferensi murni menderita kelemahan yang serius:

tidak ada cara eksternal divalidasi untuk membenarkan titik cutoff c, karena

nilai yang dipilih c tidak mengacu pada apa yang dapat diamati. Ini adalah umum

masalah kalibrasi terkait dengan kemungkinan: 5% likelihood melakukan

tidak memiliki arti yang ketat (tergantung pada ukuran ruang parameter).

Sebaliknya, probabilitas 5% selalu bermakna sebagai frekuensi jangka panjang,

jadi salah satu cara untuk 'menstandardisasi' kemungkinan adalah melalui probabilitas. Ini

sebenarnya kesimpulan Dasar likelihood tradisional dalam statistik. Fisher dipelihara

bahwa bila memungkinkan kita harus menggunakan probabilitas berdasarkan inferensi; di

sini ia termasuk kasus di mana tingkat kepercayaan yang tepat tersedia dan largesample yang

kasus. Tradisional (frequentist) inferensi pada parameter yang tidak diketahui 9 bergantung

pada teori distribusi estimasi θ̂. Sebuah teori besar sampel yang dibutuhkan

dalam kasus umum, tetapi sederhana dalam model rata normal. Dari contoh 2.9 diperoleh :

Kemudian, diperoleh x adalah N (θ , σ2

n), sehingga

atau

W disebut Wilk rasio kemungkinan statistik.

Ini adalah teori distribusi kunci yang diperlukan untuk mengkalibrasi kemungkinan. Interval θ yaitu :

Jadi,jika untuk beberapa 0<α<1 kita memilih

dimana x1 ,(1−α )2 adalah 100(1−α ) persentil dari x1

2sehingga diperoleh :

Contoh : Seseorang mengambil sebuah bilangan bulat θ dan menyuruh kamu untuk menebak

berdasarkan beberapa data yang diikuti. Dia akan melemparkan sebuah koin dua kali (kamu

tidak melihat hasilnya), dan dari setiap lemparan dia akan melaporkan θ+1 jika kepala

muncul, atau θ−1 jika yang lainnya. Karena data x1dan x2 adalah sampel dari sebuah

distribusi yang mempunyai probabilitas 0.5 dalam θ−1 atau θ+1. Sebagai contoh, dia boleh

melaporkan x1=5da nx 2=5.

Tebakan yang diikuti akan mempunyai probabilitas kebenaran 75%:

C ( x 1, x2 )={12

( x 1+ x2 ) jika x1 ≠ x 2

x 1−1 jika x1= x2

Menurut standar logic dari prosedur kepercayaan, tebakan di atas mempunyai 75% ‘tingkat

kepercayaan’. Tapi jika x1≠ x2 kita seharusnya menjadi ‘keyakinan 100%’ bahwa tebakan

adalah benar, lainnya kita hanya ‘keyakinan 50%’. Itu akan menjadi mustahil untuk menuntut

bahwa dalam observasi x1 ≠ x2 kamu hanya mempunyai kepercayaan 75% dalam

{( x 1+x 2 ) /2}. Pendekatan likelihood murni akan mencocokkan arti biasa: laporan pada setiap

observasi { x1 , x2 } bahwa ketidakpastian mengenai θ. Jangan mengatakan apapun,

bagaimanapun, tentang long-term probabilitas dari kebenaran.

2.7 Standard error and Wald statistic

Dalam kasus dimana sebuah kuadratik kepercayaan dari log-likelihood bekerja baik

dan I (θ̂) menjadi berarti, kita mempunyai

L(θ)L(θ̂)

= - 12I (θ̂) (θ – θ̂)2

Jadi interval likelihood {θ , L(θ)L(θ̂)

>c} kira-kira

θ̂ ±√−2 logc x I (θ̂)−12 .

Contoh: dalam contoh binomial dengan n=10 dan x=8 kuadratik perkiran adalah lemah.

Standar error dari θ̂ adalah I (θ̂ )−1 /2=1 /√62.5 ,=0.13 , jadi wald 95% Cl adalah

0.8 ± 1.96/√62.5 ,

Diberikan 0.55<θ<1.05, jelas tidak tepat. Untuk n=100 standar error untuk θ̂ adalah

I (θ̂ )−1 /2=1 /√62.5 ,=0.04 , disini kita mempunyai perkiraan kuadratik yang baik, dengan

Wald 95% Cl

0.8 ± 1.96/√62.5

Atau 0.72 <θ<0.88 , bandingkan dengan 0.72 <θ<0.87 dari likelihood eksak.

2.8 Invariance Principle

Dalam contoh binomial dengan n = 10 dan x = 8, rasio likelihood dari θ1 = 0,8

melawan θ2 = 0,3 adalah

L(θ1=0,8)L(θ1=0,8)

= θ1

8

θ28(1−θ 1)2

(1−θ 2)2 = 208.7,

Diberikan data θ=0,8tentang 200 kali mungkin lebih dari θ = 0,3.

Kita dapat mengekspres θdalam skala sebagai berikut

φ ≡ log {θ /(1−θ)}

Lalu ‘secara kebetulan’ informasi relatif kita tentang φ1 = log (0.8/0.2) = 1.39 melawanφ2 =

log (0.3/0.7) = -0.85 seharusnya menjadi

L¿ (φ1 )L¿ (φ2 )

= L(θ)L(θ̂)

=208.7 .

Adalah, informasi kita seharusnya menjadi invarian ke pilihan dari parameter.

Ini bukan kasus dalam perumusan Bayesian. Maksudnya θ mempunyai sebuah ‘tanpa

keterangan’ f (θ ¿=1; adalah sebagai berikut

f (φIx) = f (θ(φ)Ix) x |∂θ∂ φ|

= f (θ(φ)Ix) eφ

(1+e¿¿φ)2 ¿

2.9 Practical implications of invariance principle

Computing the likelihood of new parameters

Graph dari likelihood φ adalah sebagai berikut:

{φ , L¿(φ)}={g (θ ) , L(g(θ))}

= {g (θ ) , L(θ)}

Jika g (θ ) bukan satu ke satu kita perlu sedikit tehnik modifikasi. Dalam bentuk

umum

L¿(φ ¿ = max {θ , g (θ )=φ}L(θ ¿ .

Invariance property of the MLE

Teorema 2.1 jika θ̂adalah MLE dari θ dan g (θ ) adalah sebuah fungsi dari θ, maka g ¿)

adalah MLE dari g (θ ) .

BAB 3

MORE PROPERTIES OF THE LIKELIHOOD

3.1 Sufficiency (Kecukupan)

Defenisi : sebuah statistik T(X) adalah cukup untuk θ dalam sebuah eksperimen E jika

semua informasi relevan dan terbuat dalam data mengenai θ. Hal ini benar untuk setiap

estimasi U ( x ) , distribusi dari U ( x ) memberikan T (x) bebas di θ.

Teorema: T(X) adalah cukup untuk θ dalam sebuah eksperimen E jika dan hanya jika model

pθ ( x )=g (t ( x ) ,θ )h ( x ) ,

Dimana h(x) adalah bebas pada θ

Contoh: Misalkan x1 , , , , , xnadalah sampel dari N (μ ,σ2) dan misalkan θ=(μ , σ2).

Densitasnya adalah

pθ ( x )=(2 π θ2)−n/2exp {−12σ2 ∑

i(xi−μ)2}

=(2 π θ2)−n /2 exp{−∑i

xi2

2σ 2 +μ∑

ixi

σ2 −nμ2

2 σ 2 }(a) Jika σ 2 diketahui ∑

ixi cukup untuk μ;

(b) Jika μ diketahui ∑i

(xi−μ)2 cukup untuk σ 2

(c) Jika ( μ , σ2 ) tidak diketahui (∑i

xi ,∑i

xi2) cukup

Diketahui (∑i

xi ,∑i

xi2) cukup artinya bahwa sisa dari informasi data tidak bertambah lagi

tentang ( μ , σ2 ). Jika normalitas ditetapkan, ini berarti kita hanya perlu menjaga (

∑i

xi ,∑i

xi2) untuk analisis lebih lanjut.

3.2 Minimal sufficiency

Definisi: Sebuah sufficient statistik T(X) adalah minimal sufficient jika itu adalah sebuah

dari beberapa sufficient statistik lainnya.

Jika t adalah beberapa fungsi dari data x, likelihood berdasarkan pada x adalah sama

sebagai likelihood di antara x dan t. Jadi, jika t sufisien

L (θ ;x )=L (θ ; x ,t )=pθ ( x , t )=pθ ( t ) p { x|t }

= constant x pθ ( t )

= constant x L (θ ;t ),

Artinya bahwa L (θ ;x ) dapat dihitung berdasarkan pada t itu sendiri.

Untuk setiap pilihan dari θ0,

t ( x )= L(θ ;x )L(θ0; x)

Adalah sufisien. Untuk membuktikan ini, kita menggunakan teorema faktorisasi oleh definisi

g (t , θ )= L(θ ; x)L(θ0; x )

Dan h ( x )=L(θ0; x ).

Teorema: Jika T adalah sufisien untuk θ dalam sebuah eksperimen E maka likelihood dari θ

berdasarkan pada keseluruhan data x adalah sama berdasarkan pada T itu sendiri. Oleh

karena itu, fungsi likelihood adalah minimal sufisien.

Monotone likelihood ratio property

Pendekatan θ1 ke θ0,

L(θ1)L(θ0)

=L (θ0 )+L' (θ0 )(θ1−θ0)

L(θ0)

¿1+∂ log L (θ0)

∂ θ0(θ1−θ0 ) ,

3.3 Multiparameter models

Diberikan data , likelihoodnya adalah

L (θ )=p0(x )

Dimana p0(x ) adalah probabilitas dari data observasi.

Nilai fungsi turunan vektor pertama

S (θ )= ∂∂ θ

log L (θ ) ,

Dan MLE θ̂ solusi dari nilai persamaan S (θ )=0.

log L(θ)≈ log L (θ̂ )+S ( θ̂ ) (θ− θ̂ )−12

(θ−θ̂ ) ' I (θ̂ ) ( θ−θ̂ )

¿ log L (θ̂ )−12

( θ−θ̂ )' I (θ̂ )(θ−θ̂)

Kelompok 14_inferensi Likelihood

Documents