TUGAS I INFERENSI LIKELIHOOD RANGKUMAN BAB 2 DAN BAB 3 DISUSUN OLEH : KELOMPOK 14 HARTINA HUSAIN H12113005 NURUL AINUN ABDULLAH H12113506 PRODI STATISTIKA UNHAS TANGGAL TUGAS :19 SEPTEMBER 2015
TUGAS I
INFERENSI LIKELIHOOD
RANGKUMAN BAB 2 DAN BAB 3
DISUSUN OLEH :
KELOMPOK 14
HARTINA HUSAIN H12113005
NURUL AINUN ABDULLAH H12113506
PRODI STATISTIKA UNHAS
TANGGAL TUGAS :19 SEPTEMBER 2015
TANGGAL KUMPUL :02 OKTOBER 2015
BAB 2 ELEMEN DARI INFERENSI LIKELIHOOD
2.5 Maksimum dan kelengkungan likelihood
Likelihood adalah suatu alat yang digunakan sebagai penalaran obyektif terhadap
data, terutama untuk menghadapi ketidak-pastian sehubungan dengan terbatasnya sejumlah
keterangan yang termuat pada data. Fungsi likelihood ini memuat informasi mengenai suatu
parameter tertentu.
Peran yang jelas dari Maximum likelihood estimate atau estimasi Maksimum
Likelihood (MLE) adalah untuk mendapatkan satu taksiran titik untuk satu parameter
kepentingan. Untuk mendapatkan satu taksiran titik ditentukan daerah aplikasi. Di suatu
kasus dimana model parameter mempunyai arti phisik, selayaknya mendapatkan taksiran
terbaik dari data,adapun ketidakpastian terjadi akibat adanya kesalahan yang bukan bagian
dari hal yang masuk akal.
Kita harus melihat MLE sebagai perangkat untuk menyederhanakan penyajian
fungsi kemungkinan, terutama dalam situasi analisis real data; sebuah angka
adalah jauh lebih sederhana daripada fungsi. Bayangkan tugas standar menggambarkan
karakteristik populasi penelitian: masih mungkin bagi pikiran kita untuk
menyerap, berkomunikasi, membandingkan dan alasan dengan 10 atau bahkan 20 sampel
berarti atau proporsi, tetapi akan sia-sia untuk tetap menyebut 20 kemungkinan
fungsi. Umumnya, satu nomor tidak cukup untuk mewakili fungsi; itu
MLE terkadang kurang cukup untuk mewakili fungsi kemungkinan. Log-likelihood
baik didekati dengan fungsi kuadrat, maka kita memerlukan setidaknya dua
jumlah untuk mewakilinya: lokasi maksimum dan lengkungan di
maksimum. Dalam hal ini kita sebut fungsi kemungkinan 'biasa'. Kapan
sampel kami menjadi besar fungsi kemungkinan umumnya tidak menjadi
biasa; teori besar sampel dalam Bab 9 menetapkan ini praktis
Bahkan. Untuk mengulang persyaratan penting ini, masalah biasa yang mana mereka
kita bisa mendekati log-kemungkinan sekitar MLE oleh kuadrat
fungsi; untuk kasus seperti kami juga akan mengatakan bahwa fungsi kemungkinan adalah
biasa. (Tidak menjadi bertele-tele, ketika kita mengatakan 'fungsi kemungkinan memiliki
baik pendekatan kuadrat ', kita berarti log-kemungkinan tidak.) ini
pendekatan adalah pelabuhan masuk untuk kalkulus ke dunia kemungkinan.
Untuk mempermudah kita akan mulai dengan parameter skalar; multiparameter yang
Kasus ini dibahas dalam Bagian 3.3. Pertama kita mendefinisikan fungsi nilai S (θ ) sebagai
turunan pertama dari log-likelihood:
Oleh karena itu MLE θ̂ adalah solusi dari persamaan nilai :
Pada keadaan Maksimum, turunan kedua dari log-kemungkinan negatif, sehingga kita
mendefinisikan kelengkungan pada θ̂ sebagai I (θ̂ )di mana :
Sebuah lengkungan besar I (θ̂ ) dikaitkan dengan puncak ketat atau yang kuat, intuitif
menunjukkan ketidakpastian kurang tentang θ. Dalam teori kemungkinan I (θ̂ ) adalah jumlah
kunci yang disebut informasi Fisher obseroed; dicatat bahwa itu dievaluasi
di MLE, sehingga sesuai dengan fungsi.
Contoh 2.9 :
Misalkan x1 , …. , x2 adalah sebuah sampel iid dari (θ , σ2) . Asumsikan bahwa σ 2 diketahui.
Abaikan konstanta yang tidak relevan.
Kemudian diperoleh
Selesaikan S (θ )=0 dihasilkan θ̂=x sebagai MLE dari θ. Turunan kedua dari log-
kemungkinan memberikan informasi Fisher yang diamati yaitu :
Disini var (θ̂ )= σ 2
n =I−1 (θ̂ ) . Informasi yang lebih besar berarti varians yang lebih kecil.
Selanjutnya standar error dari θ̂ adalah (θ̂ )= σ√n
=I−1/2 (θ̂ ).
Ini adalah contoh penting, untuk itu adalah tema umum dalam statistik yang
banyak properti yang tepat benar dalam kasus normal sekitar
benar dalam masalah biasa.
Contoh 2.10 :
Berdasarkan x dari binomial(n , θ) fungsi log-likelihood adalah :
Pertama kita dapat menemukan fungsi nilai
Diberikan MLE θ̂= xndan
sehingga pada MLE kita memiliki informasi Fisher
Dalam masalah realistis kita tidak memiliki solusi bentuk tertutup persamaan nilai. Misalkan
sampel iid berukuran n = 5 diambil dari N (θ , 1), dan hanya maksimum x (5 )=3.5 dilaporkan.
Dari contoh 2.4 diperoleh :
Cara terbaik adalah untuk menggunakan prosedur optimasi numerik untuk menemukan θ̂
langsung dari L(θ);dalam prakteknya kita bahkan tidak perlu mencari S(θ) analitis, dan
prosedur dapatjuga menyediakan I (θ̂ )numerik. Dalam contoh ini :
Secara informal, kita bisa mengatakan maksimal membawa informasi yang sama seperti 2,4
pengamatan dari N (θ ,1 ) .
Menggunakan-urutan kedua ekspansi Taylor sekitar
diperoleh
memberikan pendekatan kuadrat dari normalized log-kemungkinan sekitar θ.
Kita bisa menilai pendekatan kuadrat dengan memplot loglikelihood benar
dan pendekatan bersama. Dalam plot log-kemungkinan, kita menetapkan
maksimum log-kemungkinan untuk nol dan memeriksa berbagai 0 seperti
bahwa log-kemungkinan adalah sekitar antara -4 dan o. Dalam normal
contoh di atas pendekatan kuadrat adalah tepat:
sehingga pendekatan kuadrat dari log-kemungkinan sesuai dengan normal
perkiraan 8. Kami telah di sini aturan praktis dalam semua aplikasi kemungkinan:
kemungkinan reguler cukup berarti 8 adalah sekitar normal,
sehingga laporan yang sepenuhnya benar untuk model yang normal akan menjadi
sekitar benar karena θ̂.
Atau, dalam hal fungsi nilai, kita dapat mengambil derivatif
dari pendekatan kuadrat (2.4) untuk mendapatkan :
atau
Yang terakhir ini memiliki keuntungan menjadi berdimensi, dalam arti bahwa itu adalah
tidak terpengaruh oleh skala parameter θ.
2.6 Interval berbasis likelihood
kita hanya dapat menunjukkan fungsi kemungkinan dan, berdasarkan itu, menyatakan
kesimpulan kami pada pertanyaan yang menarik, atau membiarkan orang lain menarik
kesimpulan mereka sendiri. kita mengadopsi pendekatan ini dalam banyak contoh kita, tetapi
pendekatan seperti dapat sangat praktis, terutama ketika kita berhadapan dengan banyak
parameter.
Pure likelihood inference
Interval likelihood didefinisikan sebagai satu set nilai parameter dengan likelihood cukup
tinggi:
untuk beberapa titik cutoff c, di mana L(θ)/ L(θ̂) adalah likelihood normal.
Probabilitas dasar inferensi
Sementara nyaman, kemungkinan inferensi murni menderita kelemahan yang serius:
tidak ada cara eksternal divalidasi untuk membenarkan titik cutoff c, karena
nilai yang dipilih c tidak mengacu pada apa yang dapat diamati. Ini adalah umum
masalah kalibrasi terkait dengan kemungkinan: 5% likelihood melakukan
tidak memiliki arti yang ketat (tergantung pada ukuran ruang parameter).
Sebaliknya, probabilitas 5% selalu bermakna sebagai frekuensi jangka panjang,
jadi salah satu cara untuk 'menstandardisasi' kemungkinan adalah melalui probabilitas. Ini
sebenarnya kesimpulan Dasar likelihood tradisional dalam statistik. Fisher dipelihara
bahwa bila memungkinkan kita harus menggunakan probabilitas berdasarkan inferensi; di
sini ia termasuk kasus di mana tingkat kepercayaan yang tepat tersedia dan largesample yang
kasus. Tradisional (frequentist) inferensi pada parameter yang tidak diketahui 9 bergantung
pada teori distribusi estimasi θ̂. Sebuah teori besar sampel yang dibutuhkan
dalam kasus umum, tetapi sederhana dalam model rata normal. Dari contoh 2.9 diperoleh :
Kemudian, diperoleh x adalah N (θ , σ2
n), sehingga
atau
W disebut Wilk rasio kemungkinan statistik.
Ini adalah teori distribusi kunci yang diperlukan untuk mengkalibrasi kemungkinan. Interval θ yaitu :
Jadi,jika untuk beberapa 0<α<1 kita memilih
dimana x1 ,(1−α )2 adalah 100(1−α ) persentil dari x1
2sehingga diperoleh :
Contoh : Seseorang mengambil sebuah bilangan bulat θ dan menyuruh kamu untuk menebak
berdasarkan beberapa data yang diikuti. Dia akan melemparkan sebuah koin dua kali (kamu
tidak melihat hasilnya), dan dari setiap lemparan dia akan melaporkan θ+1 jika kepala
muncul, atau θ−1 jika yang lainnya. Karena data x1dan x2 adalah sampel dari sebuah
distribusi yang mempunyai probabilitas 0.5 dalam θ−1 atau θ+1. Sebagai contoh, dia boleh
melaporkan x1=5da nx 2=5.
Tebakan yang diikuti akan mempunyai probabilitas kebenaran 75%:
C ( x 1, x2 )={12
( x 1+ x2 ) jika x1 ≠ x 2
x 1−1 jika x1= x2
Menurut standar logic dari prosedur kepercayaan, tebakan di atas mempunyai 75% ‘tingkat
kepercayaan’. Tapi jika x1≠ x2 kita seharusnya menjadi ‘keyakinan 100%’ bahwa tebakan
adalah benar, lainnya kita hanya ‘keyakinan 50%’. Itu akan menjadi mustahil untuk menuntut
bahwa dalam observasi x1 ≠ x2 kamu hanya mempunyai kepercayaan 75% dalam
{( x 1+x 2 ) /2}. Pendekatan likelihood murni akan mencocokkan arti biasa: laporan pada setiap
observasi { x1 , x2 } bahwa ketidakpastian mengenai θ. Jangan mengatakan apapun,
bagaimanapun, tentang long-term probabilitas dari kebenaran.
2.7 Standard error and Wald statistic
Dalam kasus dimana sebuah kuadratik kepercayaan dari log-likelihood bekerja baik
dan I (θ̂) menjadi berarti, kita mempunyai
L(θ)L(θ̂)
= - 12I (θ̂) (θ – θ̂)2
Jadi interval likelihood {θ , L(θ)L(θ̂)
>c} kira-kira
θ̂ ±√−2 logc x I (θ̂)−12 .
Contoh: dalam contoh binomial dengan n=10 dan x=8 kuadratik perkiran adalah lemah.
Standar error dari θ̂ adalah I (θ̂ )−1 /2=1 /√62.5 ,=0.13 , jadi wald 95% Cl adalah
0.8 ± 1.96/√62.5 ,
Diberikan 0.55<θ<1.05, jelas tidak tepat. Untuk n=100 standar error untuk θ̂ adalah
I (θ̂ )−1 /2=1 /√62.5 ,=0.04 , disini kita mempunyai perkiraan kuadratik yang baik, dengan
Wald 95% Cl
0.8 ± 1.96/√62.5
Atau 0.72 <θ<0.88 , bandingkan dengan 0.72 <θ<0.87 dari likelihood eksak.
2.8 Invariance Principle
Dalam contoh binomial dengan n = 10 dan x = 8, rasio likelihood dari θ1 = 0,8
melawan θ2 = 0,3 adalah
L(θ1=0,8)L(θ1=0,8)
= θ1
8
θ28(1−θ 1)2
(1−θ 2)2 = 208.7,
Diberikan data θ=0,8tentang 200 kali mungkin lebih dari θ = 0,3.
Kita dapat mengekspres θdalam skala sebagai berikut
φ ≡ log {θ /(1−θ)}
Lalu ‘secara kebetulan’ informasi relatif kita tentang φ1 = log (0.8/0.2) = 1.39 melawanφ2 =
log (0.3/0.7) = -0.85 seharusnya menjadi
L¿ (φ1 )L¿ (φ2 )
= L(θ)L(θ̂)
=208.7 .
Adalah, informasi kita seharusnya menjadi invarian ke pilihan dari parameter.
Ini bukan kasus dalam perumusan Bayesian. Maksudnya θ mempunyai sebuah ‘tanpa
keterangan’ f (θ ¿=1; adalah sebagai berikut
f (φIx) = f (θ(φ)Ix) x |∂θ∂ φ|
= f (θ(φ)Ix) eφ
(1+e¿¿φ)2 ¿
2.9 Practical implications of invariance principle
Computing the likelihood of new parameters
Graph dari likelihood φ adalah sebagai berikut:
{φ , L¿(φ)}={g (θ ) , L(g(θ))}
= {g (θ ) , L(θ)}
Jika g (θ ) bukan satu ke satu kita perlu sedikit tehnik modifikasi. Dalam bentuk
umum
L¿(φ ¿ = max {θ , g (θ )=φ}L(θ ¿ .
Invariance property of the MLE
Teorema 2.1 jika θ̂adalah MLE dari θ dan g (θ ) adalah sebuah fungsi dari θ, maka g ¿)
adalah MLE dari g (θ ) .
BAB 3
MORE PROPERTIES OF THE LIKELIHOOD
3.1 Sufficiency (Kecukupan)
Defenisi : sebuah statistik T(X) adalah cukup untuk θ dalam sebuah eksperimen E jika
semua informasi relevan dan terbuat dalam data mengenai θ. Hal ini benar untuk setiap
estimasi U ( x ) , distribusi dari U ( x ) memberikan T (x) bebas di θ.
Teorema: T(X) adalah cukup untuk θ dalam sebuah eksperimen E jika dan hanya jika model
pθ ( x )=g (t ( x ) ,θ )h ( x ) ,
Dimana h(x) adalah bebas pada θ
Contoh: Misalkan x1 , , , , , xnadalah sampel dari N (μ ,σ2) dan misalkan θ=(μ , σ2).
Densitasnya adalah
pθ ( x )=(2 π θ2)−n/2exp {−12σ2 ∑
i(xi−μ)2}
=(2 π θ2)−n /2 exp{−∑i
xi2
2σ 2 +μ∑
ixi
σ2 −nμ2
2 σ 2 }(a) Jika σ 2 diketahui ∑
ixi cukup untuk μ;
(b) Jika μ diketahui ∑i
(xi−μ)2 cukup untuk σ 2
(c) Jika ( μ , σ2 ) tidak diketahui (∑i
xi ,∑i
xi2) cukup
Diketahui (∑i
xi ,∑i
xi2) cukup artinya bahwa sisa dari informasi data tidak bertambah lagi
tentang ( μ , σ2 ). Jika normalitas ditetapkan, ini berarti kita hanya perlu menjaga (
∑i
xi ,∑i
xi2) untuk analisis lebih lanjut.
3.2 Minimal sufficiency
Definisi: Sebuah sufficient statistik T(X) adalah minimal sufficient jika itu adalah sebuah
dari beberapa sufficient statistik lainnya.
Jika t adalah beberapa fungsi dari data x, likelihood berdasarkan pada x adalah sama
sebagai likelihood di antara x dan t. Jadi, jika t sufisien
L (θ ;x )=L (θ ; x ,t )=pθ ( x , t )=pθ ( t ) p { x|t }
= constant x pθ ( t )
= constant x L (θ ;t ),
Artinya bahwa L (θ ;x ) dapat dihitung berdasarkan pada t itu sendiri.
Untuk setiap pilihan dari θ0,
t ( x )= L(θ ;x )L(θ0; x)
Adalah sufisien. Untuk membuktikan ini, kita menggunakan teorema faktorisasi oleh definisi
g (t , θ )= L(θ ; x)L(θ0; x )
Dan h ( x )=L(θ0; x ).
Teorema: Jika T adalah sufisien untuk θ dalam sebuah eksperimen E maka likelihood dari θ
berdasarkan pada keseluruhan data x adalah sama berdasarkan pada T itu sendiri. Oleh
karena itu, fungsi likelihood adalah minimal sufisien.
Monotone likelihood ratio property
Pendekatan θ1 ke θ0,
L(θ1)L(θ0)
=L (θ0 )+L' (θ0 )(θ1−θ0)
L(θ0)
¿1+∂ log L (θ0)
∂ θ0(θ1−θ0 ) ,
3.3 Multiparameter models
Diberikan data , likelihoodnya adalah
L (θ )=p0(x )
Dimana p0(x ) adalah probabilitas dari data observasi.
Nilai fungsi turunan vektor pertama
S (θ )= ∂∂ θ
log L (θ ) ,
Dan MLE θ̂ solusi dari nilai persamaan S (θ )=0.
log L(θ)≈ log L (θ̂ )+S ( θ̂ ) (θ− θ̂ )−12
(θ−θ̂ ) ' I (θ̂ ) ( θ−θ̂ )
¿ log L (θ̂ )−12
( θ−θ̂ )' I (θ̂ )(θ−θ̂)