Click here to load reader
Anggota Kelompok:
Indah Sri Utami (12804241042)
Febrika Nurtiyas (12804241043)
TEORI PERMAINAN DAN PERILAKU STRATEGIS
Teori Permainan dipelopori Jhon Vonn Neumann ( ahli Matematika) dan Oskar
Morgestern (ahli ekonomi) pada tahun 1944 Teori Permainan berkaitan dengan strategi terbaik
atau optimum dalam berbagai situasi Konflik.
Teori Permainan adalah bagaimana perusahaan oligopolistik membuat keputusan strategis
untuk memperoleh keunggulan kompetetif atas pesaingnya, atau bisa memperkecil ancaman
potensial akibat langkah strategis pesaingnya,
Model Teori Permainan terdiri dari pemain, strategi, dan ganjaran.
Pemain (Player)
Pembuat keputusan, yaitu para manajer perusahaan oligopolis.
Strategi (Strategy)
Pilihan untuk mengubah harga, mengembangkan produk baru, melakukan kampanye iklan,
membangun kapasitas baru, dan tindakan lainnya yangmemengaruhi penjualan dan tingkat laba
perusahaan serta pesaingnya.
Ganjaran (Payoff)
Hasil atau konsekuensi dari setiap pilihan strategi, yang dinyatakan dalam laba atau rugi
Tabel yang mencantumkan ganjaran dari semua strategi yang mungkin dilakuan suatu
perusahaan dan reaksi yang mungkin diberi pesaingnya disebut matriks ganjaran (payoff
matrix).
Permainan
Permainan berjumlah nol (zero-sum game)
Permainan dimana keuntungan salah satu pemain merupakan akibat dari pengeluaran dan
keuntungan, secara persis seimbang dengan pemain lainnya. (contoh : jika perusahaan A
meningkatkan harganya sedangkanperusahaan B tidak, perusahaan A mungkin akan kehilangan
pangsa pasar yang beralihke perusahaan B). Keuntungan satu pemain sama dengan kerugian
pemain lainya disebutpermainan berjumlah nol.
Jika keuntungan atau kerugian salah satu perusahaan tidak diakibatkan ole biaya
ataumemberinkan keuntungan dalam jumlah yang sama pada perusahaan lain, maka terjadi
permainan tidak berjumlah nol, yaitu bisa permainan berjumlah positif atau permainan berjumlah
negatif.
Model Teori Permainan terdiri dari pemain, strategi, dan ganjaran.
Pemain (Player)
Pembuat keputusan, yaitu para manajer perusahaan oligopolis.
Strategi (Strategy)
Pilihan untuk mengubah harga, mengembangkan produk baru, melakukan kampanye iklan,
membangun kapasitas baru, dan tindakan lainnya yangmemengaruhi penjualan dan tingkat laba
perusahaan serta pesaingnya.
Ganjaran (Payoff)
Hasil atau konsekuensi dari setiap pilihan strategi, yang dinyatakan dalam laba atau rugi
Tabel yang mencantumkan ganjaran dari semua strategi yang mungkin dilakuan suatu
perusahaan dan reaksi yang mungkin diberi pesaingnya disebut matriks ganjaran (payoff
matrix).
Permainan
Permainan berjumlah nol (zero-sum game)
Permainan dimana keuntungan salah satu pemain merupakan akibat dari pengeluaran dan
keuntungan, secara persis seimbang dengan pemain lainnya. (contoh : jika perusahaan A
meningkatkan harganya sedangkanperusahaan B tidak, perusahaan A mungkin akan kehilangan
pangsa pasar yang beralihke perusahaan B). Keuntungan satu pemain sama dengan kerugian
pemain lainya disebutpermainan berjumlah nol.
Jika keuntungan atau kerugian salah satu perusahaan tidak diakibatkan ole biaya
ataumemberinkan keuntungan dalam jumlah yang sama pada perusahaan lain, maka terjadi
permainan tidak berjumlah nol, yaitu bisa permainan berjumlah positif atau permainan berjumlah
negatif.
Strategi Dominan dan Keseimbangan Nash
Keseimbangan Nash adalah sebuah situasi ketika setiap pemain memilih strategi
optimumnya, untuk menghadapi strategi yang telah dilakukan oleh pemain lainnya.
Keseimbangan strategi dominan adalah selalu merupakan keseimbangan nash, tetapi
keseimbangan nash tidak memerlukan keseimbangan strategi dominan.
Tabel 1. Matriks ganjaran untuk Permainan Pemasangan iklan
Perusahaan B
Pasang iklan Tidak pasang iklan
Perusahaan A Pasang iklan (4,3) (5,1)
Tidak (2,5) (3,2)
Nomor pertama setiap elemen merupakan ganjaran(laba) bagi perusahaan A
Nomor kedua setiap elemen merupakan ganjaran(laba) bagi perusahaan B
Strategi yang harus dipilih setiap perusahaan :
Perusahaan A :
Jika perusahaan B memasang iklan ; laba perusahaan A adalah 4 jika memasang iklan dan 2
jika tidak memasang iklan maka perusahaan A harus memasang iklan jika perusahaan B
memasang iklan. Jika perusahaan B tidak memasang iklan, laba perusahaan A adalah 5 jika
memasang iklan, dan 3 jika tidak memasang iklan. Memasang iklan adalah strategi yang
dominan untuk perusahaan A.
Perusahaan B : Apapun yang dilakukan perusahaan A (memasang iklan atau tidak), akan
lebih menguntungkan untuk perusahaan B jika memasang iklan.
Perusahaan A dan B memiliki strategi dominan memasang iklan dan menjadi keseimbangan
akhir.
Keseimbangan Nash
Perusahaan B
Pasang iklan Tidak pasang iklan
Perusahaan A Pasang iklan (4,3) (5,1)
Tidak (2,5) (6,2)
Strategi dominan pada perusahaan B adalah memasang iklan, tidak peduli apakah perusahaan A
memasang iklan atau tidak.
Perusahaan A tidak memiliki strategi dominan. Alasannya jika perusahaan B memasangiklan,
perusahaan A akan memperoleh laba 4 jika memasang iklan dan 2 jika tidak.Jadi jika
perusahaan B memasang iklan, maka perusahaan A juga harus beriklan.
Disisi lain, jika perusahaan B tidak beriklan, laba perusahaan A adalah 5 jika beriklandan 6 jika
tidak beriklan. Jadi perusahaan A harus memasang iklan jika perusahaan Bmemasang iklan dan
tidak memasang iklan jika perusahaan A tidak memasang iklansehingga perusahaan A tidak
memiliki strategi dominan.
Agar perusahaan A bisa menentukan memasang iklan atau tidak, terlebih dahulu perusahaan A
harus menunggu apa yang dilakukan oleh perusahaan B. Strategi yang optimum bagi perusahaan
A adalah juga memasang iklan disebut keseimbangan Nash.
Perilaku Strategis dan Teori Permainan
Teori Permainan dipelopori Jhon Vonn Neumann ( ahli Matematika) dan Oskar
Morgestern (ahli ekonomi) pada tahun 1944 Teori Permainan berkaitan dengan strategi terbaik
atau optimum dalam berbagai situasi Konflik.
Perilaku strategis (strategic behavior) mengcu kepada rencana kerja atau perilaku seorang
oligopolis, setelah mempertimbangkan semua reaksi yang mungkin dilakukan oleh para
pesaingnya selama adanya persaingan di antara mereka untuk memperoleh laba dan keuntungan
lainnya
Teori permainan (game theory) berkaitan dengan strategi terbaik atau optimum dalam
berbagai situasi konflik. Teori permainan memperlihatkan bagaimana perusahaan oligopolistik
membuat keputusan strategis untuk memperoleh keunggulan kompetitif atas pesaingnya, atau
bagaimana perusahaan oligopolistik bisa memperkecil ancaman potensial akibat langkah
strategis pesaingnya.
Setiap model teori permainan terdiri atas pemain, strategi dan ganjaran. Pemain adalah
para pembuat keputusan (para manajer) yang perilakunya akan berusaha kita jelaskan dan
ramalkan. Strategi adalah pilihan untuk mengubah harga, mengembangkan produk baru,
melakukan kampanye iklan, membangun kapasitas baru, dan tindakan serupa lainnya yang
mempengaruhi penjualan dan tingkat laba perusahaan serta pesaingnya. Ganjaran adalah hasil
atau konsekuensi dari setiap pilihan strategis.
Permainan berjumlah nol adalah permaianan dimana keuntungan salah satu pemain
merupakan akibat dari pengeluaran dan keuntungan ini secara persis seimbang dengan kerugian
pemain lainnya.
Namun jika keuntungan atau kerugian salah satu perusahaan tidak diakibatkan oleh biaya
atau memberikan keuntungan dalam jumlah yang sama peda perusahaan lain, maka melakukan
permainan tidak berjumlah nol. Misalkan kemungkinan itu muncul jika peningkatan iklan
diarahkan untuk meningkatkan laba kedua perusahaan dan menggunakan laba, bikan pangsa
pasar sebagai ganjaran, melakukan permainan berjumlah positif. Namun, jika meningkatnya
iklan memunculkan biaya lebih besar dari pada pendapatan dan laba kedua perusahaan menurun
menghadapi kasus permainan berjumlah negatif.
Persaingan Harga dan Nonharga, Kecurangan dalam Kartel, dan Dilema Tahanan
Dilema Tahanan
Dilema tahanan (DT) adalah sebuah contoh kanonis dari sebuah permainan yang dianalisa
dalam teori permainan yang memperlihatkan kenapa dua individu mungkin tidak akan bekerja
sama, bahkan jika demi kebaikan mereka sendiri untuk melakukan hal tersebut. Ia diciptakan
pada mulanya oleh Merrill Flood dan Melvin Dresher yang bekerja di RAND pada tahun
1950. Albert W. Tucker memformulasikan permainan tersebut dengan imbalan hukuman penjara
dan menamakannya dengan "dilema tahanan" (Poundstone, 1992), seperti cerita berikut:
Dua anggota geng kriminal tertangkap dan dipenjara. Setiap tahanan berada dalam ruangan
tersendiri tanpa bisa saling berbicara atau menukar pesan. Polisi mengakui bahwa mereka tidak
memiliki cukup bukti untuk menghukum pasangan tersebut. Mereka berencana menghukum
keduanya satu tahun penjara dengan dakwaan terendah. Bersamaan dengan itu, polisi
memberikan setiap tahanan sebuah penawaran Faustian. Jika salah satu dari mereka bersaksi
melawan teman mereka, ia akan dibebaskan sedangkan temannya akan dihukum tiga tahun
penjara. Jika kedua tahanan saling bersaksi, keduanya akan dihukum dua tahun penjara.
Dalam versi klasik permainan ini, kolaborasi didominasi oleh pengkhianatan; jika seorang
tahanan memilih untuk tetap diam, maka tahanan lain mendapatkan balasan lebih baik dengan
berkhianat daripada tetap diam (tanpa dihukum bukannya satu tahun penjara), tapi jika seorang
tahanan memilih untuk berkhianat, maka tahanan lain masih tetap mendapatkan imbalan yang
cukup baik dengan berkhianat juga (dua tahun bukannya tiga tahun penjara). Karena berkhianat
selalu memberikan imbalan lebih daripada berkooperasi, semua tahanan yang sepenuhnya
rasional egois akan mengkhianati yang lainnya, dan satu-satunya hasil dari dua tahanan rasional
egois adalah saling mengkhianati. Bagian yang menarik dari hasil ini adalah mengejar imbalan
individu secara logika mengarah pada kedua tahanan berkhianat, tapi mereka akan mendapatkan
imbalan yang lebih baik jika mereka saling berkooperasi. Dalam dunia nyata, manusia
memperlihatkan bias sistematis terhadap perilaku kooperatif dalam permainan ini dan permainan
yang mirip lainnya, lebih dari apa yang diprediksi oleh model sederhana dari aksi "rasional"
egoistis.
Ada juga versi "iteratif" dari permainan ini, di mana permainan klasik dimainkan terus
menerus terhadap tahanan yang sama, dan akibatnya, kedua tahanan terus menerus memiliki
kesempatan untuk menghukum yang lain berdasarkan pilihan mereka sebelumnya. Jika jumlah
permainan yang dilakukan diketahui oleh pemain, maka (dengan induksi mundur) duah tahanan
yang sepenuhnya rasional akan saling mengkhianati berulang kali, dengan alasan yang sama
pada versi klasiknya. Dalam permainan yang panjang dan tak terbatas tidak ada strategi pasti
yang optimal, dan pertandingan Dilema Tahanan telah dilakukan untuk mengadu dan menguji
algoritma-algoritma.
Dalam penggunaan sehari-hari, label "dilema tahanan" bisa diterapkan pada situasi yang
tidak harus benar-benar sama dengan kriteria formal dari permainan klasik atau iteratif:
misalnya, permainan dengan dua entitas yang bisa mendapatkan keuntungan dari berkooperasi
atau menderita dari kegagalan berkooperasi, tapi menemukannya sulit atau membutuhkan biaya
tinggi, tidak harus sesuatu yang mustahil, untuk mengkoordinasi aktivitas mereka untuk
berkooperasi.
Strategi untuk dilema tahanan klasik
Permainan yang normal diperlihatkan seperti di bawah:
Tahanan B tetap diam
(kooperasi)
Tahanan B berkhianat
(bertahan)
Tahanan A tetap diam
(kooperasi)Setiapnya dihukum 1 tahun
Tahanan A: 3 tahun
Tahanan B: bebas
Tahanan A berkhianat
(bertahan)
Tahanan A: bebas
Tahanan B: 3 tahunSetiapnya dihukum 2 tahun
Di sini, tanpa memperhatikan apa yang orang lain pilih, setiap tahanan mendapatkan
imbalan yang tinggi dari berkhianat (bertahan). Alasannya mengikutkan sebuah argumen
dengan dilema: B akan memilih berkooperasi atau bertahan. Jika B berkooperasi, A seharusnya
bertahan, karena menjadi bebas lebih baik daripada dipenjara 1 tahun. Jika B bertahan, A juga
seharusnya bertahan, karena dipenjara 2 tahun lebih baik daripada 3 tahun. Jadi pilihan manapun,
A seharusnya bertahan. Alasan yang sama juga akan memperlihatkan kenapa B juga harus
bertahan.
Sebagai contohnya, Tahanan A bisa (seperti pada tabel imbalan di atas) mengatakan bahwa
apapun yang dipilih tahanan B, tahanan A akan lebih baik bila 'berkhianat' (bertahan) daripada
tetap diam (kooperasi).
Dalam teori permainan tradisional, beberapa asumsi terbatas berlaku terhadap perilaku
tahanan. Diasumsikan bahwa keduanya memahami alur dari permainan, dan walaupun keduanya
dari anggota geng yang sama, mereka tidak memiliki loyalitas terhadap satu sama lain dan tidak
memiliki kesempatan untuk retribusi atau melakukan pembalasan di luar permainan. Yang paling
penting, interpretasi yang sangat sempit dari "rasionalitas" diterapkan dalam mendefinisikan
strategi-strategi pemilihan-keputusan dari tahanan. Dengan kondisi-kondisi dan imbalan seperti
di atas, tahanan A akan mengkhianati tahanan B. Permainan ini simetris, sehingga tahanan B
akan beraksi dengan cara yang sama. Secara keduanya "secara rasional" memilih untuk bertahan,
setiap mereka memperoleh imbalan lebih rendah daripada jika keduanya tetap diam. Teori
permainan tradisional membuat kedua pemain mendapatkan hasik yang buruk kecuali jika tiap-
tiap mereka memilih untuk mengurangi hukuman teman mereka dengan biaya memberikan
waktu lebih di penjara bagi mereka sendiri.
Bentuk umum
Struktur dari Dilema Tahanan tradisional dapat digeneralisasi dari bentuk tahanan aslinya.
Misalkan dua pemain direpresentasikan oleh warna, merah dan biru, dan setiap pemain memilih
baik itu "Kooperasi" atau "Bertahan".
Jika kedua pemain berkooperasi, mereka menerima imbalan, R, untuk kooperasi. Jika Biru
bertahan sementara Merah berkooperasi, maka Biru menerima godaan, imbalan T sementara
Merah menerima imbalan S, "si pecundang". Hal yang sama, jika Biru berkooperasi sementara
Merah bertahan, maka Biru menerima imbalan si pecundang S sementara Merah menerima
imbalan godaan, T. Jika kedua pemain bertahan, keduanya menerima hukuman imbalan P.
Hal ini bisa diekspresikan dalam b entuk normal :
Matriks imbalan DT kanonis
Kooperasi Bertahan
Kooperasi R, R S, T
Bertahan T, S P, P
dan supaya permainan dilema tahanan menjadi bentuk kuat, kondisi berikut harus berlaku
bagi imbalannya:
T > R > P > S
Hubungan imbalan R > P menyiratkan bahwa saling kooperasi lebih tinggi daripada saling
bertahan, sementara hubungan imbalan antara T > R dan P > S menyiratkan bahwa bertahan
adalah strategi dominan bagi kedua agen. Oleh karena itu, saling bertahan adalah satu-
satunya ekuilibrium Nash dalam permainan (yaitu, satu-satunya hasil dari setiap pemain dapat
lakukan lebih buruk dengan secara sepihak mengganti strategi). Dilemanya adalah saling
kooperasi mengeluarkan hasil lebih baik daripada saling bertahan tapi bukan hasil yang rasional
karena pilihan untuk berkooperasi, pada tingkat individu, bukanlah rasional dari pandangan
egoistis.
Dilema tahanan berulang
Jika dua pemain memainkan dilema tahanan lebih dari satu kali berurutan dan mereka
dapat mengingat aksi sebelumnya dari lawan mereka dan mengubah strategi mereka berdasarkan
aksi lawan, maka permainannya disebut dilema tahanan berulang (DTB).
Sebagai tambahan dari bentuk umum di atas, versi iteratif juga membutuhkan 2R > T + S,
untuk mencegah pergantian kooperasi dan bertahan memberikan imbalan lebih besar daripada
saling kooperasi.
Permainan DTB adalah dasar bagi beberapa teori-teori persekutuan dan kooperasi manusia.
Dengan asumsi bahwa permainan tersebut dapat memodelkan transaksi antara dua orang yang
membutuhkan kepercayaan, perilaku kooperatif dalam populasi bisa dimodelkan dengan versi
permainan banyak-pemain dan berulang. Hal tersebut, konsekuensinya, telah menarik banyak
ahli selama beberapa tahun. Di tahun 1975, Grofman dan Pool memperkirakan jumlah artikel
ilmiah yang ditujukan untuk ini lebih dari 2.000. Dilema tahanan berulang juga telah disebut
sebagai "Permainan perang-damai".
Jika permainan dimainkan pasti N kali dan kedua pemain mengetahui hal tersebut, maka
secara teoritis optimasi permainan adalah bertahan di semua ronde. Satu-satunya
kemungkinan ekuilibrium Nash adalah untuk selalu bertahan. Pembuktiannya adalah induktif:
salah seorang pemain bisa bertahan pada akhir permainan, karena lawan tidak memiliki
kesempatan untuk menghukum pemain. Oleh sebab itu, keduanya akan bertahan pada ronde
terakhir. Maka, pemain tentunya juga akan bertahan pada ronde kedua terakhir, karena lawan
pada akhirnya akan bertahan walau apapun yang terjadi, dan seterusnya. Hal yang sama berlaku
jika lama permainan tidak diketahui tapi memiliki batas atas yang diketahui.
Tidak seperti dilema tahanan biasa, dalam DTB strategi bertahan adalah kontra-intuitif dan
gagal memprediksi perilaku dari pemain manusia. Dalam teori ekonomi biasa, bagaimanapun,
hal ini merupakan satu-satunya jawaban yang benar. Strategi superrasional dalam DTB
dengan N tetap adalah untuk berkooperasi melawan lawan yang superrasional, dan dengan
batasN yang besar, hasil percobaan dari strategi-strategi sesuai dengan versi superrasional, bukan
dengan teori permainan rasional.
Supaya kooperasi muncul antara pemain dalam permainan teoritis rasional, jumlah
ronde N haruslah acak, atau tidak diketahui oleh pemain. Dalam kasus ini 'selalu bertahan' bukan
lagi strategi dominan, hanya sebuah ekuilibrium Nash. Di antara hasil-hasil yang diperlihatkan
oleh Robert Aumann di sebuah makalah tahun 1959, pemain rasional yang berulang kali
berinteraksi dalam permainan yang panjang tak terbatas dapat mengalami hasil kooperatif.
Strategi bagi dilema tahanan berulang
Ketertarikan pada DTB disulut oleh Robert Axelrod dalam bukunya The Evolution of
Cooperation (1984). Dalam buku tersebut dia melaporkan sebuah turnamen yang diorganisirnya
lewat N langkah dilema tahanan (dengan N tetap) dengan setiap partisipan harus memilih strategi
mutual mereka lagi dan lagi, dan memiliki ingatan akan pilihan lawan sebelumnya. Axelrod
mengundang teman-teman akademis seluruh dunia untuk merancang strategi komputer untuk
berkompetisi dalam turnamen DTB. Program-program yang diajukan memiliki keragaman
kompleksitas algoritma, sikap permusuhan awal, kapasitas untuk memaafkan, dan seterusnya.
Axelrod menemukan bahwa saat turnamen tersebut diulang selama waktu yang lama
dengan banyak pemain, setiapnya dengan strategi yang berbeda, strategi tamak condong kurang
baik dalam jangka panjang sementara strategi altruistik malah lebih baik, dinilai murni dari
keegoisan. Dia menggunakan hal ini untuk memperlihatkan mekanisme yang memungkinan bagi
evolusi perilaku altruistik dari mekanisme yang awalnya murni egois, dengan seleksi alam.
Strategi deterministik yang menang adalah tit untuk tat, yang Anatol
Rapoport kembangkan dan ajukan untuk turnamen. Ia adalah program paling sederhana, hanya
memiliki empat baris kode BASIC, dan memenangkan kontes. Strateginya secara sederhana
berkooperasi pada iterasi pertama permainan; setelah itu, pemain melakukan apa yang lawannya
lakukan sebelumnya. Bergantung pada situasi, strategi yang sedikit lebih baik adalah "tit untuk
tat dengan memaafkan." Saat lawan bertahan, pada ronde selanjutnya, si pemain terkadang tetap
berkooperasi, dengan probabilitas kecil (sekitar 1-5%). Hal ini membolehkan pemulihan tak
berkala dari terperangkap dalam lingkaran bertahan. Probabilitas pastinya bergantung pada
lawan.
Dengan menganalisa strategi-strategi top-skor, Axelrod menyatakan beberapa kondisi
diperlukan bagi sebuah strategi untuk sukses.
Baik
Kondisi paling penting yaitu strategi haruslah "baik", yakni, ia tidak akan bertahan sebelum
lawannya bertahan (hal ini terkadang disebut juga dengan algoritma "optimistik"). Hampir semua
strategi top-skor adalah baik; oleh karena itu, strategi yang murni egois tidak akan "menipu"
lawannya, murni karena alasan egoistis.
Balas dendam
Namun, Axelrod berpendapat, strategi yang sukses haruslah tidak optimis buta. Ia
terkadang harus balas dendam. Salah satu contoh strategi tanpa-pembalasan adalah Selalu
Kooperasi. Hal ini adalah pilihan yang buruk, karena strategi-strategi yang "keji" akan
mengeksploitasi pemain seperti itu.
Memaafkan
Strategi yang sukses juga harus memaafkan. Walau pemain akan membalas dendam,
mereka nantinya akan kembali berkooperasi jika lawan tidak terus bertahan. Hal ini
menghentikan balas dendam yang berkepanjangan, memaksimalkan poin.
Tidak iri
Kualitas terakhir adalah menjadi tidak iri, yaitu tidak mencoba mendapatkan nilai lebih
dari lawan (perlu diingat bahwa strategi "baik" tidak pernah memperoleh nilai lebih dari lawan).
Strategi optimal untuk DT untuk sekali main adalah bertahan; seperti yang dijelaskan di
atas, hal ini benar apapun komposisi dari lawan yang terjadi. Namun, dalam permainan DTB
strategi optimal bergantung kepada strategi dari lawan, dan bagaimana mereka bereaksi terhadap
bertahan dan kooperasi. Sebagai contohnya, bayangkan sebuah populasi yang setiap orang selalu
bertahan, kecuali satu yang menggunakan strategi tit-untuk-tat. Individu tersebut sedikit
dirugikan karena kalah pada giliran pertama. Dalam populasi tersebut, strategi optimal bagi
individu tersebut adalah untuk selalu bertahan. Dalam sebuah populasi dengan sejumlah
persentase selalu-bertahan dan sisanya pemain tit-untuk-tat, strategi optimal bagi seorang
individu bergantung kepada persentase selalu-bertahan, dan lama permainan.
Dalam strategi yang dikenal dengan Pavlov, menang-tinggal, kalah-ganti, jika ronde
terakhir menghasilkan P,P, pemain Pavlov berganti strategi di giliran selanjutnya, yang
berarti P,P akan dianggap sebagai sebuah kegagalan utuk berkooperasi. Untuk beberapa rentang
parameter, Pavlov mengalahkan strategi lainnya dengan memberikan perlakuan istimewa bagi
pemain lain yang mirip Pavlov.
Menurunkan strategi optimal secara umum dilakukan dengan dua cara:
1. Ekuilibrium Nash Bayesian : Jika distribusi statistik dari strategi lawan dapat ditentukan
(misalnya 50% tit-untuk-tat, 50% selalu kooperasi) sebuah kontra-strategi optimal dapat
diturunkan secara analitis.
2. Simulasi populasi Monte Carlo telah dilakukan, yang mana individu dengan nilai rendah
mati, dan yang bernilai tinggi bereproduksi (sebuah algoritma genetis untuk menemukan
strategi optimal). Campuran dari algoritma pada populasi akhir pada umumnya bergantung
pada campuran pada populasi awal. Munculnya mutasi (variasi acak selama reproduksi)
mengurangi kebergantungan pada populasi awal; percobaan empiris untuk sistem seperti itu
condong menghasilkan pemain dengan tit-untuk-tat (lihat contohnya Chess 1988), tapi tidak
ada bukti analitis bahwa ini akan selalu terjadi.
Walaupun tit-untuk-tat dianggap sebagai strategi dasar paling kuat, sebuah tim
dari Universitas Southampton di Inggris (dipimpin oleh Profesor Nicholas Jennings dan terdiri
dari Rajdeep Dash, Sarvapali Ramchurn, Alex Rogers, Perukrishnen Vytelingum) mengenalkan
sebuah strategi baru pada peringatan ke-20 kompetisi DTB, yang membuktikan lebih sukses
daripada tit-untuk-tat. Strategi ini bergantung pada kooperasi antara program untuk mendapatkan
poin tertinggi untuk sebuah program tunggal. Universitas tersebut mengajukan 60 program untuk
kompetisi, yang dirancang untuk mengenali satu sama lain lewat sekumpulan lima sampai
sepuluh gerakan pada saat mulai. Sekali dikenali, satu program akan selalu kooperasi dan yang
lainnya akan bertahan, memastikan jumlah poin maksimal bagi yang bertahan. Jika program
tersebut menyadari bahwa ia bermain dengan pemain bukan dari Southampton, ia akan terus
menerus bertahan supaya meminimalkan nilai dari program lawan. Sebagai hasilnya, strategi
tersebut berakhir mendapatkan posisi tiga teratas dalam kompetisi, sebagaimana juga sejumlah
posisi terendah.
Strategi ini mengambil keuntungan dari fakta bahwa beberapa entri dibolehkan dalam
kompetisi tersebut dan performansi dari sebuah tim dihitung dari pemain dengan nilai tertinggi
(yang berarti bahwa penggunaan pemain yang rela berkorban merupakan sebuah bentuk
dari minmaxing). Dalam sebuah kompetisi dengan seseorang hanya bisa mengatur satu pemain
saja, tit-untuk-tat sudah pasti strategi yang lebih baik. Karena aturan yang baru ini, kompetisi ini
juga memiliki sedikit signifikansi teoritis saat menganalisa strategi-strategi agen tunggal
dibandingkan dengan turnamen Axelrod. Namun, ia menyediakan kerangka kerja untuk
menganalisa bagaimana mendapatkan strategi-strategi kooperatif dalam kerangka kerja multi-
agen, terutama dengan adanya kekacauan. Pada kenyataannya, jauh sebelum aturan baru dari
turnamen ini dimainkan,Richard Dawkins dalam bukunya The Selfish Gene menunjukkan
kemungkinan strategi tersebut menang jika beberapa entri dibolehkan, tapi ia mengatakan bahwa
kemungkinan Axelrod tidak akan membolehkannya jika mereka telah diajukan. Ia juga
bergantung pada aturan-aturan yang melingkupi dilema tahanan yang mana komunikasi tidak
dibolehkan antara dua pemain. Saat program Southampton sedang melakukan "tarian sepuluh
gerakan" untuk mengenali yang lainnya, hal ini hanya menguatkan bagaimana bernilainya
komunikasi dalam mengubah keseimbangan dalam permainan.
Dilema tahanan berulang berkelanjutan
Kebanyakan pekerjaan dalam DTB telah berfokus pada kasus diskrit, dengan pemain bisa
kooperasi atau bertahan, karena model tersebut relatif lebih mudah untuk dianalisa. Namun,
beberapa peneliti telah melihat model-model dari DTB berkelanjutan, dengan pemain yang
mampu membuat sejumlah kontribusi ke pemain lainnya. Le dan Boyd menemukan bahwa
dalam situasi tersebut, kooperasi lebih sulit berkembang dibandingkan dalam DTB terbatas.
Intuisi dasar dari hasil ini adalah sederhana: dalam sebuah dilema tahanan berkelanjutan, jika
sebuah populasi berawal dalam ekuilibrium non-kooperatif, pemain yang secara marjinal lebih
kooperatif daripada non-kooperator mendapatkan sedikit keuntungan dari berpasangan dengan
yang lainnya. Sebaliknya, dalam dilema tahanan terbatas, pemain tit-untuk-tat mendapatkan
kenaikan imbalan yang besar berpasangan dengan satu sama lain dalam ekuilibrium non-
kooperatif, relatif terhadap non-kooperator. Karena alam bisa dikatakan memberikan kesempatan
lebih bagi variabel kooperasi daripada sebuah dikotomi ketat dari kooperasi atau bertahan,
dilema tahanan berkelanjutan bisa membantu menjelaskan kenapa contoh-contoh dunia nyata
dari kooperasi seperti tit-untuk-tat sangat jarang sekali di alam (ex. Hammerstein ) walaupun tit-
untuk-tat tampak lebih kuat dalam model-model teoritis.
Contoh-contoh dunia nyata
Contoh-contoh khusus berikut, mengikutkan tahanan dan pergantian kantong dan
seterusnya, mungkin tampak dibuat-buat, tapi pada kenyataannya banyak contoh dalam interaksi
manusia seperti halnya interaksi dalam alam yang memiliki matriks imbalan yang sama. Dilema
tahanan oleh sebab itu menarik bagi ilmu sosial seperti ekonomi, politik, dan sosiologi, dan juga
pada ilmu biologi seperti etologi dan biologi evolusioner. Banyak proses-proses alamiah telah
diabstraksikan menjadi model-model yang mana makhluk hidup melakukan permainan tanpa
akhir dari dilema tahanan. Luasnya penerapan dari dilema tahanan memberikan permainan
tersebut kepentingan yang besar.
Iklan terkadang disebut sebagai contoh nyata dari dilema tahanan. Saat Iklan rokok masih
legal di A.S., pabrik rokok harus menentukan berapa banyak uang yang dikeluarkan untuk iklan.
Efektifitas dari iklan Perusahaan A sebagian ditentukan oleh iklan yang dilakukan oleh
perusahaan B. Begitu pula, profit yang didapat dari iklan untuk perusahaan B dipengaruhi oleh
iklan yang dilakukan perusahaan A. Jika kedua perusahaan, A dan B, memilih untuk beriklan
pada waktu tertentu maka iklan dibatalkan, pemasukan tetap konstan, dan pengeluaran
meningkat karena biaya iklan. Kedua perusahaan akan diuntungkan dari reduksi beriklan.
Namun, bila Perusahaan B harus memilih untuk tidak beriklan, Perusahaan A bisa diuntungkan
oleh iklan. Meskipun demikian, jumlah optimal dari iklan oleh satu perusahaan bergantung pada
berapa banyak iklan oleh yang lain lakukan. Karena strategi terbaik bergantung pada apa yang
perusahaan lain pilih, tidak ada strategi dominan, yang membuatnya sedikit berbeda dengan
dilema tahanan. Hasilnya sama, bagaimanapun juga, bahwa kedua perusahaan akan lebih baik
jika mereka beriklan lebih sedikit dari ekuilibrium. Terkadang perilaku kooperatif muncul dalam
situasi bisnis. Sebagai contohnya, pabrik-pabrik rokok mendukung pembuatan undang-undang
melarang iklan rokok, mengetahui bahwa hal ini akan mengurangi biaya dan meningkatkan
profit.
Tanpa persetujuan yang terpaksa, anggota dari sebuah kartel juga ikut dalam suatu dilema
tahanan (banyak-pemain). Kooperasi' biasanya berarti menjaga harga pada tingkat minimum
yang sebelumnya disetujui. 'Bertahan' berarti menjual pada tingkat minimum, langsung
mengambil bisnis (dan profit) dari anggota kartel lainnya. Pihak berwenang anti-
monopolimenginginkan anggota kartel untuk saling bertahan, menjaga harga terendah yang
memungkinkan bagi konsumer.
Permainan yang berkaitan
Bertukar tas-tertutup
Hofstadter adalah yang pertama menyarankan bahwa orang terkadang menemukan
permasalahan seperti masalah DT mudah untuk dipahami bila digambarkan dalam bentuk
permainan sederhana, atau imbalan. Salah satu dari beberapa contoh yang dia gunakan adalah
"bertukar tas tertutup":
Dua orang bertemu dan bertukar tas yang tertutup, dengan mengetahui bahwa salah satu
darinya berisi uang, dan yang lainnya berisi barang. Kedua pemain bisa memilih menghormati
persetujuan tersebut dengan mengisi tas mereka dengan apa yang telah disetujui, atau mereka
bisa bertahan dengan mengosongkan isi tas mereka.
Dalam permainan ini, bertahan adalah pilihan terbaik, menyiratkan bahwa agen yang
rasional tidak akan pernah bermain. Namun, dalam kasus ini kedua pemain berkooperasi dan
bertahan hasilnya sama saja, dengan asumsi tidak ada manfaat dari dagang, sehingga kesempatan
untuk saling kooperasi, bahkan dalam permainan berulang, sangat sedikit.
Friend or Foe? (Teman atau Musuh?)
Friend or Foe? adalah sebuah permainan yang disiarkan sejak tahun 2002 sampai 2005
di Game Show Network di A.S.. Ia merupakan contoh dari permainan dilema tahanan yang diuji
pada orang, tapi dalam pengaturan artifisial. Dalam acara tersebut, tiga pasang orang
berkompetisi. Saat sepasang dieliminasi, mereka memainkan sebuah permainan yang mirip
dengan dilema tahanan untuk menentukan bagaimana hasil kemenangan dibagikan. Jika
keduanya berkooperasi (Friend), mereka membagi hasil 50-50. Jika salah satu berkooperasi dan
yang lainnya bertahan (Foe), yang bertahan mendapatkan semua hadiah dan yang berkooperasi
tidak mendapatkan apapun. Jika keduanya bertahan, keduanya tidak mendapatkan apapun.
Perhatikan bahwa matriks imbalannya sedikit berbeda dari standar seperti di atas, karena imbalan
untuk kasus "keduanya bertahan" dan "kooperasi dan lawan bertahan" adalah identik. Hal ini
membuat kasus "keduanya bertahan" sebagai ekuilibrium lemah, dibandingkan dengan
ekuilibrium ketat pada dilema tahanan standar. Jika anda tahu lawan anda akan memilih Foe,
maka pilihan anda tidak mempengaruhi kemenangan anda. Dalam makna lainnya, Friend or
Foe memiliki model imbalan antara dilema tahanan dan permainan Ayam.
Matriks imbalannya adalah:
Kooperasi Bertahan
Kooperasi 1, 1 0, 2
Bertahan 2, 0 0, 0
Matriks imbalan tersebut juga telah digunakan dalam program televisi Britis Trust
Me, Shafted, The Bank Job, dan Golden Balls, dan acara-acara di A.S. seperti Bachelor
Pad dan Take It All. Data permainan dari serial Golden Balls telah dianalisa oleh tim ahli
ekonomi, yang menemukan bahwa kooperasi "sangat tinggi" untuk sejumlah uang yang cukup
berasa di dunia nyata, tapi secara komparatif rendah dalam konteks permainan.
Snowdrift berulang
Para peneliti dari Universitas Lausanne dan Universitas Edinburgh telah menyarankan
bahwa "Permainan Snowdrift Berulang" mungkin lebih dekat merefleksikan situasi sosial dunia
nyata. Dalam model ini, resiko dieksploitasi lewat bertahan lebih rendah, dan individu selalu
diuntungkan dari berkooperasi. Permainan snowdrift membayangkan dua pengemudi yang
terjebak di sisi berlawanan dari sebuah snowdrift, setiapnya diberikan pilihan untuk mencangkul
salju untuk membersihkan jalan, atau tetap di dalam mobil. Imbalan terbesar bagi pemain didapat
dari meninggalkan lawan dengan membersihkan salju secara sendiri, tapi lawan masih tetap
diberi imbalan bagi kerja mereka.
Hal ini mungkin lebih merefleksikan skenario dunia nyata, para peneliti memberikan
contoh dua orang ilmuwan berkolaborasi dalam sebuah laporan, keduanya bisa diuntungkan jika
yang lain bekerja keras. "Tapi jika teman kerja anda tidak melakukan kerja apapun, maka lebih
baik bagi anda untuk mengerjakannya sendiri. Anda akan tetap berakhir dengan sebuah proyek
yang selesai." [21]
Contoh imbalan Snowdrift (A, B)
A kooperasi A bertahan
B kooperasi 200, 200 300, 100
B bertahan 100, 300 0, 0
Contoh Imbalan (A, B)
A kooperasi A bertahan
B kooperasi 200, 200 300, −100
B bertahan −100, 300 0, 0
Persaingan Harga dan Dilema Tahanan
Konsep dilema tahanan dapat digunakan untuk menganalisis persaingan harga dan
nonharga dalam pasar oligopolistik, selain juga dalam hal kecenderungan untuk berbuat curang
(yaitu, untuk secara diam-diam mengurangi harga atau menjual lebih banyak dari kuota) di
dalam kartel. Persaingan harga oligopolistik yang terjadi bersamaan dengan situasi dilema
tahanan.
Perusahaan mengalami dilema tahanan apabila setiap perusahaan akan menentukan harga
lebih rendah dan memperoleh laba yang lebih kecil karena jika menentukan harga tinggi,
perusahaan tersebut tidak bisa mempercayai bahwa pesaingnya juga akan menentukan harga
yang mahal.
Persaingan Nonharga, Kecurangan dalam Kartel dan Dilema Tahanan
Meskipun mtriks ganjaran digunakan untuk mengkaji persaingan harga oligopolistik dalam
menghadapi dilema tahanan, dengan hanya mengganti judul masing-masing kolom dan baris
matriks itu, dapat menggunakan matriks yang sama untuk membahas persaingan nonharga dan
kecurangan dalam kartel.
Namun demikian, semakin besar jumlah anggota kartel dan semakin banyak produk yang
berbeda, semakin sulit bagi kartel untuk melakukan pengawasan dan mencegah terjadinya
kecurangan.
Konsep dilema tahanan dapat digunakan untuk menganalisis persaingan harga dannon
harga dalam pasar oligopolistik, juga kecenderungan berbuat curang (secara diam-diam
mengurangi harga atau menjual lebih banyak dari kuota)
Tabel 3. Matriks gambaran untuk permainan penentuan harga
Perusahaan B
Harga rendah Harga tinggi
Perusahaan A Harga rendah (2,2) (5,1)
Harga tinggi (1,5) (3,3)
Perusahaan A harus menentukan strategi dominannya untuk menentukan harga rendah
Jika perusahaan bekerja sama menentukan harga yang lebih tinggi maka keduanya memperoleh
laba masing-masin 3. Kedua perusahaan mengalami dilema tahanan. (kemungkinan perusahaan
pesaingberlaku curang).
Permainan yang Berulang-ulang dan Strategi Tit-For-Tat
Dalam permainan yang berulang-ulang (repeated games- yaitu permainan yang melibatkan
banyak gerakan dan juga gerakan berbalasan dari setiap pemain), strategi terbaik bagi setiap
pemain adalah tit-for-tat. Perilaku satu-dibalas-satu (tit-for-tat) ditemukan secara konsisten
sebagai strategi yang terbaik (artinya, strategi yang menghasilkan manfaat terbesar)bagi setiap
permain sejalan dengan berjalannya waktu.
Namun demikian, agar strategi dapat berfungsi dengan baik maka beberapa kondisi harus
terpenuhi. Diperlukan sekumpulan pemain yang stabil Jumlah pemain harus
sedikit. Diasumsikan bahwa setiap perusahaan dapat dengan cepat mendeteksi kecurangan yang
bisa berlangsung tanpa terdeteksi dalam waktu yang lama memupuk kecurangan. Kondisi
permintaan dan biaya harus relatif stabil. Asumsikan bahwa permainan tersebut terus berulang-
ulang tanpa batas, atau dalam jumlah pengulangan yang sangat besar dan tidak pasti.
Langkah Strategis
Ancaman, Komitmen, dan Kredibilitas
Perusahaan oligopolistik sering menggunakan beberapa strategi untuk mencapai
keunggulan kompetitif atas pesaingnya, meskipun itu membatasi perilaku mereka sendiri atau
untuk sementara mengurangi jumlah keuntungan mereka. Ancaman bisa dipastikan memiliki
kredibilitas, misalnya dengan menulis sebuah surat komitmen kepada para pelanggan untuk
menyamai harga produk pesaing yang lebih rendah.
Sebuah cara membuat ini dapat dipercaya adalah perusahaan membangun sebuah reputasi
sebagai perusahaan yang menjalankan ancaman, meskipun ini berarti mengurangi labanya.
Dengan menunjukan komitmen untuk menjalankan ancamannya, perusahaan membuat
ancamannya memiliki kredibilitas dan meningkatkan labanya sejalan dengan berlalunya waktu.
Hambatan Masuk
Salah satu strategi penting yang bisa digunakan oleh seorang oligopolis untuk menghambat
masuknya perusahaan baru ke dalam pasar adalah mengancam akan menurunkan harganya
sehingga menyebabkan kerugian bagi pemain baru yang potensial. Meskipun demikian, ancaman
seperti itu hanya akan ditanggapi jika memiliki kredibilitas. Hambatan masuk bisa dikaji dengan
menggunakan matriks ganjaran.
Perilaku Strategis dan Daya Saing Internasional
Teori permainan juga bisa digunakan untuk mengkaji kebijakan strategis perdagangan dan
industri, sehingga suatu negara dapat memperoleh keunggulan kompetitif atas negara lain,
khususnya dalam bidang teknologi tinggi.
Satu kelemahan mendasar dari analisis ini adalah bahwa biasanya sulit untuk meramalkan
secara akurat hasil dari kebijakan industri dan perdagangan pemerintah yaitu, memperoleh data
dari hasil kebijakan industri dan perdagangan pemerintah. Namun demikian, mengambil dari
analisis yang salah bisa merugikan dan bahkan mengakibatkan gagalnya perusahaan.
Permainan Berurutan dan Pohon Keputusan
Beberapa pilihan atau permainan strategis pada hakikatnya berurutan pada strategi yang
tebaik atau langkah setiap pemain tergantung langkah pemain lain sebelumnya. Permainan
berurutan dapat ditunjukkan oleh pohon permainan atau keputusan. Pohon keputusan (decision
tree) adalah diagram dengan lingkaran dan cabang lingkaran menggambarkan titik dimana
keputusan dibuat dan cabang menunjukkan hasil setiap keputusan dalam setiap permainan
berurutan.
Susunan pohon keputusan dimulai dengan keputusan awal dan bergerak menuju ke seluruh
serangkaian keputusan berikutnya. Pada setiap titik keputusan harus dibuat, dan cabang pohom
mengulur sampai ke seluruh kemungkinan hasil dari permainan yang telah digambarkan.
Kemungkinan hasil dari permainan tersebut diberi ganjaran pada sisi kanan figur atau pohon
tersebut.
MODEL COURNOT
Model Cournot yang disebut juga sebagao duopoly, dikembangkan oleh Augustin Curnot
seorang ahli ekonomi berkebangsaan Perancis pada tahun 1838. Asumsi utama dari model ini
adalah bahwa jika sebuah perusahaan telah menentukan tingkat produksinya, maka perusahaan
tidak akan mengubahnya. Atas dasar asumsi inilah perusahaan pesaingnya akan menentukan
tingkat produksinya. Dalam pasar duopoly hanya terdapat dua perusahaan yang menjual produk
yang homogeny, dengan demikian hanya terdapat satu harga pasar. Harga pasar ditentukan oleh
kesimbangan antara jumlah total output yang dihasilkan oleh dua perusahaan dengan permintaan
pasar.
Keseimbangan dalam model Cournot ditunjukkan dengan gambar dibawah. Dalam hal ini
diasumsikan MC konstan dan sama denan AC.
Pada tahap awal, diasumsikan, bahwa Honda tidak berproduksi sama sekali. Model
Cournot mengasumsikan bahwa Yamaha menganggap Honda akan terus tidak berproduksi
berarpapun jumlah motor yang dproduks Yamaha. Jika ini terjadi, berarti Yamaha bertindak
sebagai pengusaha monopoli di pasar motor. Jumlah produksi yang memaksimuman keuntungan
Yamaha adalah sebesar Qm= 50, yaitu pada kondisi di mana MR=MC. Tingkat produksi
Yamaha ini adalah setengah dari produksi maksimum seandainya industry motor ini berada di
pasar yang bersaing sempurna yaitu sebesar 100.
Selanjutnya diasumsikan bahwa Honda memproduksi sebanyak 20 unit. Dengan kondisi ini
maka permintaan yang dihadapi oleh Yamaha adalah sebesar permintaan pasar dikurangi 20 unit.
Secara grafik hal ini berarti kurva permintaan Yamaha dimulai dari titik 20 dan tidak dari titik
nol lagi (garis AD). Dengan demikian, kurva MR Yamaha juga dimulai dari titik A. Untuk
mengasumsikan keuntungan Yamaha akan menyamakan MR dengan MC hingga tingkat
produksi optimalnya adalah 40 unit. Jumlah produksi total di pasar menjad 60 unit (20 unit dari
Honda + 40 unit dari Yamaha). Seandainya sekarang, Honda berproduksi 40 nit, maka kurva
permintaan dan kurva MR Yamaha juga akan dimulai di titik 40. Kondisi optimalnya dicapai
pada saat MR=MC yatu pada tingkat output 30 unit. Jumlah total produksi motor di pasar
menjadi 70 unit (40unit dari Honda +30 unit dari Yamaha). Dengan cara yang sama akan
diperoleh tingkat produksi Yamaha sebesar 20 unit jika Honda memproduksi sebanyak 60 unit,
dn 10 unit Yamaha jika Honda memproduksi 80 unit. Dari sini bisa dilihat bahwa tingkat
produski Yamaha adalah selalu setengah dari sisa permintaan pasar setelah dikurangi produksi
Yamaha.
Karena diasumsikan bahwa Honda mempunyai biaya yang sama, dan sesuai dengan asumsi
pada model Curnot, maka jumlah produksi motor yang dihasilkan oleh Honda tergantung pada
berapa tingkat produksi motor Yamaha. Honda akan menghasilkan setengah dari sisa permintaan
pasar setelah dikurangi produksi Yamaha.