http://users.uom.gr/~acg 1 Στοιχεία από τη Θεωρία Παιγνίων Ιστορικά στοιχεία: Antoine Augustin Cournot (1801-1877), Cournot duopoly, 1838 John von Neumann (1903-1957), θεμελίωσε τη θεωρία παιγνίων ως κλάδο των μαθηματικών, (παίγνια μηδενικού αθροίσματος, 1928) John von Neumann και Oskar Morgenstern (1902-1977), «Theory of Games and Economic Behaviour», 1944, παίγνια μηδενικού αθροίσματος. Ανάλυση αποφάσεων σε καταστάσεις στρατηγικής αλληλεπίδρασης (strategic interdependence) John Forbes Nash Jr., (1928-2015) ισορροπία σε παίγνια μη μηδενικού αθροίσματος (non-cooperative games equilibrium), Nobel 1994 John Harsanyi (1920-2000), games of incomplete information and Reinhard Selten (1930-2016), dynamic strategic interaction, Nobel 1994 Robert Aumann(1930-) and Thomas Schelling (1921-2016), conflict and cooperation, Nobel 2005 http://users.uom.gr/~acg 2 Με τι ασχολείται η Θεωρία Παιγνίων Μελέτη των στοιχείων που χαρακτηρίζουν καταστάσεις ανταγωνιστικής αλληλεξάρτησης (στρατηγικής αλληλεπίδρασης) με έμφαση στη διαδικασία λήψης αποφάσεων περισσοτέρων του ενός ληπτών απόφασης (αντιπάλων=παικτών) Παίγνια μηδενικού αθροίσματος Παίγνια μη μηδενικού αθροίσματος Παίγνια σταθερού αθροίσματος Παίγνια μη σταθερού αθροίσματος Παίγνια δύο ή n παικτών με n > 2 Παίγνια με ή χωρίς συνεργασία (cooperative non-cooperative) Παίγνια μη ορθολογιστών παικτών (π.χ. φύση) http://users.uom.gr/~acg 3 Βασικές Έννοιες Παίγνιο (game): Κατάσταση κατά την οποία δύο ή περισσότεροι ορθολογιστές παίκτες (άτομα ή συλλογικές οντότητες) με αντικρουόμενους (ενδεχομένως) στόχους και συμφέροντα, επιλέγουν τρόπους ενέργειας (στρατηγικές), δημιουργώντας συνθήκες ανταγωνιστικής αλληλεξάρτησης, με στόχο του κάθε παίκτη την ικανοποίηση του δικού του συμφέροντος. Το αποτέλεσμα είναι συνδυασμός των επιλογών όλων των παικτών. Παραδείγματα; Στοιχεία παιγνίου: Παίκτες, κανόνες που διέπουν το παίγνιο, πληροφορίες που υπάρχουν ή δεν υπάρχουν κατά τη διάρκεια του παιγνίου, αξιολόγηση των διαφόρων αποτελεσμάτων από τους παίκτες, μεταβλητές ελέγχου Παίκτης (player): αυτόνομη μονάδα λήψης απόφασης. Άτομο, ομάδα, επιχείρηση, κράτος, σωματείο κ.λπ. Προσπαθεί να βελτιστοποιήσει τη δική του ευημερία εγωιστικά έναντι των αντιπάλων του βασιζόμενος στους κανόνες, στους πόρους και στις πληροφορίες που έχει στη διάθεσή του (ορθολογιστής παίκτης) http://users.uom.gr/~acg 4 Βασικές Έννοιες (συνέχεια) Στρατηγική (strategy): Είναι το σύνολο των κανόνων που ορίζουν τις εφικτές επιλογές τις οποίες δύναται να ακολουθεί σε κάθε κίνησή του ο παίκτης μέχρι το τέλος του παιγνίου. Αναζητούνται στρατηγικές που μεγιστοποιούν ή ελαχιστοποιούν την αντικειμενική συνάρτηση κάθε παίκτη. Αμιγής Στρατηγική (pure strategy): Κάθε παίκτης επιλέγει μία μόνο από τις δυνατές στρατηγικές του με πιθανότητα ίση με τη μονάδα. Μικτή Στρατηγική (mixed strategy): Περιλαμβάνει συνδυασμό στρατηγικών οι οποίες επιλέγονται με κάποια πιθανότητα. Πίνακας αποτελεσμάτων (payoff matrix): Υποδεικνύει τα αποτελέσματα του παιγνίου για κάθε συνδυασμό στρατηγικών. http://users.uom.gr/~acg 5 Γενική μορφή πίνακα πληρωμών παιγνίου δύο παικτών Παίκτης Β Στρατη- γικές 1 2 n Παίκτης Α 1 α11,b11 α12,b12 … α1n,b1n 2 α21,b21 α22,b22 … α2n,b2n m αm1,bm1 αm2,bm2 … αmn,bmn Γενικός πίνακας πληρωμών για ένα παίγνιο δύο παικτών όταν ο Α κερδίζει αij, ο Β κερδίζει bij Το κέρδος και η ζημία είναι σχετικές έννοιες (όπως γνωρίζετε) http://users.uom.gr/~acg 6 Παίγνιο δύο παικτών μηδενικού αθροίσματος Δύο μόνο παίκτες – αντίπαλοι παίκτης Α (παίκτης των σειρών) και παίκτης Β (παίκτης των στηλών) Το παιχνίδι παριστάνεται από έναν πίνακα πληρωμών, που συνήθως αναφέρεται στα κέρδη για τον παίκτη Α Ο παίκτης Α διαθέτει m στρατηγικές Ο παίκτης Β διαθέτει n στρατηγικές Αν ο παίκτης Α επιλέξει τη στρατηγική Αi και ο παίκτης Β τη στρατηγική Bj τότε: ο παίκτης Α κερδίζει αij και ο παίκτης Β χάνει αij. Ο πίνακας μπορεί να έχει και αρνητικά στοιχεία http://users.uom.gr/~acg 7 Γενική μορφή πίνακα παιγνίου μηδενικού αθροίσματος Παίκτης Β Στρατη- γικές 1 2 n Παίκτης Α 1 α11,-α11 α12,-α12 … α1n,-α1n 2 α21,-α21 α22,-α22 … α2n,-α2n m αm1,-αm1 αm2,-αm2 … αmn,-αmn Πίνακας πληρωμών όταν ο Α κερδίζει αij, ο Β «κερδίζει» -αij. http://users.uom.gr/~acg 8 Απλή μορφή πίνακα παιγνίου μηδενικού αθροίσματος Παίκτης Β Στρατη- γικές 1 2 n Παίκτης Α 1 α11 α12 … α1n 2 α21 α22 … α2n m αm1 αm2 … αmn Πίνακας πληρωμών για τον παίκτη Α όταν ο Α κερδίζει αij, ο Β «κερδίζει» -αij. http://users.uom.gr/~acg 9 Άλλα στοιχεία Η στρατηγική μπορεί να αναφέρεται σε μία ακολουθία ενεργειών ή σε μία μεμονωμένη ενέργεια Οι παίκτες είναι ορθολογιστές επομένως επιλέγουν τις στρατηγικές τους με μόνο στόχο τη δική τους ευημερία και συμφέροντα βάσει των στοιχείων του πίνακα και δεν αντιδρούν συναισθηματικά Τα στοιχεία του πίνακα αντιπροσωπεύουν κέρδος υπό την ευρεία έννοια χρησιμότητα, ωφέλεια (=utility) για τον κάθε παίκτη από κάθε συνδυασμό δύο στρατηγικών Πλήρης πληροφόρηση = Αρχή κοινής γνώσης (common knowledge principle) Οι ορθολογιστές παίκτες γνωρίζουν τη δομή του πίνακα πληρωμών, γνωρίζουν ότι οι ορθολογιστές αντίπαλοί τους γνωρίζουν τη δομή αυτή, γνωρίζουν ότι οι αντίπαλοί τους γνωρίζουν ότι γνωρίζουν τη δομή αυτή, κ.ο.κ. http://users.uom.gr/~acg 10 Καθημερινές καταστάσεις και κλασικά προβλήματα Εφαρμογές στην οικονομία και διοίκηση επιχειρήσεων, στη βιολογία, πληροφορική και τεχνολογίες επικοινωνιών, πολιτική και κοινωνιολογία (φυσικά), γεωστρατηγική, εξοπλισμοί, τεχνολογία, κανόνες οδικής κυκλοφορίας, χαμηλά τιμολόγια κλήσεων ή ηλεκτρικού ρεύματος, αγορά μεταχειρισμένων οχημάτων, αντιγραφή στις εξετάσεις, διαδίκτυο και γενικά σε κάθε κοινωνική και επαγγελματική κατάσταση. Το δίλημμα του κρατούμενου (Prisoner’s Dilemma) Η κούρσα των εξοπλισμών (arm race) To πρόβλημα της διαφήμισης To παιγνίδι της δειλίας (chicken game) Η μάχη των δύο φύλων (Bach or Stravinsky;) http://users.uom.gr/~acg 11 Περιεχόμενο Ενότητας – Διδακτικοί Στόχοι Κλασικά παίγνια δύο παικτών μη μηδενικού αθροίσματος Διαγραφή κυριαρχούμενων (υποδεέστερων) στρατηγικών Ισορροπία Nash σε παίγνια μη μηδενικού αθροίσματος (αμιγείς στρατηγικές) Παίγνια δύο παικτών μηδενικού αθροίσματος Παίγνια σταθερού αθροίσματος Ισορροπία Nash σε παίγνια μηδενικού ή σταθερού αθροίσματος (αμιγείς στρατηγικές) Το κριτήριο minimax για την εύρεση ισορροπίας Nash στα παίγνια μηδενικού αθροίσματος Μεικτές στρατηγικές σε παίγνια μη μηδενικού αθροίσματος Ισορροπία Nash με μεικτές στρατηγικές σε παίγνια μη μηδενικού αθροίσματος Μεικτές στρατηγικές σε παίγνια μηδενικού (ή σταθερού) αθροίσματος Γραφική μέθοδος διαγραφής υποδεέστερων στρατηγικών Επίλυση παιγνίων μηδενικού ή σταθερού αθροίσματος με γραμμικό προγραμματισμό http://users.uom.gr/~acg 12 Πριν προχωρήσουμε να θυμάστε: Η θεωρία παιγνίων δεν μας υποδεικνύει κατ΄ ανάγκη τη καλύτερη δυνατή λύση ΑΛΛΑ την πιο «λογική» …. ό,τι κι αν σημαίνει αυτό ! Δηλαδή την υπερέχουσα στρατηγική αυτή που οδηγεί σε ελαχιστοποίηση της (μέγιστης) ζημίας ανεξάρτητα τι θα κάνει ο αντίπαλος ό,τι κι αν σημαίνει και αυτό Ακόμη κι αν φανερά, υπάρχουν στρατηγικές που μπορούν να οδηγήσουν σε καλύτερα αποτελέσματα και για τους δύο αντιπάλους ταυτόχρονα. Τι «φταίει»; http://users.uom.gr/~acg 13 Παράδειγμα 1 - Prisoner’s Dilemma http://users.uom.gr/~acg 14 Παράδειγμα 1 - Prisoner’s Dilemma (συνέχεια) Η αστυνομία έχει συλλάβει επ’ αυτοφώρω δύο τύπους που είχαν διαρρήξει ένα κατάστημα, αλλά αυτοί πρόλαβαν να πετάξουν τα κλοπιμαία. Έτσι, δεν υπάρχουν επαρκείς αποδείξεις για να καταδικαστούν για κλοπή (μόνο για διάρρηξη). ΕΚΤΟΣ αν ομολογήσει τουλάχιστον ένας. Τους βάζουν σε ξεχωριστά δωμάτια ανάκρισης και ο αστυνόμος επισκέπτεται τον καθένα ξεχωριστά και τους λέει τα εξής: «Προς το παρόν, το ξέρεις ότι κατηγορείσαι μόνο για διάρρηξη, δηλαδή πάς για ένα μήνα φυλακή εσύ και ο συνάδελφός σου. Γνωρίζω ότι εσείς διαπράξατε την κλοπή, αλλά δεν μπορώ να το αποδείξω, εκτός αν ομολογήσεις. Αν είσαι συνεργάσιμος και ομολογήσεις ότι εσείς κάνατε την κλοπή, τότε εσένα θα σε απαλλάξω από κάθε κατηγορία και φεύγεις τώρα καθαρός, ενώ ο συνάδελφος σου θα κατηγορηθεί για διάρρηξη και κλοπή και θα «φάει» 12 μήνες. Έχε υπόψη, ότι αν ομολογήσετε και οι δυο σας, αυτό είναι καλό αλλά φανερά η ομολογία σας θα έχει μικρότερη αξία και θα «φάτε» και οι δύο από οκτώ μήνες. Σε ενημερώνω, ότι έχω ήδη κάνει την ίδια προσφορά και στο συνάδελφό σου και περιμένω την απάντησή του. Α ! και επίσης, δεν θα περιμένω για πολύ την απάντησή σου ! http://users.uom.gr/~acg 15 Prisoner’s Dilemma (1) Με άλλα λόγια: oΑν παραμείνουν και οι δυο σιωπηλοί τιμωρούνται με ένα μήνα φυλάκιση oΑν ο ένας προδώσει το συνάδελφό του απαλλάσσεται (εφόσον ο άλλος μείνει πιστός) oΑν ομολογήσουν και οι δύο τότε καταδικάζονται σε οκτώ μήνες φυλακή ο καθένας oΥποθέτουμε ότι οι παίκτες ενδιαφέρονται ορθολογιστικά να μειώσει ο καθένας τους το χρόνο της ποινής του όσο γίνεται περισσότερο oΈχουμε ένα παίγνιο μη-μηδενικού αθροίσματος στο οποίο οι δύο παίκτες είτε «παραμένουν πιστοί» ο ένας στο άλλο είτε «καρφώνει» ο ένας τον άλλο http://users.uom.gr/~acg 16 Prisoner’s Dilemma (2) Πίνακας πληρωμών Β Στρατηγικές Β1 (σιωπή) Β2 (ομολογία) Α Α1 (σιωπή) -1, -1 -12, 0 Α2 (ομολογία) 0, -12 -8, -8
10
Embed
Slides11-without-mixed-strategies-for-nonzero-gamesusers.uom.gr/~acg/Courses/QA2/material/Ch11slides-miniatures.pdf · Title: Microsoft Word - Slides11-without-mixed-strategies-for-nonzero-games.doc
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
John von Neumann (1903-1957), θεμελίωσε τη θεωρία παιγνίων ως κλάδο των μαθηματικών, (παίγνια μηδενικού αθροίσματος, 1928)
John von Neumann και Oskar Morgenstern (1902-1977), «Theory of Games and Economic Behaviour», 1944, παίγνια
μηδενικού αθροίσματος. Ανάλυση αποφάσεων σε καταστάσεις στρατηγικής αλληλεπίδρασης (strategic interdependence) John Forbes Nash Jr., (1928-2015) ισορροπία σε παίγνια μη μηδενικού αθροίσματος (non-cooperative games equilibrium), Nobel 1994
John Harsanyi (1920-2000), games of incomplete information and Reinhard Selten (1930-2016), dynamic strategic interaction, Nobel 1994
Robert Aumann(1930-) and Thomas Schelling (1921-2016), conflict and cooperation, Nobel 2005
http://users.uom.gr/~acg 2
ΜΜεε ττιι αασσχχοολλεείίττααιι ηη ΘΘεεωωρρίίαα ΠΠααιιγγννίίωωνν Μελέτη των στοιχείων που χαρακτηρίζουν καταστάσεις ανταγωνιστικής αλληλεξάρτησης (στρατηγικής αλληλεπίδρασης) με έμφαση στη διαδικασία λήψης αποφάσεων περισσοτέρων του ενός ληπτών απόφασης (αντιπάλων=παικτών)
Παίγνια μηδενικού αθροίσματος Παίγνια μη μηδενικού αθροίσματος Παίγνια σταθερού αθροίσματος Παίγνια μη σταθερού αθροίσματος Παίγνια δύο ή n παικτών με n > 2 Παίγνια με ή χωρίς συνεργασία (cooperative non-cooperative) Παίγνια μη ορθολογιστών παικτών (π.χ. φύση)
http://users.uom.gr/~acg 3
ΒΒαασσιικκέέςς ΈΈννννοοιιεεςς Παίγνιο (game): Κατάσταση κατά την οποία δύο ή περισσότεροι
ορθολογιστές παίκτες (άτομα ή συλλογικές οντότητες) με αντικρουόμενους (ενδεχομένως) στόχους και συμφέροντα, επιλέγουν τρόπους ενέργειας (στρατηγικές), δημιουργώντας συνθήκες ανταγωνιστικής αλληλεξάρτησης, με στόχο του κάθε παίκτη την ικανοποίηση του δικού του συμφέροντος. Το αποτέλεσμα είναι συνδυασμός των επιλογών όλων των παικτών. Παραδείγματα;
Στοιχεία παιγνίου: Παίκτες, κανόνες που διέπουν το παίγνιο, πληροφορίες που υπάρχουν ή δεν υπάρχουν κατά τη διάρκεια του παιγνίου, αξιολόγηση των διαφόρων αποτελεσμάτων από τους παίκτες, μεταβλητές ελέγχου
Παίκτης (player): αυτόνομη μονάδα λήψης απόφασης. Άτομο, ομάδα, επιχείρηση, κράτος, σωματείο κ.λπ. Προσπαθεί να βελτιστοποιήσει τη δική του ευημερία εγωιστικά έναντι των αντιπάλων του βασιζόμενος στους κανόνες, στους πόρους και στις πληροφορίες που έχει στη διάθεσή του (ορθολογιστής παίκτης)
http://users.uom.gr/~acg 4
ΒΒαασσιικκέέςς ΈΈννννοοιιεεςς ((σσυυννέέχχεειιαα)) Στρατηγική (strategy): Είναι το σύνολο των κανόνων που
ορίζουν τις εφικτές επιλογές τις οποίες δύναται να ακολουθεί σε κάθε κίνησή του ο παίκτης μέχρι το τέλος του παιγνίου. Αναζητούνται στρατηγικές που μεγιστοποιούν ή ελαχιστοποιούν την αντικειμενική συνάρτηση κάθε παίκτη.
Αμιγής Στρατηγική (pure strategy): Κάθε παίκτης επιλέγει μία μόνο από τις δυνατές στρατηγικές του με πιθανότητα ίση με τη μονάδα.
Μικτή Στρατηγική (mixed strategy): Περιλαμβάνει συνδυασμό στρατηγικών οι οποίες επιλέγονται με κάποια πιθανότητα.
Πίνακας αποτελεσμάτων (payoff matrix): Υποδεικνύει τα αποτελέσματα του παιγνίου για κάθε συνδυασμό στρατηγικών.
Γενικός πίνακας πληρωμών για ένα παίγνιο δύο παικτών όταν ο Α κερδίζει αij, ο Β κερδίζει bij
Το κέρδος και η ζημία είναι σχετικές έννοιες (όπως γνωρίζετε)
http://users.uom.gr/~acg 6
ΠΠααίίγγννιιοο δδύύοο ππααιικκττώώνν μμηηδδεεννιικκοούύ ααθθρροοίίσσμμααττοοςς Δύο μόνο παίκτες – αντίπαλοι παίκτης Α (παίκτης των σειρών) και παίκτης Β (παίκτης των στηλών)
Το παιχνίδι παριστάνεται από έναν πίνακα πληρωμών, που συνήθως αναφέρεται στα κέρδη για τον παίκτη Α
Ο παίκτης Α διαθέτει m στρατηγικές Ο παίκτης Β διαθέτει n στρατηγικές Αν ο παίκτης Α επιλέξει τη στρατηγική Αi και ο παίκτης Β τη στρατηγική Bj τότε: ο παίκτης Α κερδίζει αij και ο παίκτης Β χάνει αij.
Πίνακας πληρωμών για τον παίκτη Α όταν ο Α κερδίζει αij, ο Β «κερδίζει» -αij.
http://users.uom.gr/~acg 9
ΆΆλλλλαα σσττοοιιχχεείίαα Η στρατηγική μπορεί να αναφέρεται σε μία ακολουθία ενεργειών ή
σε μία μεμονωμένη ενέργεια Οι παίκτες είναι ορθολογιστές επομένως επιλέγουν τις στρατηγικές
τους με μόνο στόχο τη δική τους ευημερία και συμφέροντα βάσει των στοιχείων του πίνακα και δεν αντιδρούν συναισθηματικά
Τα στοιχεία του πίνακα αντιπροσωπεύουν κέρδος υπό την ευρεία έννοια χρησιμότητα, ωφέλεια (=utility) για τον κάθε παίκτη από κάθε συνδυασμό δύο στρατηγικών
Πλήρης πληροφόρηση = Αρχή κοινής γνώσης (common knowledge principle) Οι ορθολογιστές παίκτες γνωρίζουν τη δομή του πίνακα πληρωμών, γνωρίζουν ότι οι ορθολογιστές αντίπαλοί τους γνωρίζουν τη δομή αυτή, γνωρίζουν ότι οι αντίπαλοί τους γνωρίζουν ότι γνωρίζουν τη δομή αυτή, κ.ο.κ.
http://users.uom.gr/~acg 10
ΚΚααθθηημμεερριιννέέςς κκαατταασσττάάσσεειιςς κκααιι κκλλαασσιικκάά ππρροοββλλήήμμαατταα Εφαρμογές στην οικονομία και διοίκηση επιχειρήσεων, στη
βιολογία, πληροφορική και τεχνολογίες επικοινωνιών, πολιτική και κοινωνιολογία (φυσικά), γεωστρατηγική, εξοπλισμοί, τεχνολογία, κανόνες οδικής κυκλοφορίας, χαμηλά τιμολόγια κλήσεων ή ηλεκτρικού ρεύματος, αγορά μεταχειρισμένων οχημάτων, αντιγραφή στις εξετάσεις, διαδίκτυο και γενικά σε κάθε κοινωνική και επαγγελματική κατάσταση.
Το δίλημμα του κρατούμενου (Prisoner’s Dilemma) Η κούρσα των εξοπλισμών (arm race) To πρόβλημα της διαφήμισης To παιγνίδι της δειλίας (chicken game) Η μάχη των δύο φύλων (Bach or Stravinsky;)
http://users.uom.gr/~acg 11
ΠΠεερριιεεχχόόμμεεννοο ΕΕννόόττηηττααςς –– ΔΔιιδδαακκττιικκοοίί ΣΣττόόχχοοιι Κλασικά παίγνια δύο παικτών μη μηδενικού αθροίσματος Διαγραφή κυριαρχούμενων (υποδεέστερων) στρατηγικών Ισορροπία Nash σε παίγνια μη μηδενικού αθροίσματος (αμιγείς στρατηγικές) Παίγνια δύο παικτών μηδενικού αθροίσματος Παίγνια σταθερού αθροίσματος Ισορροπία Nash σε παίγνια μηδενικού ή σταθερού αθροίσματος (αμιγείς
στρατηγικές) Το κριτήριο minimax για την εύρεση ισορροπίας Nash στα παίγνια μηδενικού
αθροίσματος Μεικτές στρατηγικές σε παίγνια μη μηδενικού αθροίσματος Ισορροπία Nash με μεικτές στρατηγικές σε παίγνια μη μηδενικού αθροίσματος Μεικτές στρατηγικές σε παίγνια μηδενικού (ή σταθερού) αθροίσματος Γραφική μέθοδος διαγραφής υποδεέστερων στρατηγικών Επίλυση παιγνίων μηδενικού ή σταθερού αθροίσματος με γραμμικό
προγραμματισμό
http://users.uom.gr/~acg 12
ΠΠρριινν ππρροοχχωωρρήήσσοουυμμεε νναα θθυυμμάάσσττεε:: Η θεωρία παιγνίων δεν μας υποδεικνύει κατ΄ ανάγκη τη καλύτερη δυνατή
λύση ΑΛΛΑ την πιο «λογική» …. ό,τι κι αν σημαίνει αυτό !
Δηλαδή την υπερέχουσα στρατηγική αυτή που οδηγεί σε ελαχιστοποίηση της (μέγιστης) ζημίας ανεξάρτητα τι θα κάνει ο αντίπαλος
ό,τι κι αν σημαίνει και αυτό
Ακόμη κι αν φανερά, υπάρχουν στρατηγικές που μπορούν να οδηγήσουν σε καλύτερα αποτελέσματα και για τους δύο αντιπάλους ταυτόχρονα.
ΠΠααρράάδδεειιγγμμαα 11 -- PPrriissoonneerr’’ss DDiilleemmmmaa ((σσυυννέέχχεειιαα)) Η αστυνομία έχει συλλάβει επ’ αυτοφώρω δύο τύπους που είχαν διαρρήξει ένα
κατάστημα, αλλά αυτοί πρόλαβαν να πετάξουν τα κλοπιμαία. Έτσι, δεν υπάρχουν επαρκείς αποδείξεις για να καταδικαστούν για κλοπή (μόνο για διάρρηξη). ΕΚΤΟΣ αν ομολογήσει τουλάχιστον ένας. Τους βάζουν σε ξεχωριστά δωμάτια ανάκρισης και ο αστυνόμος επισκέπτεται τον καθένα ξεχωριστά και τους λέει τα εξής:
«Προς το παρόν, το ξέρεις ότι κατηγορείσαι μόνο για διάρρηξη, δηλαδή πάς για ένα μήνα φυλακή εσύ και ο συνάδελφός σου. Γνωρίζω ότι εσείς διαπράξατε την κλοπή, αλλά δεν μπορώ να το αποδείξω, εκτός αν ομολογήσεις. Αν είσαι συνεργάσιμος και ομολογήσεις ότι εσείς κάνατε την κλοπή, τότε εσένα θα σε απαλλάξω από κάθε κατηγορία και φεύγεις τώρα καθαρός, ενώ ο συνάδελφος σου θα κατηγορηθεί για διάρρηξη και κλοπή και θα «φάει» 12 μήνες. Έχε υπόψη, ότι αν ομολογήσετε και οι δυο σας, αυτό είναι καλό αλλά φανερά η ομολογία σας θα έχει μικρότερη αξία και θα «φάτε» και οι δύο από οκτώ μήνες. Σε ενημερώνω, ότι έχω ήδη κάνει την ίδια προσφορά και στο συνάδελφό σου και περιμένω την απάντησή του. Α ! και επίσης, δεν θα περιμένω για πολύ την απάντησή σου !
http://users.uom.gr/~acg 15
PPrriissoonneerr’’ss DDiilleemmmmaa ((11)) Με άλλα λόγια:
o Αν παραμείνουν και οι δυο σιωπηλοί τιμωρούνται με ένα μήνα φυλάκιση
o Αν ο ένας προδώσει το συνάδελφό του απαλλάσσεται (εφόσον ο άλλος μείνει πιστός)
o Αν ομολογήσουν και οι δύο τότε καταδικάζονται σε οκτώ μήνες φυλακή ο καθένας
o Υποθέτουμε ότι οι παίκτες ενδιαφέρονται ορθολογιστικά να μειώσει ο καθένας τους το χρόνο της ποινής του όσο γίνεται περισσότερο
o Έχουμε ένα παίγνιο μη-μηδενικού αθροίσματος στο οποίο οι δύο παίκτες είτε «παραμένουν πιστοί» ο ένας στο άλλο είτε «καρφώνει» ο ένας τον άλλο
Η μονάδα (1) εκφράζει τη χαμηλότερη προτίμηση - ωφέλεια και το 4 την υψηλότερη προτίμηση - ωφέλεια. Προσοχή: πάντα με βάση την υπόθεση ότι ο καθένας επιθυμεί να ελαχιστοποιήσει την ποινή του !
Nash
http://users.uom.gr/~acg 24
PPrriissoonneerr’’ss DDiilleemmmmaa ((99))
Η ομολογία υπερισχύει αυστηρά της σιωπής (strict dominance) (και για τους δύο παίκτες)
H σιωπή είναι αυστηρά υποδεέστερη στρατηγική της ομολογίας (strictly dominated) και για τους δύο παίκτες)
Ένας ορθολογιστής παίκτης δεν θα επέλεγε ποτέ μία αυστηρά υποδεέστερη στρατηγική (εκτός αν η πίστη στο τι θα κάνει ο φίλος του είναι στιβαρή ή δεν θέλει να καταστρέψει τη φιλία τους ή τρομάζει στη σκέψη τι τον περιμένει όταν ο άλλος θα βγει από τη φυλακή κ.λπ., όμως, όλα αυτά, διαφοροποιούν το βασικό κανόνα του παιγνίου που ήταν ότι επιθυμούν την ελάχιστη δυνατή ποινή για τον εαυτό τους)
Σε ελεύθερη απόδοση, ένα ζεύγος στρατηγικών για τους δύο παίκτες αποτελεί σημείο ισορροπίας όταν κανένας από τους δύο δεν μπορεί να κερδίσει κάτι περισσότερο
μεταβάλλοντας τη στρατηγική του μονομερώς (Pure Strategy Nash Εquilibrium)
Συχνά, η εναλλακτική του κοινού συμφέροντος δεν είναι πάντα η επιλογή (θεωρητικά) “λογικά” – ατομικά ορθολογιστών παικτών ενώ επίσης συχνά, φαινομενικά λογικές επιλογές οδηγούν σε ζημιές (όλους μαζί)
Προσοχή! Η πιθανή επανάληψη του παιγνίου αλλάζει τα δεδομένα
http://users.uom.gr/~acg 26
PPrriissoonneerr’’ss DDiilleemmmmaa ((1100)) Εύρεση της ισορροπίας Nash (αμιγείς στρατηγικές)
Β Στρατηγικές Β1 (σιωπή) Β2 (ομολογία)
Α Α1 (σιωπή) 3, 3 1, 4
Α2 (ομολογία) 4, 1 2, 2
Για κάθε συνδυασμό στρατηγικών, ελέγχουμε τη «διάθεση» κάθε παίκτη να μετακινηθεί σε καλύτερη στρατηγική. Αν σε κάποιο κελί η «διάθεση» αυτή είναι αρνητική και για τους δυο, τότε έχουμε ισορροπία Nash με αμιγείς στρατηγικές. Ισοδύναμα, βρίσκουμε την καλύτερη πληρωμή κάθε παίκτη σε σχέση με την κάθε στρατηγική του άλλου. Αν οι καλύτερες των δύο παικτών συμπίπτουν στο ίδιο κελί τότε εκεί έχουμε ισορροπία Nash με αμιγείς στρατηγικές. (τα υπόλοιπα στην παράδοση !!! )
Nash
http://users.uom.gr/~acg 27
PPrriissoonneerr’’ss DDiilleemmmmaa ((1111)) Evolutionary version – Axelrod’s tournament (1980) Tit for Tat (Συνεργάσου – Ανταπόδωσε)
Success in an evolutionary "game" is correlated with the following characteristics: Be nice: cooperate, never be the first to defect. Be provocable: return defection for defection, cooperation for
cooperation (retaliate) Don't be envious: be fair with your partner Don't be too clever: or, don't try to be tricky Tit for Tar is a clear, nice, provocable, and forgiving strategy. Πηγή: The evolution of cooperation - Wikipedia
Forgiving
http://users.uom.gr/~acg 28
ΔΔεείίττεε ααυυττόό:: CCaarr lliigghhttss
Β High Low
Ηigh 1, 1 3, 0
Low 0, 3 2, 2
http://users.uom.gr/~acg 29
ΚΚααιι ααυυττόό:: AA wwoorrkkiinngg ccoouuppllee
Β Work Home
Work 3, 3 2, 1
Home 1, 2 4, 4
http://users.uom.gr/~acg 30
ΚΚααιι ααυυττόό:: AA ccoouuppllee iinn lloovvee??
Β Love Silent
Love 4, 4 0, 1
Silent 1, 0 2, 2
http://users.uom.gr/~acg 31
ΠΠααρράάδδεειιγγμμαα 22 Το πρόβλημα της κούρσας των εξοπλισμών (1) Δύο ανταγωνιζόμενοι συνασπισμοί κρατών ή
μεμονωμένα κράτη επιλέγουν ανάμεσα σε δύο στρατηγικές. Είτε την περαιτέρω ανάπτυξη και αγορά οπλικών συστημάτων είτε τη μείωση των εξοπλιστικών τους προγραμμάτων.
Το θέμα είναι ότι τα οπλικά συστήματα κοστίζουν ΠΟΛΥ με παράπλευρα προβλήματα στην αναπτυξιακή στρατηγική μιας χώρας. Από την άλλη πλευρά, οι εξοπλισμοί προσδίδουν αίσθημα ασφάλειας απέναντι σε ανταγωνιστικούς ή εχθρικούς συνασπισμούς.
Α2 (ανάπτυξη) 4, 1 2, 2 Ποια είναι τελικά η ισορροπία Nash του παραπάνω παιγνίου ; Όμοια προβλήματα:
Διεθνές εμπόριο και δασμοί μεταξύ δύο κρατών Διαφήμιση ομοειδούς προϊόντος δύο ανταγωνιστών Μπορείτε να σκεφτείτε όμοιες καταστάσεις σε παίγνια με περισσότερους από 2 παίκτες ; (tragedy of commons)
http://users.uom.gr/~acg 33
ΠΠααρράάδδεειιγγμμαα 33 Ένα γενικότερο παράδειγμα
Πίνακας πληρωμών Β Στρατηγικές Β1 Β2
Α Α1 7, -6 5, 0
Α2 -4, 8 2, 9
Μπορείτε να βρείτε τι θα πρέπει να επιλέξουν οι δύο παίκτες;
Nash
http://users.uom.gr/~acg 34
ΠΠααρράάδδεειιγγμμαα 44 Ένα λίγο πιο δύσκολο παράδειγμα
Πίνακας πληρωμών Β Στρατηγικές Β1 Β2
Α Α1 5, 5 0, 3
Α2 3, 0 1, 1
Μπορείτε να βρείτε τι θα πρέπει να επιλέξουν οι δύο παίκτες;
Ενδιαφέρουσα σημείωση: Μεικτή στρατηγική Nash: A: (1/3, 2/3), B: (1/3, 2/3), Value (A) = Value (B) = 5/3
Nash
http://users.uom.gr/~acg 35
ΠΠααρράάδδεειιγγμμαα 55 -- CChhiicckkeenn GGaammee ((11)) Δύο έφηβοι (και όχι μόνο) ανταγωνίζονται με
αυτοκίνητα. Βρίσκονται στα άκρα ενός δρόμου και οδηγούν με μεγάλη ταχύτητα ο ένας προς τον άλλο (στην ίδια λωρίδα, σε πορεία σύγκρουσης). Αυτός που θα δειλιάσει πρώτος (chicken) και θα στρίψει το τιμόνι για να αποφύγει τη σύγκρουση χάνει, αφού ο ο άλλος αποδεικνύεται πιο θαρραλέος (δύο περιπτώσεις).
Βεβαίως, υπάρχουν ακόμη δύο περιπτώσεις: να δειλιάσουν και οι δύο (και να στρίψουν το τιμόνι για να αποφύγουν τη σύγκρουση) ή να παραμείνουν και οι δύο θαρραλέοι ανόητοι μέχρι το τέλος (όπως ενδεχομένως θα τους χαρακτηρίσει ένας κοινός φίλος, ξεπροβοδίζοντας τους στον επικήδειο).
Case: Η κρίση των Σοβιετικών πυραύλων στην Κούβα (1962)
Μπορείτε να βρείτε τι θα επιλέξουν οι δύο παίκτες;
Ενδιαφέρουσα σημείωση: Μεικτή στρατηγική Nash: A: (1/5, 4/5), B: (1/5, 4/5), Value (A) = Value (B) = -2/5 Τότε γιατί να μην ισορροπήσουν στο συνδυασμό (Α2, Β2) ;
Nash
http://users.uom.gr/~acg 37
ΠΠααρράάδδεειιγγμμαα 66 Battle of the Sexes (Bach or Stravinsky;) (1) Ένας άνδρας και μία γυναίκα συμφωνούν να
συναντηθούν σε ραντεβού για να πάνε μαζί σε μία εκδήλωση. Όμως, υπάρχει ένα πρόβλημα. Υπάρχουν δύο υποψήφιες εκδηλώσεις που μπορούν να πάνε: ένα κονσέρτο στο μέγαρο μουσικής ή ο τελικός αγώνας κυπέλου στο ποδόσφαιρο. Σημαντικό στοιχείο είναι ότι επιθυμούν (preference) να είναι μαζί παρά να μείνουν μόνοι τους (κονσέρτο ή αγώνας, αν είσαι μόνος δεν έχει αξία).
Υποθέτουμε, ότι δεν υπάρχει επικοινωνία μεταξύ τους και ο καθένας απλά εμφανίζεται στην εκδήλωση που επιλέγει (δεν υπάρχουν ακόμη εύχρηστες τεχνολογίες επικοινωνιών)
Παράδειγμα 7 Δύο πολιτικοί επιλέγουν το κύριο θέμα στο οποίο θα επικεντρώσουν σε τηλεοπτική αναμέτρηση. Ο καθένας έχει τρεις στρατηγικές, όχι κατ΄ ανάγκη ίδιες. Η σχετική αποτελεσματικότητα –αύξηση στις ψήφους του πολιτικού Α ως ποσοστό των συνολικών ψήφων- που θα προκύψει στο τέλος της συζήτησης, εξαρτάται από τους συνδυασμούς των θεμάτων που επιλέγουν και δίνεται στον ακόλουθο πίνακα πληρωμών για τον παίκτη Α (των σειρών).
Πίνακας πληρωμών για τον Α Πολιτικός Β Στρατηγικές Β1 Β2 Β3
Πολιτικός Α
Α1 -1 7 3 Α2 1 1 2 Α3 -5 -3 1
http://users.uom.gr/~acg 40
ΠΠίίνναακκααςς ππλληηρρωωμμώώνν γγιιαα ττοονν ΒΒ
Πολιτικός Α Στρατηγικές Α1 Α2 Α3
Πολιτικός Β
Β1 1 -1 5 Β2 -7 -1 3 Β3 -3 -2 -1
Οι παίκτες γνωρίζουν τη δομή του πίνακα, γνωρίζουν ότι οι αντίπαλοί τους το γνωρίζουν κ.ο.κ. Επιλέγουν ταυτοχρόνως στρατηγική χωρίς να επικοινωνούν, χωρίς συνεργασία και χωρίς να έχουν ενημερωθεί εκ των προτέρων για την επιλογή του αντιπάλου τους
Ποια στρατηγική πρέπει να επιλέξει κάθε πολιτικός ;;
http://users.uom.gr/~acg 41
ΔΔιιααγγρρααφφήή υυπποοδδεεέέσσττεερρωωνν σσττρρααττηηγγιικκώώνν Μία στρατηγική είναι υποδεέστερη (κυριαρχούμενη) μίας άλλης (που ονομάζεται υπερέχουσα ή κυρίαρχη) όταν η κυρίαρχη στρατηγική είναι τουλάχιστον τόσο «καλή» όσο και η υποδεέστερη. Ασθενής και ισχυρή κυριαρχία (weak and strict dominance)
B1 B2 B3 B1 B2 B3
A1 -1 7 3 A1 -1 7 3 A2 1 1 2 A2 1 1 2 A3 -5 -3 1
Ο ορθολογιστής παίκτης Α δεν εφαρμόζει ποτέ την στρατηγική 3
(γιατί;;)
http://users.uom.gr/~acg 42
ΠΠααρράάδδεειιγγμμαα 77 ((σσυυννέέχχεειιαα--11))
B1 B2 B3 B1 B2 A1 -1 7 3 A1 -1 7 A2 1 1 2 A2 1 1
Ο ορθολογιστής παίκτης Β γνωρίζοντας ότι ο Α δεν θα εφαρμόσει ποτέ την στρατηγική 3 (και γνωρίζοντας ότι ο Α γνωρίζει ότι το γνωρίζει κ.ο.κ.) δεν εφαρμόζει ποτέ τη δική του στρατηγική 3 αφού είναι υποδεέστερη (από ποιά;;)
Προσοχή! Κατά τη διαδικασία απαλοιφής των υποδεεστέρων στρατηγικών, είναι δυνατό, μία στρατηγική που αρχικά δεν ήταν υποδεέστερη, να καταστεί στη συνέχεια υποδεέστερη και τελικά να απομακρυνθεί από τον πίνακα πληρωμών. Η σειρά απαλοιφής δεν έχει σημασία αν έχουμε ισχυρή κυριαρχία.
http://users.uom.gr/~acg 43
ΠΠααρράάδδεειιγγμμαα 77 ((σσυυννέέχχεειιαα--22))
B1 B2 B1 A1 -1 7 A1 -1 A2 1 1 A2 1
Ο παίκτης Β γνωρίζοντας ότι ο Α δεν θα εφαρμόσει ποτέ την στρατηγική 3 (και γνωρίζοντας ότι ο Α γνωρίζει ότι το γνωρίζει κ.ο.κ.) δεν εφαρμόζει ποτέ τη στρατηγική 2 αφού είναι υποδεέστερη της 1ης στρατηγικής του. Οι στρατηγικές 2η και 3η του παίκτη Β θα μπορούσαν να είχαν διαγραφεί ταυτόχρονα ήδη στο προηγούμενο βήμα
http://users.uom.gr/~acg 44
ΠΠααρράάδδεειιγγμμαα 77 ((σσυυννέέχχεειιαα--33))
B1 B1 A1 -1 A2 1 A2 1
Γνωρίζοντας ο παίκτης Α ότι ο Β γνωρίζει όλα τα προηγούμενα, τότε δεν θα εφαρμόσει την 1η στρατηγική του αφού είναι υποδεέστερη της 2ης στρατηγικής του.
Στο παράδειγμα, το σημείο ισορροπίας (saddle point) είναι εκείνο που προκύπτει όταν ο παίκτης Α εφαρμόζει τη 2η στρατηγική του και ο Β την 1η. Η πιθανή εφαρμογή άλλης στρατηγικής πέρα από το σημείο ισορροπίας, έχει απάντηση από τον αντίπαλο η οποία δυσχεραίνει τη θέση του.
http://users.uom.gr/~acg 45
ΙΙσσοορρρροοππίίαα NNaasshh μμεε ττοο κκρριιττήήρριιοο mmiinniimmaaxx Το σημείο ισορροπίας (οριακό σημείο) ονομάζεται «τιμή του παιγνίου», συμβολίζεται με V (value of the game) και παρατηρούμε ότι είναι το μεγαλύτερο στη στήλη του και το μικρότερο στη σειρά του (saddle point, σαγματικό σημείο).
B1 B2 B3 row min A1 -1 7 3 -1 A2 1 1 2 1*
A3 -5 -3 1 -5 column max 1* 7 3 V=1
Οι δύο άριστες -αμιγείς- στρατηγικές συνθέτουν τη λύση του παιγνίου σύμφωνα με την οποία το καλύτερο που μπορεί να πετύχει ο Α είναι κερδίσει 1% των ψήφων ενώ το καλύτερο που μπορεί να πετύχει ο Β είναι να χάσει 1% των ψήφων.
Ο αντικειμενικός σκοπός του Α είναι να μεγιστοποιήσει τα κέρδη του ενώ του Β να ελαχιστοποιήσει τη ζημιά του. Θα ισορροπήσουν εκεί όπου ο Α θα μεγιστοποιεί το ελάχιστο κέρδος του και ο Β θα ελαχιστοποιεί τη μέγιστη ζημιά του. Δηλαδή, ουσιαστικά, θα ισορροπούν εκεί όπου και οι δύο θα ελαχιστοποιούν τη μέγιστη ζημιά που μπορούν να υποστούν.
Minimax σημείο
Maximin σημείο
http://users.uom.gr/~acg 47
ΓΓεεννιικκόό ΣΣυυμμππέέρραασσμμαα
Σύμφωνα με το κριτήριο minimax, σε έναν πίνακα πληρωμών για τον παίκτη Α, ο παίκτης Α επιλέγει, εκείνη τη στρατηγική που θα του δώσει το μεγαλύτερο από τα ελάχιστα των σειρών (maximin τιμή) και ο παίκτης Β επιλέγει εκείνη τη στρατηγική που θα του δώσει το ελάχιστο από τα μέγιστα των στηλών (minimax τιμή). Η maximin τιμή ονομάζεται κατώτερη τιμή και η minimax ανώτερη τιμή του παιγνίου. Όταν οι δύο τιμές ταυτίζονται το παίγνιο έχει λύση με αμιγείς στρατηγικές και η λύση είναι σταθερή (stable) δηλαδή υπάρχει ένα μοναδικό σημείο ισορροπίας που δίνει την τιμή του παιγνίου, V
Είναι ισοδύναμη διαδικασία της ισορροπίας Nash στα γενικά παίγνια, αλλά εφαρμόζεται μόνο σε παίγνια μηδενικού ή σταθερού αθροίσματος
http://users.uom.gr/~acg 48
ΠΠααρράάδδεειιγγμμαα 88
B1 B2 B3 min A1 -3 -2 6 -3 A2 2 0 2 0*
A3 5 -2 -4 -4 max 5 0* 6 V=0
Σύμφωνα με το κριτήριο minimax, και οι δύο παίκτες θα εφαρμόσουν τη 2η στρατηγική τους. Το παίγνιο αυτό ονομάζεται δίκαιο (fair game) επειδή V=0.
Θα μπορούσε να βρεθεί το σημείο ισορροπίας και οι άριστες αμιγείς στρατηγικές με διαδοχικές απαλοιφές των υποδεέστερων στρατηγικών των δύο παικτών ;;;
Maximin σημείο
Minimax σημείο
http://users.uom.gr/~acg 49
ΠΠααρράάδδεειιγγμμαα 99:: Δύο ανταγωνιστικές επιχειρήσεις Α και Β μοιράζονται τις πωλήσεις ενός προϊόντος σε μία περιοχή. Ο συνολικός ετήσιος τζίρος των πωλήσεων είναι περίπου σταθερός και ανέρχεται στα 200 εκατομμύρια ευρώ. Κάθε μία επιχείρηση για να αποσπάσει πωλήσεις από την άλλη, εξετάζει τρία εναλλακτικά σενάρια μάρκετινγκ. (1) βελτίωση ποιότητας, (2) βελτίωση συσκευασίας, (3) αύξηση διαφημιστικής δαπάνης. Το κόστος των τριών λύσεων είναι περίπου ίδιο, αλλά υψηλό, οπότε μία μόνο στρατηγική θα εφαρμοστεί από κάθε επιχείρηση. Ακολουθεί ο πίνακας πληρωμών για την επιχείρηση Α. Παίγνιο δύο παικτών σταθερού αθροίσματος Το άθροισμα των ανταμοιβών των παικτών είναι μία σταθερά c Τιμή της σταθεράς: θετική οι παίκτες μοιράζονται κάποια
ανταμοιβή, αρνητική μοιράζονται κάποιο κόστος. Παίγνιο μηδενικού αθροίσματος ;;
π.χ. αν η Α επιλέξει την 1η και η Β τη 3η, η Α θα πραγματοποιήσει πωλήσεις 110 εκ. και η Β πωλήσεις 90 εκ. Η διαδικασία επίλυσης είναι ίδια με τα παίγνια μηδενικού αθροίσματος. Σύμφωνα με το κριτήριο minimax η άριστη λύση είναι: A: A3, B: B2 και V(Α) = 120. Πόσο είναι το V(B);
Θα μπορούσε να βρεθεί το σημείο ισορροπίας και οι άριστες αμιγείς στρατηγικές με διαδοχικές απαλοιφές των υποδεέστερων στρατηγικών των δύο παικτών ;;
Πώς διαμορφώνεται ο πίνακας ως γενικό παίγνιο μη μηδενικού αθροίσματος;
http://users.uom.gr/~acg 51
ΜΜεειικκττέέςς ΣΣττρρααττηηγγιικκέέςς Κάθε παίκτης ακολουθεί τις στρατηγικές του με βάση κάποια κατανομή (σχέδιο) πιθανοτήτων, (δηλαδή σε κάθε στρατηγική του αντιστοιχίζει μια πιθανότητα να την ακολουθήσει). Σκοπός του είναι, να εντοπίσει εκείνο το σχέδιο πιθανοτήτων που να μην έχει κίνητρο να το αλλάξει με βάση το προσδοκώμενο κέρδος. Η κατανομή των πιθανοτήτων με βάση την οποία επιλέγει τις στρατηγικές του, ονομάζεται μεικτή ή τυχαία στρατηγική (ranzomized – mixed strategy) Η μεικτή αυτή στρατηγική ενός παίκτη είναι εκείνη που θα αφήνει τον αντίπαλό του αδιάφορο μεταξύ των αμιγών στρατηγικών που έχει στη διάθεσή του (δηλαδή το κέρδος του παίκτη επιτυγχάνεται ανεξάρτητα από τις επιλογές-μεικτές στρατηγικές του αντιπάλου του).
http://users.uom.gr/~acg 52
ΠΠιιοο σσυυγγκκεεκκρριιμμέένναα ;;
xi : η πιθανότητα ο παίκτης Α να εφαρμόσει τη στρατηγική Αi yj: η πιθανότητα ο παίκτης B να εφαρμόσει τη στρατηγική Bj Πρακτικά, κάθε παίκτης προσδιορίζει το «πρόγραμμα» βάσει του
οποίου θα παίξει το παιγνίδι δίνοντας τέτοιες τιμές στις αντίστοιχες πιθανότητες με ώστε να ισχύει ο παραπάνω κανόνας.
Τα πιθανά «προγράμματα» - πολιτικές συμβολίζονται με τα διανύσματα πιθανοτήτων (x1, x2, …, xm) και (y1, y2, …, yn) και είναι στην ουσία οι μεικτές στρατηγικές.
Μία μικτή στρατηγική (x1, x2, …, xm) με ένα xi = 1 (και τα υπόλοιπα μηδενικά) υποδεικνύει ότι εφαρμόζεται η αμιγής στρατηγική i (δηλαδή με πιθανότητα μονάδα)
Δείτε ξανά στα προηγούμενα παραδείγματα τις μεικτές (υπό την ευρεία έννοια) στρατηγικές που εφάρμοσαν οι παίκτες
Ποιο είναι το φυσικό νόημα της μεικτής στρατηγικής (x1, x2, x3) = (1/2, 1/2, 0) για τον Α και (y1, y2, y3) = (1/3, 1/3, 1/3) για τον Β ;;
Θεώρημα Nash για τις μεικτές στρατηγικές: Σε κάθε πεπερασμένο παίγνιο υπάρχει πάντοτε μία ισορροπία Nash με μεικτές στρατηγικές (πέρα και πάνω από τις πιθανές ισορροπίες με αμιγείς στρατηγικές)
http://users.uom.gr/~acg 54
ΜΜεειικκττέέςς ΣΣττρρααττηηγγιικκέέςς σσεε παίγνια μηδενικού ή σταθερού αθροίσματος Παράδειγμα 10
Β Στρατηγικές Β1 Β2 Β3 row min
Α Α1 0 -2 2 -2* Α2 5 4 -3 -3 Α3 2 3 -4 -4
col. max 5 4 2* -22 Εδώ, η εύρεση μεικτής στρατηγικής έχει νόημα όταν δεν υπάρχει σημείο ισορροπίας (ασταθής λύση). Η ανώτερη και η κατώτερη τιμή του παιγνίου δεν είναι ίδιες, οπότε οι παίκτες δεν ισορροπούν σε ένα κοινό σημείο στο οποίο να ελαχιστοποιούν τη μέγιστη ζημιά τους. Δηλαδή, γνωρίζοντας κάθε παίκτης τη δομή του πίνακα, παρατηρεί ότι για κάθε στρατηγική του αντιπάλου του υπάρχει πάντα μία καλύτερη «απάντηση».
Η αναμενόμενη τιμή του παιγνίου (V) βρίσκεται ανάμεσα στην κατώτερη και στην ανώτερη τιμή (δηλαδή στο διάστημα (-2, 2) ). Αυτό, ισχύει ΓΕΝΙΚΑ (;)
http://users.uom.gr/~acg 56
ΤΤιι εείίννααιι ππρραακκττιικκάά ηη ««ΜΜεειικκττήή ΣΣττρρααττηηγγιικκήή»» σστταα ππααίίγγννιιαα μμηηδδεεννιικκοούύ ααθθρροοίίσσμμααττοοςς;; Κάθε παίκτης ακολουθεί τις στρατηγικές του με βάση κάποια κατανομή (σχέδιο) πιθανοτήτων. Σκοπός του είναι, να εντοπίσει εκείνο το σχέδιο πιθανοτήτων που να μην έχει κίνητρο να το αλλάξει με βάση το προσδοκώμενο κέρδος. Ειδικότερα: Ο σκοπός του είναι να μεγιστοποιεί το ελάχιστο προσδοκώμενο κέρδος του (δηλαδή να ελαχιστοποιεί τη μέγιστη προσδοκώμενη ζημιά του). Η κατανομή των πιθανοτήτων με βάση την οποία επιλέγει τις στρατηγικές του, ονομάζεται μεικτή ή τυχαία στρατηγική (ranzomized – mixed strategy). Η μεικτή στρατηγική ενός παίκτη είναι εκείνη που αφήνει τον αντίπαλό του αδιάφορο μεταξύ των αμιγών στρατηγικών του (δηλαδή το κέρδος του παίκτη επιτυγχάνεται ανεξάρτητα από τις επιλογές-μεικτές στρατηγικές του αντιπάλου του).
http://users.uom.gr/~acg 57
ΘΘεεώώρρηημμαα mmiinniimmaaxx γγιιαα ττιιςς μμιικκττέέςς σσττρρααττηηγγιικκέέςς Όταν εφαρμόζονται μεικτές στρατηγικές, τότε υπάρχει πάντα, για κάθε παίκτη, μία άριστη μικτή στρατηγική σύμφωνα με το κριτήριο minimax, που οδηγεί σε σταθερή λύση, ώστε κανένας παίκτης να μην μπορεί να βελτιώσει τη θέση του και να ελαχιστοποιεί τη μέγιστη ζημιά που μπορεί να υποστεί, ανεξάρτητα από τη μικτή στρατηγική του αντιπάλου (!)
Έστω: V(A), το προσδοκώμενο κέρδος του Α και V(B), η προσδοκώμενη ζημιά του Β
Τότε V(A) = V(B) = V, είναι το σημείο ισορροπίας για τις άριστες μικτές στρατηγικές αναμενόμενη τιμή του παιγνίου
m
i
n
jijji ayxV
1 1
http://users.uom.gr/~acg 58
ΠΠεερρίίππττωωσσηη 11ηη Παίγνιο μηδενικού αθροίσματος διάστασης 2×2 Παράδειγμα 11
Β Στρατηγικές Β1 Β2 min Α Α1 -2 6 -2
Α2 5 1 1*
max 5* 6 1V5
Δεν υπάρχει σημείο ισορροπίας με αμιγείς στρατηγικές. Ορίζουμε πιθανότητες εφαρμογής κάθε στρατηγικής από κάθε παίκτη και συνεχίζουμε για τον εντοπισμό των άριστων μικτών στρατηγικών και της προσδοκώμενης τιμής του παιγνίου.
Εντοπισμός άριστης μεικτής στρατηγικής για παίκτη Α:
Υπολογίζουμε τις αναμενόμενες πληρωμές στον παίκτη A: V(A, B1) και V(A, B2).
Ισχύει ότι: V(B, B1) = -V(A, B1) και V(B, B2) = -V(A, B2) Εξισώνουμε τις V(A, B1) και V(A, B2) και υπολογίζουμε έτσι τις πιθανότητες x1 και x2
Υπολογίζουμε το V(A) από μία εκ των V(A, B1) ή V(A, B2)
http://users.uom.gr/~acg 60
ΕΕφφααρρμμοογγήή σσττοο ππααρράάδδεειιγγμμαα 1111 ((11)) Εντοπισμός άριστης μικτής στρατηγικής για τον παίκτη Α Ο Α ακολουθεί τη στρατηγική Α1 με πιθανότητα x1, και τη
Αυτό σημαίνει, ότι ο Α θα πρέπει να ακολουθεί τη στρατηγική Α1 με πιθανότητα x1 = 1/3 και την Α2 με πιθανότητα x2 = 2/3.
Το προσδοκώμενο κέρδος του Α είναι (με αντικατάσταση στο V(A, B1) ή στο V(A, B2)): V(A) = -2(1/3) + 5(2/3) = 6(1/3) + 1(2/3) =8/3
Το αναμενόμενο αυτό κέρδος είναι ανεξάρτητο της μικτής στρατηγικής που χρησιμοποιεί ο παίκτης Β.
Π.χ.: αν ο Β ακολουθεί μία τυχαία μικτή στρατηγική έστω: για τη Β1: y=1/4 και για τη Β2: (1-y)=3/4, τότε: V(A)=(1/4)(-2×1/3 + 5×2/3) + (3/4)(6×1/3 + 1×2/3) = 8/3.
Αυτό συμβαίνει, διότι οι πιθανότητες που βρέθηκαν για τον παίκτη Α (1/3 και 2/3) ήταν αποτέλεσμα της απαίτησης να ισχύει V(A, B1) = V(A, B2) = V (δηλ. ο Β αδιάφορος). Κάτι, που πάντα επαληθεύει την ισχύ της ακόλουθης:
V(A) = (y1) V(A, B1) + y2 V(A, B2) = (y1 + y2) V = V
http://users.uom.gr/~acg 63
ΕΕννττοοππιισσμμόόςς άάρριισσττηηςς σσττρρααττηηγγιικκήήςς γγιιαα ττοονν ππααίίκκττηη BB Ο Β ακολουθεί τη στρατηγική Β1 με πιθανότητα y1, και τη στρατηγική B2 με πιθανότητα y2.
Ας θέσουμε αμέσως y1 =y και y2 = 1-y. Αν ο A ακολουθήσει τη στρατηγική A1, η προσδοκώμενη ζημιά του παίκτη B είναι: V(B, A1) = -2y + 6(1-y)
Αν ο Α ακολουθήσει την Α2, τότε η αναμενόμενη ζημιά του Β είναι: V(Β, Α2) = 5y + 1(1-y).
Για να ελαχιστοποιεί ο Β τη μέγιστη ζημιά που μπορεί να υποστεί θα πρέπει: V(Β, Α1) = V(Β, Α2), οπότε είναι:
-2y + 6(1-y) = 5y + 1(1-y) δηλαδή 12y = 5 που δίνει y=5/12, (1-y)=7/12.
http://users.uom.gr/~acg 64
ΕΕννττοοππιισσμμόόςς άάρριισσττηηςς σσττρρααττηηγγιικκήήςς γγιιαα ττοονν ππααίίκκττηη BB (συνέχεια) Αυτό σημαίνει ότι ο Β θα πρέπει να ακολουθεί τη στρατηγική Β1 με πιθανότητα y1 = 5/12 και την B2 με πιθανότητα y2 = 7/12.
Προσδοκώμενη ζημιά του Β (αντικατάσταση στο V(Β, Α1) ή στο V(Β, Α2)): V(Β) = -2×5/12 + 6×7/12 = 5×5/12 + 1×7/12 = 8/3 που είναι ίσο με το V(A).
Η αναμενόμενη αυτή ζημιά είναι ανεξάρτητη της μικτής στρατηγικής που χρησιμοποιεί ο παίκτης A.
http://users.uom.gr/~acg 65
ΣΣύύννοοψψηη άάρριισσττηηςς λλύύσσηηςς ππααρρααδδεείίγγμμααττοοςς 1111 Παίκτης Α: (x1, x2) = (1/3, 2/3), V(A) = 8/3 Παίκτης B: (y1, y2) = (5/12, 7/12), V(B) = V(A) = V = 8/3 Επομένως, μακροπρόθεσμα, αν το παιγνίδι επαναληφθεί πολλές φορές, καθώς το πλήθος των επαναλήψεων τείνει στο άπειρο, στις 12 επαναλήψεις του παιγνίου ο παίκτης Α θα ακολουθεί 4 φορές την Α1 και 8 φορές την Α2, ενώ ο παίκτης Β θα ακολουθεί 5 φορές την Β1 και 7 φορές την Β2.
Επισήμανση – φυσικό νόημα: Η τιμή του παιγνίου V=8/3, δεν σημαίνει πως κάθε φορά που επαναλαμβάνεται το παιγνίδι ο Α κερδίζει 8/3 και ο Β χάνει 8/3, αλλά, ότι αν οι δύο παίκτες επαναλάβουν το παίγνιο πολλές φορές με βάση τις πιθανότητες που υπολογίστηκαν, τότε το μέσο κέρδος του Α είναι 8/3 (η προσδοκώμενη ζημιά του Β).
http://users.uom.gr/~acg 66
ΠΠεερρίίππττωωσσηη 22ηη Παίγνιο μηδενικού αθροίσματος διάστασης 2×n Παράδειγμα 12
Β Στρατηγικές Β1
y1
Β2 y2
Β3 y3
Β4 y4
Β5 y5
row min
Α Α1 x1 1 4 -2 -3 5 -3 Α2 x2 4 3 5 2 -1 -1*
col. Max 4 4 5 2* 5 -1V2
Θα μπορούσαν να απομακρυνθούν κάποιες υποδεέστερες στρατηγικές ;;;
ΠΠααρράάδδεειιγγμμαα 1122 ((σσυυννέέχχεειιαα--11)) Μείωση της διάστασης του πίνακα – διαγραφή των υποδεέστερων που εντοπίστηκαν στη γραφική αναπαράσταση
Β Στρατηγικές Β4
y4
Β5 y5
Α Α1 x1 -3 5 Α2 x2 2 -1
Στη συνέχεια, εφαρμόζεται η διαδικασία επίλυσης παιγνίου διάστασης 22
http://users.uom.gr/~acg 71
ΠΠααρράάδδεειιγγμμαα 1122 ((σσυυννέέχχεειιαα--22)) Εντοπισμός άριστης μεικτής στρατηγικής για τον παίκτη Α V(A, B4) = -3x1 + 2x2 και V(A, B5) = 5x1 - x2. Οπότε V(A, B4) = V(A, B5), δηλαδή -3x1 + 2x2 = 5x1 - x2 Άρα, 8x1 = 3x2 και επειδή x1 + x2 = 1 προκύπτει ότι x1=3/11 και x2=8/11. Αντικαθιστώντας την άριστη μικτή στρατηγική του Α σε οποιοδήποτε από τα V(A, B4) και V(A, B5) παίρνουμε την άριστη αναμενόμενη τιμή (μέγιστο προσδοκώμενο κέρδος σύμφωνα με το κριτήριο minimax) για τον παίκτη Α: V(A) = -3 × 3/11 + 2 × 8/11 = 7/11
http://users.uom.gr/~acg 72
ΠΠααρράάδδεειιγγμμαα 1122 ((σσυυννέέχχεειιαα--33)) Εντοπισμός άριστης μικτής στρατηγικής για τον παίκτη Β V(Β, Α1) = V(Β, Α2) δηλαδή -3y4 + 5y5 = 2y4 – 1y5 Άρα, 5y4 = 6y5 και επειδή y4 + y5 = 1 προκύπτει ότι y4=6/11 και y5=5/11 Αντικαθιστώντας την άριστη μικτή στρατηγική του B σε οποιοδήποτε από τα V(B, A1) και V(B, A2) παίρνουμε την άριστη αναμενόμενη τιμή (ελάχιστη προσδοκώμενη ζημιά σύμφωνα με το κριτήριο minimax) για τον παίκτη B: V(Β) = -3 × 6/11 + 5 × 5/11 = 7/11
http://users.uom.gr/~acg 73
ΣΣύύννοοψψηη ττηηςς άάρριισσττηηςς λλύύσσηηςς ττοουυ ππααρρααδδεείίγγμμααττοοςς 1122 O παίκτης Α εφαρμόζει τη μικτή στρατηγική: x1=3/11, x2=8/11, με maximin κέρδος V(A) = 7/11 O παίκτης Β εφαρμόζει τη μικτή στρατηγική:
y1=y2=y3=0, y4=6/11, y5=5/11, με minimax ζημιά V(Β) = 7/11
Η προσδοκώμενη τιμή παιγνίου είναι V = V(A) = V(B) = 7/11. Φυσικό νόημα (;;)
http://users.uom.gr/~acg 74
ΠΠεερρίίππττωωσσηη 33ηη Παίγνιο μηδενικού αθροίσματος διάστασης m×2 Παράδειγμα 13
Μείωση της διάστασης του πίνακα – διατήρηση των στρατηγικών Α1 και Α3 που καθορίζουν το σημείο minimax.
Β Στρατηγικές Β1
y1
Β2 y2
Α Α1 x1 -2 4 Α3 x3 4 2
Στη συνέχεια, εφαρμόζεται η διαδικασία επίλυσης παιγνίου διάστασης 2×2
http://users.uom.gr/~acg 79
ΠΠααρράάδδεειιγγμμαα 1133 ((σσυυννέέχχεειιαα--22)) Εντοπισμός άριστης μικτής στρατηγικής για τον παίκτη Β V(Β, Α1) = V(Β, Α3) δηλαδή: -2y1 + 4y2 = 4y1 + 2y2 Άρα, 3y1 = y2 (και y1 + y2 = 1) οπότε: y1 = 1/4 και y2 = 3/4 Αντικαθιστώντας την άριστη μικτή στρατηγική του B σε οποιοδήποτε από τα V(B, A1) και V(B, A3) παίρνουμε την άριστη αναμενόμενη τιμή (ελάχιστη προσδοκώμενη ζημιά σύμφωνα με το κριτήριο minimax) για τον παίκτη B: V(Β) = -2 × 0.25 + 4 × 0.75 = 2.5
http://users.uom.gr/~acg 80
ΠΠααρράάδδεειιγγμμαα 1133 ((σσυυννέέχχεειιαα--33)) Εντοπισμός άριστης μικτής στρατηγικής για τον παίκτη Α V(A, B1) = V(A, B2) δηλαδή -2x1 + 4x3 = 4x1 + 2x3 Άρα, 3x1 = x3 και επειδή x1 + x3 = 1 προκύπτει ότι x1 = 1/4 και x3 = 3/4 Αντικαθιστώντας την άριστη μικτή στρατηγική του A σε οποιοδήποτε από τα V(A, B1) και V(A, B2) παίρνουμε την άριστη αναμενόμενη τιμή (μέγιστο προσδοκώμενο κέρδος σύμφωνα με το κριτήριο minimax) για τον παίκτη Α: V(Α) = -2 × 0.25 + 4 × 0.75 = 2.5
ΠΠααρράάδδεειιγγμμαα 1100 ((σσυυννέέχχεειιαα--11)) Μείωση της διάστασης του πίνακα – διατήρηση των στρατηγικών Β2 και Β3 που καθορίζουν το σημείο maximin.
Β Στρατηγικές Β2
y2
Β3 y3
Α Α1 x1 -2 2 Α2 1-x1 4 -3
Στη συνέχεια, εφαρμόζεται η διαδικασία επίλυσης παιγνίου διάστασης 2×2
http://users.uom.gr/~acg 86
ΠΠααρράάδδεειιγγμμαα 1100 ((σσυυννέέχχεειιαα--22)) Εντοπισμός άριστης μικτής στρατηγικής για τον παίκτη Α V(A, B2) = V(A, B3) δηλαδή -4 – 6x1 = -3 + 5x1 Άρα, x1 = 7/11 και 1-x1 = 4/11 Οπότε: V(Α) = 4 - 6×(7/11) = 2/11
Εντοπισμός άριστης μικτής στρατηγικής για τον παίκτη Β V(Β, Α1) = V(Β, Α2) δηλαδή -2y2 + 2y3 = 42y2 – 3y3 Άρα: 6y2 =5y3 και επειδή y2 + y3 = 1 προκύπτει ότι y2 = 5/11 και y3 =1 - y2 = 6/11 Οπότε: V(B) = -2 × (5/11) + 2 × (6/11) = 2/11
Ο παίκτης Α επιλέγει μικτή στρατηγική τέτοια ώστε (σύμφωνα με το κριτήριο minimax) να μεγιστοποιεί το ελάχιστο κέρδος που μπορεί να αποκομίσει. Έστω ότι αυτό το κέρδος συμβολίζεται με x4. Τότε, ισχύει ότι: x4 V(Α, Β1), x4 V(Α, Β2) και x4 V(Α, Β3)
και επειδή θέλουμε να είναι όσο γίνεται μεγαλύτερο θα πρέπει επίσης: Maximize z = x4
Τέλος, τα x1, x2 και x3 είναι πιθανότητες και ισχύει ότι: x1 + x2 + x3 = 1 όπου x1, x2, x3 0 και x4 R
Ποια σχέση συνδέει τα δύο μοντέλα;; Για να λύσουμε το γραμμικό μοντέλο του παίκτη Α ή του Β
μπορούμε να μετασχηματίσουμε τη μεταβλητή x4, ή τη μεταβλητή y4, κατά το γνωστό μετασχηματισμό των μεταβλητών που δεν περιορίζονται ως προς το πρόσημο.
Εναλλακτικά, προσθέτουμε σε κάθε στοιχείο του πίνακα πληρωμών, μία σταθερά ίση με την απόλυτη τιμή του πλέον αρνητικού στοιχείου του πίνακα. Έτσι η τιμή του μετασχηματισμένου παιγνίου, θα είναι μη αρνητική και μάλιστα μεγαλύτερη από την κανονική, κατά την απόλυτη αυτή τιμή.
Στο παράδειγμα, προσθέτουμε την -1 = 1. Το νέο x4 που βελτιστοποιείται, θα είναι κατά μία μονάδα μεγαλύτερο από την πραγματική του άριστη τιμή.
http://users.uom.gr/~acg 98
ΠΠααρράάδδεειιγγμμαα 1155 ((σσυυννέέχχεειιαα--66)) Ο μετασχηματισμένος πίνακας πληρωμών
B1
y1 B2
y2 B3
y3 row min
A1 x1 1 0 2 0 A2 x2 2 1 0 0 A3 x3 0 2 1 0
col. max 2 2 2 0V2
http://users.uom.gr/~acg 99
ΠΠααρράάδδεειιγγμμαα 1155 ((σσυυννέέχχεειιαα--77)) Το μετασχηματισμένο γραμμικό μοντέλο Max z = x'4
Στο παράδειγμα αυτό, όλα τα στοιχεία του πίνακα πληρωμών είναι μη αρνητικά οπότε δεν χρειάζεται μετασχηματισμός αφού ούτως ή άλλως όλες οι μεταβλητές θα είναι μη αρνητικές.
http://users.uom.gr/~acg 103
ΠΠααρράάδδεειιγγμμαα 1144 ((σσυυννέέχχεειιαα--11)) Max z = x4
ΠΠααρράάδδεειιγγμμαα 1166 Η Ένωση Καλαθοσφαιριστών (παίκτης Α) διαπραγματεύεται με την Ένωση Σωματείων (παίκτης Β) για να συμφωνήσουν σε μία ελάχιστη ετήσια αμοιβή. Κάθε πλευρά, έχει τρεις στρατηγικές. Κάθε συνδυασμός στρατηγικών, οδηγεί σε ένα ελάχιστο (αναμενόμενο) ετήσιο ποσό. Οι στρατηγικές των καλαθοσφαιριστών είναι: 1) αποχώρηση από τη διαπραγμάτευση, 2) επιθετική στάση, 3) παρελκυστική στάση. Για τα σωματεία είναι: 1) αποφυγή ρήξης, 2) σθεναρή στάση, 3) «δώστε ό,τι θέλουν». Στον επόμενο πίνακα δίνονται τα ποσά που μπορούν να πετύχουν οι καλαθοσφαιριστές
ΠΠααρράάδδεειιγγμμαα 1166 ((σσυυννέέχχεειιαα--11)) Μείωση της διάστασης του πίνακα – διατήρηση των Α2 και Α3 που καθορίζουν το σημείο minimax.
Β Στρατηγικές Β1
y1
Β2 y2
Α Α2 x2 25 15 Α3 x3 10 25
Στη συνέχεια, εφαρμόζεται η διαδικασία επίλυσης παιγνίου διάστασης 2×2
http://users.uom.gr/~acg 110
ΠΠααρράάδδεειιγγμμαα 1166 ((σσυυννέέχχεειιαα--22)) Εντοπισμός άριστης μικτής στρατηγικής για τον παίκτη Β V(Β, Α2) = V(Β, Α3) δηλαδή 15 + 10y1= 25 – 15y1 Άρα, 25y1 = 10 y1=2/5 και y2 = 3/5 Αντικαθιστώντας την άριστη μικτή στρατηγική του B σε οποιοδήποτε από τα V(B, A2) και V(B, A3) παίρνουμε την άριστη αναμενόμενη τιμή για τον παίκτη B: V(Β) = 25 - 15 × 2/5 = 19 (=15 + 10 × 2/5)
http://users.uom.gr/~acg 111
ΕΕννττοοππιισσμμόόςς άάρριισσττηηςς μμιικκττήήςς σσττρρααττηηγγιικκήήςς γγιιαα ττοονν ππααίίκκττηη ΑΑ V(A, B1) = 25x2 + 10x3 και V(A, B2) = 15x2 + 25x3 Οπότε V(A, B1) = V(A, B2), δηλαδή 25x2+10x3 =
15x2+25x3 Άρα, 10x2 = 15x3 και επειδή x2 + x3 = 1 προκύπτει ότι x2 = 3/5 και x3 = 2/5. Αντικαθιστώντας την άριστη μικτή στρατηγική του Α σε οποιοδήποτε από τα V(A, B1) και V(A, B2) παίρνουμε την άριστη αναμενόμενη τιμή για τον παίκτη Α: V(A) = 25 × 3/5 + 10 × 2/5 = 19
http://users.uom.gr/~acg 112
ΣΣύύννοοψψηη ττηηςς άάρριισσττηηςς λλύύσσηηςς ττοουυ ππααρρααδδεείίγγμμααττοοςς 1166 O παίκτης Α εφαρμόζει τη μικτή στρατηγική:
x1 = 0, x2 = 3/5 και x3 = 2/5, με maximin κέρδος V(A) = 19
O παίκτης Β εφαρμόζει τη μικτή στρατηγική:
y1=2/5, y2 = 3/5 και y3 =0, με minimax ζημιά V(Β) = 19
Η προσδοκώμενη τιμή παιγνίου είναι V = V(A) = V(B) = 19
http://users.uom.gr/~acg 113
ΠΠααρράάδδεειιγγμμαα 1177
Δύο επιχειρήσεις A και B παράγουν υβρίδια, σπόρους και άλλα αγροτικά υλικά και δραστηριοποιούνται στην ίδια γεωγραφική περιοχή. Σχεδιάζουν την προώθηση ενός βελτιωμένου υβριδίου καλαμποκιού για την επόμενη περίοδο καλλιέργειας. Προκειμένου να αποσπάσουν μεγαλύτερο μερίδιο της αγοράς δύνανται να εφαρμόσουν διάφορες στρατηγικές οι οποίες είναι: α) διαφήμιση σε τηλεοπτικά μέσα, β) προσωπική ενημέρωση των αγροτών πόρτα-πόρτα, γ) ανταγωνιστική τιμή του προϊόντος και η τέταρτη στρατηγική που αφορά μόνο την εταιρεία Α, είναι δ) δυνατότητα χρηματοδότησης από την ΕΕ μέρους του κόστους ανάπτυξης του νέου προϊόντος. Η αύξηση του ποσοστού των πωλήσεων για την επιχείρηση Α έναντι της Β, για κάθε συνδυασμό στρατηγικών, δίνεται στον επόμενο πίνακα.
Δύο επιχειρήσεις A και B δραστηριοποιούνται στην αγορά της συνδρομητικής τηλεόρασης. Ο συνολικός τζίρος του κλάδου ξεπερνά τα 500 (εκατομμύρια χρηματικές μονάδες) και οι δύο επιχειρήσεις πρακτικά μοιράζονται το ποσό αυτό (το υπόλοιπο πάει σε μικρότερες επιχειρήσεις του κλάδου). Σχεδιάζοντας τη στρατηγική τους προκειμένου να αποσπάσουν μεγαλύτερο μερίδιο της αγοράς έχουν τις ακόλουθες πολιτικές: (1) αύξηση διαφημιστικής δαπάνης σε τηλεοπτικά μέσα, (2) πακέτα προσφορών και μείωση τιμής, (3) ενσωμάτωση της προσφοράς ψηφιακής πλατφόρμας σε πακέτα τηλεφωνίας και Internet και (4) ανάπτυξη εναλλακτικών ηλεκτρονικών καναλιών προώθησης του προϊόντος (µόνο η επιχείρηση Β).
Ο ετήσιος τζίρος που αναμένεται να προκύψει για την επιχείρηση Α, για κάθε συνδυασμό στρατηγικών, δίνεται στον πίνακα που ακολουθεί.
Να εφαρμόσετε την κατάλληλη μεθοδολογία προκειμένου να προσδιορίσετε την άριστη στρατηγική για κάθε επιχείρηση καθώς και τον ετήσιο τζίρο της κάθε επιχείρησης. Μακροπρόθεσμα ποια επιχείρηση φαίνεται να ευνοείται από το αποτέλεσμα, αν ο συνολικός ετήσιος τζίρος παραμένει σταθερός ;
ΠΠααρράάδδεειιγγμμαα 1188 ((σσυυννέέχχεειιαα εεππίίλλυυσσηηςς --11)) Μείωση της διάστασης του πίνακα, διαγραφή της «υποδεέστερης» Α3, όπως φάνηκε στη γραφική αναπαράσταση
Β Στρατηγικές Β1
y1
Β4 y4
Α Α1 x1 200 300 Α2 x2 250 100
Στη συνέχεια, εφαρμόζεται η διαδικασία επίλυσης παιγνίου διάστασης 2×2
http://users.uom.gr/~acg 127
ΠΠααρράάδδεειιγγμμαα 1188 ((σσυυννέέχχεειιαα εεππίίλλυυσσηηςς --22)) Εντοπισμός άριστης μικτής στρατηγικής για τον παίκτη Β V(Β, Α1) = V(Β, Α2) δηλαδή: 200y1 + 300y4 = 250y1 + 100y4 και επειδή y1 + y4 = 1 έχουμε: 50y1 = 200(1-y1)
Άρα, 250y1 = 200 y1=4/5 και y4 = 1/5 Αντικαθιστώντας την άριστη μικτή στρατηγική του παίκτη B σε οποιοδήποτε από τα V(B, A1) και V(B, A2) παίρνουμε την άριστη αναμενόμενη τιμή για τον παίκτη B (δηλαδή το τμήμα του συνολικού τζίρου που «αφήνει» στον Α):
V(Β) = 200(0,8) +300(0,2) = 220 ΠΡΟΣΟΧΗ ! Ο παίκτης Β καρπώνεται 500 - 220 = 280 (παίγνιο σταθερού αθροίσματος με πίνακα πληρωμών στον παίκτη Α)
http://users.uom.gr/~acg 128
ΠΠααρράάδδεειιγγμμαα 1188 ((σσυυννέέχχεειιαα εεππίίλλυυσσηηςς --33)) Εντοπισμός άριστης μικτής στρατηγικής για τον παίκτη Α V(Α, Β1) = V(Α, Β4) δηλαδή: 200x1 + 250x2 = 300x1 + 100x2 και επειδή x1 + x2 = 1 έχουμε ότι: 100x1 = 150(1-x1)
Άρα, 250x1 = 150 x1=3/5 και x2 = 2/5 Αντικαθιστώντας την άριστη μικτή στρατηγική του παίκτη A σε οποιοδήποτε από τα V(A, B1) και V(A, B4) παίρνουμε την άριστη αναμενόμενη τιμή για τον παίκτη A (δηλαδή το τμήμα του συνολικού τζίρου (500) που καρπώνεται ο Α):
V(Α) = 200(0,6) +250(0,4) = 220
http://users.uom.gr/~acg 129
ΣΣύύννοοψψηη ττηηςς άάρριισσττηηςς λλύύσσηηςς ττοουυ ππααρρααδδεείίγγμμααττοοςς 1188 O παίκτης Α εφαρμόζει τη μικτή στρατηγική: x1 = 3/5 και x2 = 2/5, x3 = 0, με maximin κέρδος V(A) = 220
O παίκτης Β εφαρμόζει τη μικτή στρατηγική: y1=4/5, y2 =0, y3 =0, y4 = 1/5, με minimax «ζημιά» V(Β) = 220
Η προσδοκώμενη τιμή παιγνίου είναι
V = V(A) = V(B) = 220 ΠΟΥ ΣΗΜΑΙΝΕΙ, ΟΤΙ ΜΑΚΡΟΠΡΟΘΕΣΜΑ ο παίκτης Α καρπώνεται 220 (εκ. χ.μ.) και ο παίκτης Β 500-220=280 (εκ. χ.μ.).
Συνεπώς, ευνοημένος είναι ο παίκτης Β.
http://users.uom.gr/~acg 130
ΠΠααρράάδδεειιγγμμαα 1188 ((εεππίίλλυυσσηη μμεε LLPP)) Το μοντέλο γραμμικού προγραμματισμού για τον παίκτη Β
ΠΠααρράάδδεειιγγμμαα 1199 Δύο πωλητές παγωτού Α και Β, δραστηριοποιούνται το καλοκαίρι σε μία μακρόστενη παραλία. Τα προϊόντα τους έχουν ίδιες τιμές. Μπορούν να επιλέξουν που θα τοποθετήσουν το κιόσκι τους στην παραλία αυτή. Στο σχήμα της επόμενης σελίδας, η ευθεία παριστάνει την παραλία και τα σημεία, πέντε διαδοχικές ισαπέχουσες θέσεις, όπου μπορούν να τοποθετήσουν ο καθένας το κιόσκι του (ακόμα και στο ίδιο σημείο και οι δύο). Οι πελάτες τους κατανέμονται σχετικά ομοιόμορφα σε όλη τη παραλία (βλ. εικόνα). Επίσης, δεν έχουν διάθεση να περπατούν άσκοπα στον ήλιο. Που πιστεύετε ότι θα τοποθετήσουν τα περίπτερά τους οι πωλητές; Σε ποια γενικότερα συμπεράσματα σας οδηγεί η απάντησή σας;
A 0 0,5 1 1,5 2 B 3,5 1 1,5 2 2,5 C 3 2,5 2 2,5 3 D 2,5 2 1,5 3 3,5 E 2 1,5 1 0,5 4
Εντοπίστε το σημείο ισορροπίας
http://users.uom.gr/~acg 134
ΠΠααρράάδδεειιγγμμαα 2200 ((MMaattcchhiinngg PPeennnniieess GGaammee)) Είναι απόγευμα στο κυλικείο. Ο Γιώργος (τεταρτοετής ΟΔΕ, θαμώνας κυλικείου)
συζητά με την Μαρία (πρωτοετής ΟΔΕ, θαμώνας αναγνωστηρίου), την οποία γνώρισε πρόσφατα στις «εγγραφές πρωτοετών». Ακριβέστερα, μόνο ο Γιώργος μιλάει ασταμάτητα, κυρίως για 1 ή 2 θέματα που αφήνουν παγερά αδιάφορη τη Μαρία (π.χ. το ένα είναι το ποδόσφαιρο). Η Μαρία, έτοιμη να «κόψει φλέβες», διακρίνοντας στην είσοδο μία φίλη της, βρίσκει την ευκαιρία να ξεφύγει από τη φλυαρία του Γιώργου και ψελλίζοντας μία δικαιολογία κατευθύνεται προς εκεί. Ο Γιώργος φωνάζει από την άλλη άκρη: «Εντάξει, θα σε δω αύριο στο πάρτι υποδοχής των πρωτοετών», γνωρίζοντας ότι η Μαρία σκεφτόταν να πάει. Αυτή, δεν αντιστέκεται στον πειρασμό να απαντήσει καθώς απομακρύνεται: «Όχι, αν μπορώ να το αποφύγω!». Αργότερα, στο δωμάτιο της παρέα με τη φίλη της, η Μαρία συνειδητοποιεί ότι
βρίσκεται σε δίλημμα. Θέλει να πάει στο πάρτι, όμως υπάρχει κίνδυνος να πέσει πάνω στο Γιώργο. Η εναλλακτική ιδέα είναι να πάει, ως συνήθως, στο αναγνωστήριο για μελέτη αλλά η ζωή δεν είναι μόνο διάβασμα! Λόγω της φράσης που πέταξε φεύγοντας, ο Γιώργος γνωρίζει ότι θέλει να τον αποφύγει. Και είναι πιθανόν αυτός, αντί να πάει στο πάρτι, να της στήσει καρτέρι στο αναγνωστήριο. Από την άλλη πλευρά, αν αυτός πάει στο αναγνωστήριο, τότε εκείνη γιατί να μην πάει στο πάρτι; Βέβαια αν ο Γιώργος ακολουθήσει τη σκέψη της τότε μπορεί να πάει κι αυτός στο πάρτι για να την πετύχει εκεί!
ΠΠααρράάδδεειιγγμμαα 2200 ((σσυυννέέχχεειιαα--22)) Όταν ο Γιώργος έμεινε μόνος του, σκέφτηκε ότι για μια ακόμη φορά τα έκανε
θάλασσα με αυτή την αδικαιολόγητη έμμονη του με τον ΠΑΟΚ (το ένα από τα δύο θέματα που λέγαμε). Σκέφτεται όμως ότι αν του δοθεί μια δεύτερη ευκαιρία, μπορεί επιτέλους να ωριμάσει και να αλλάξει τη διάθεση της Μαρίας απέναντί του. Έχει βέβαια αντιληφθεί ότι μάλλον θα θελήσει να τον αποφύγει, οπότε εκείνη μπορεί να μην έρθει στο πάρτι. Ο Γιώργος όμως, γνωρίζει ότι η Μαρία συχνάζει εναλλακτικά στο αναγνωστήριο. Από την άλλη πλευρά, συνειδητοποιεί ότι αν και αυτή σκέφτεται τα ίδια –κάτι που πράγματι συμβαίνει όπως είδαμε παραπάνω- τότε η Μαρία μπορεί όντως να πάει στο πάρτι ακριβώς για να τον αποφύγει. Ο Γιώργος έχει ζαλιστεί σε επίπεδο ιλίγγου (δεν φημίζεται άλλωστε για την αναλυτική του σκέψη !)
Είναι άγνωστο αν η αμηχανία του Γιώργου οφείλεται στο γεγονός ότι δεν γνωρίζει από στοιχειώδη θεωρία παιγνίων ώστε να βοηθηθεί να λύσει το πρόβλημά του (το θέμα αυτό δεν διδάσκεται στο κυλικείο). Είναι εξίσου αμφίβολο αν η θεωρία παιγνίων (και γενικά η Ποσοτική Ανάλυση) μπορεί να δώσει λύσεις σε προβλήματα όπως το παραπάνω. Παρ’ όλα αυτά, διαμορφώστε το σενάριο ως παίγνιο και βρείτε την άριστη μεικτή στρατηγική για κάθε παίκτη καθώς και την τιμή του παιγνιδιού. Περιγράψτε το φυσικό νόημα της άριστης λύσης που βρήκατε.
ΠΠααρράάδδεειιγγμμαα 2211 Τα κόμματα των Δημοκρατικών και των Ρεπουμπλικάνων διεξάγουν
ταυτοχρόνως συνέδρια για να αναδείξουν τον υποψήφιό τους για τις προεδρικές εκλογές. Υπάρχουν τρεις υποψήφιοι στο ΔΚ για το χρίσμα, ενώ στο ΡΚ οι υποψήφιοι είναι δύο. Στον επόμενο πίνακα υπάρχουν εκτιμήσεις αναλυτών αναφορικά με τα ποσοστά (εκλεκτόρων) που μπορεί να κερδίσει κάθε κόμμα στις επερχόμενες προεδρικές εκλογές, ανάλογα με τον συνδυασμό υποψηφίων που θα πάρουν τελικά το χρίσμα.
Είναι λογικό, κάθε κόμμα να θέλει να αναδείξει τον υποψήφιο που φαίνεται να μπορεί να μεγιστοποιήσει τη διαφορά, σε ποσοστό εκλεκτόρων που θα τον υποστηρίξουν, κατά τις προεδρικές εκλογές. Να διαμορφώσετε το πρόβλημα ως παίγνιο, κατασκευάζοντας κατάλληλο πίνακα πληρωμών (που να αναφέρεται στο Δημοκρατικό κόμμα). Να βρείτε την άριστη στρατηγική για κάθε κόμμα και την τιμή του παιγνιδιού. Σχολιάστε την άριστη λύση.
ΠΠααρράάδδεειιγγμμαα 2211 ((σσυυννέέχχεειιαα--44)) Μετά την ολοκλήρωση της αλγεβρικής επίλυσης, οι άριστες μεικτές στρατηγικές είναι:
ΔΚ : (3/8, 5/8, 0)
ΡΚ : (7/16, 9/16)
Τιμή του παιγνίου : V(Α) = -6,25 (=-50/8)
Φυσικό νόημα;
http://users.uom.gr/~acg 144
ΠΠααρράάδδεειιγγμμαα 2222 ((CCoouurrnnoott DDuuooppoollyy)) Δύο επιχειρήσεις (Ε1, Ε2) επικρατούν σε μία αγορά και παράγουν ένα όμοιο προϊόν (υποθέτουμε για ευκολία σε ακέραιες μονάδες). Δεν υπάρχει συνεργασία και η (φθίνουσα) συνάρτηση ζήτησης καθορίζει την τιμή του προϊόντος. Οι δύο επιχειρήσεις ανταγωνίζονται σε σχέση με την ποσότητα παραγωγής (που καθορίζει την τιμή του προϊόντος στην αγορά) και φυσικά δρουν ορθολογιστικά. Έστω: P1 = P2 = P, η τιμή του προϊόντος της Ε1 ή της Ε2 Q1 = παραγόμενη ποσότητα της Ε1 και Q2 = ποσότητα της Ε2 C1 = C2 = C = 3 χ.μ., μοναδιαίο κόστος παραγωγής ίδιο Q = Q1 + Q2, συνολική ζήτηση Όπου P = f(Q) = 30 – 4Q για Q ≤ 5 και P = 0 για Q > 5 Π1 = f(Q)*Q1 – C*Q1, συνάρτηση κέρδους της Ε1 Π2 = f(Q)*Q2 – C*Q2, συνάρτηση κέρδους της Ε2
http://users.uom.gr/~acg 145
ΠΠααρράάδδεειιγγμμαα 2222 ((σσυυννέέχχεειιαα –– 11)) Οπότε για Q1, Q2 = 0, 1, 2, 3, 4, 5 έχουμε ότι:
Π1 = [30 – 4 (Q1 + Q2)]*Q1 – 3*Q1
Π2 = [30 – 4 (Q1 + Q2)]*Q2 – 3*Q2
όταν Q = Q1 + Q2 ≤ 5 και
Π1 = – 3*Q1
Π2 = – 3*Q2
όταν Q = Q1 + Q2 > 5 Να κατασκευαστεί ο πίνακας πληρωμών και να βρεθεί η άριστη στρατηγική για κάθε επιχείρηση (μην τολμήσετε να γυρίσετε σελίδα αν δεν φτιάξετε πρώτα το δικό σας πίνακα !!)
Μπορείτε να επαληθεύσετε τον πίνακα και να βρείτε την ισορροπία Nash;
http://users.uom.gr/~acg 147
ΠΠααρράάδδεειιγγμμαα 2233 ((BBiigg mmoonnkkeeyy,, LLiittttllee mmoonnkkeeyy)) Δύο μαϊμούδες (μία μεγάλη και μία μικρότερη: BM, LM), συνήθως τρέφονται από καρπούς (καρύδες) που πέφτουν από τα δέντρα. Καμιά φορά όμως, δεν υπάρχουν καθόλου καρύδες στο έδαφος. Τότε, σκαρφαλώνουν στο δέντρο να κόψουν κανένα καρπό (αυστηρά ένας καρπός σε ένα δέντρο) τον οποίο πετάνε στο έδαφος για να τον φάνε. Μία καρύδα αποδίδει συνολικά 10 θερμίδες. Η ΒΜ για ν’ ανέβει στο δέντρο να κόψει τον καρπό καταναλώνει 2 θερμίδες ενώ η LM δεν καταναλώνει καθόλου θερμίδες για το σκοπό αυτό. Αν ανέβει η ΒΜ τότε παίρνει 6 θερμίδες από την καρύδα γιατί η LM προλαβαίνει να φάει ένα μέρος, παίρνοντας 4 θερμίδες. Αν ανέβει η LM τότε η ΒΜ παίρνει 9 θερμίδες και η LM 1 θερμίδα μόνο (που να προλάβει!). Αν ανέβουν και οι δυο στο δέντρο τότε η ΒΜ παίρνει 7 θερμίδες και η LM 3 θερμίδες (η ΒΜ την εμποδίζει να πάρει ίσο μερίδιο). Φυσικά, αν δεν ανέβει καμία στο δέντρο δεν τρώει κανένας! Προσοχή: οι δύο μαϊμούδες αποφασίζουν ταυτόχρονα την κίνησή τους. Να διαμορφωθεί ο πίνακας πληρωμών και να βρεθεί η άριστη στρατηγική για τις δύο μαϊμούδες.