Document

Report
Wstęp do Teorii Gier
Dzielenie ciastka
Handlowanie z sekwencyjnymi ofertami
(alternating offers bargaining)
• Dwóch graczy, Adam i Bartek negocjują ile kto
dostanie ciastka wielkości 1
• W czasie 0, Adaś składa Bartkowi ofertę
– Jeśli Bartek zaakceptuje, Adaś dostanie
– Jeśli Bartek odrzuci, wtedy:
, a Bartek
• W czasie 1, Bartek składa Adasiowi ofertę
– Jeśli Adaś zaakceptuje, Bartek otrzymuje , a Adaś
– Jeśli Adaś odrzuci, musi złożyć następną ofertę w czasie 2
• Proces trwa dopóki któryś z nich nie zaakceptuje
• Ponieważ chłopcy są niecierpliwi, okresowe dyskonto
wynosi
Stacjonarna równowaga bez opóźnień
• Bez opóźnień – wszystkie oferty równowagi
są zaakceptowane
• Stacjonarne – Oferty równowagi nie zależą od
czasu
Niech
będzie ofertami równowagi
–
–
Co Bartek oczekuje dostać jeśli odrzuci ofertę
Adasia?
A zatem w równowadze:
–
I podobnie dla Adama:
Niecierpliwość czy naturalne prawa
natury?
Stacjonarna równowaga bez opóźnień
• Istnieje góra jedna równowaga stacjonarna bez opóźnień
• Trzeba jeszcze udowodnić, że w ogóle istnieje taka równowaga
• Rozważmy następujące strategie:
• Gracz A: Zawsze zaoferuj , zaakceptuj każdą
jeśli
• Gracz B: Zawsze zaoferuj
, zaakceptuj każdą
jesli
Stacjonarna równowaga bez opóźnień
• Jednorazowe odstępstwo - one-shot deviation - od
strategii s w podgrze jest strategią, która różni się od s
tylko jedną akcją dla początkowego wierzchołka tej
podgry
• Zasada jednorazowego odstępstwa – one-deviation
property – profil strategii jest SPNE wtedy i tylko wtedy,
gdy żaden z graczy nie posiada zyskownego dla siebie
jednorazowego odstępstwa w żadnej podgrze:
– Zasada ta zachodzi dla gier nieskończonych jeśli spełnione
są pewne warunki
– Na szczęście te warunki spełnione są przez naszą grę
Stacjonarna równowaga bez opóźnień
• Udowodnimy, że poniższy profil strategii jest SPNE:
• Trzeba pokazać, że żaden gracz nie ma zyskownego
jednorazowego odstępstwa w żadnej podgrze
• Podgry zaczynające się od oferty Adasia:
– Jeśli Adaś zaoferuje
• Bartek zaakceptuje
• Ale Adasia wypłata będzie niższa niż w równowadze
– Jeśli Adaś zaoferuje
• Bartek odrzuci i zaoferuje
• Adaś zaakceptuje, ale jego wypłata będzie mniejsza
Stacjonarna równowaga bez opóźnień
• Podgry zaczynające się od Adasia odpowiadającego na
oferty Bartka:
– Jeśli Adaś odrzuci ofertę
• On zaoferuje
i jego wypłata będzie
– Jeśli Adaś zaakceptuje ofertę
• Wtedy też nie jest to opłacalne
• Podobnie strategia Bartka jest optymalna w każdej
podgrze
• Zatem udowodniliśmy, że profil strategii jest SPNE
Stacjonarna równowaga bez opóźnień
• Ariel Rubinstein (1982) pokazał, że to jest jedyna
równowaga doskonała w podgrach (SPNE) jeśli
chłopcy są niecierpliwi (choćby minimalnie)
– Ta równowaga jest również efektywna
• Siła negocjacyjna (bargaining power)
– Kawałek dla Adasia
– Kawałek dla Bartka
– Kto bardziej cierpliwy, ten więcej dostanie
• A co jeśli są jednakowo cierpliwi?
– Korzyść pierwszego, ale ona znika dla
Prisoners’ dilemma – how to get cooperation?
Pareto optimum
A
B
A
(0,0)
(1,-2)
B
(-2,1)
(-1,-1)
Equivalent to:
Cooperate
Defect
Cooperate
(R,R)
(S,T)
Defect
(T,S)
(U,U)
Where T>R>U>S and R≥(S+T)/2
R – reward, S – sucker, T – temptation, U - uncooperative
Goal: get cooperation
Nash
equilibrium
Get cooperation in prisoners’ dilemma
• Three ways:
– Iterated game
– Meta-game
– Experiments
1 – Iterated game
• In most real situations, the game is played many
times
• Suppose we play the game N times:
– Domino effect: solve by backward induction
• Two ways to overcome domino effects:
– Real players rarely conform to strict rationality
– We don’t know how many games we are gonna play
• Suppose, p is the probability of next iteration. We play the
first game with probability 1, the next with probability p, the
second next with probability p2, etc.
1 – Iterated game
• Grim trigger strategy (GTS):
– Play C in the first game
– If your opponent played C always before, play C
– If your opponnet ever deviated in the past, play D
• Suppose that my opponent plays GTS.
– If I play always C, I will get
– If I play first m times C and then D, I will get
1 – Iterated game
• So I should never play D, if for any m:
• Which is equivalent to:
• Example
A
B
A
(0,0)
(1,-2)
B
(-2,1)
(-1,-1)
2 – Meta-game
• 1 Level: Mrs Column makes her decision dependent on her
expectation of what strategy will Mr Raw choose
1.
Choose A independent on her expectation about Mr Raw’s
strategy
Choose the same strategy as she expects Mr Raw to use
Choose the opposite strategy to what she expects about Mr
Raw’s strategy
Choose B independent on her expectation about Mr Raw’s
strategy
2.
3.
4.
Pani Kolumna
B
-2
AA
A
0
0
1
B
1
-2 -1 -1
Wiersz
Wiersz
A
Pani Kolumna
AB
BA
-2
1
BB
A
0
0
0
0
-2
1
B
1
-2
1
-2 -1 -1 -1 -1
2 – Meta-game
Pani Kolumna
Pan Wiersz
AA
AB
BA
BB
AAAA
0
0
0
0
-2
1
-2
1
AAAB
0
0
0
0
-2
1
-1 -1
AABA
0
0
0
0
1
-2 -2
AABB
0
0
0
0
1
-2 -1 -1
ABAA
0
0
-1 -1 -2
1
-2
ABAB
0
0
-1 -1 -2
1
-1 -1
ABBA
0
0
-1 -1
1
-2 -2
ABBB
0
0
-1 -1
1
-2 -1 -1
BAAA
1
-2
0
0
-2
1
-2
BAAB
1
-2
0
0
-2
1
-1 -1
BABA
1
-2
0
0
1
-2 -2
BABB
1
-2
0
0
1
-2 -1 -1
BBAA
1
-2 -1 -1 -2
1
-2
BBAB
1
-2 -1 -1 -2
1
-1 -1
BBBA
1
-2 -1 -1
1
-2 -2
BBBB
1
-2 -1 -1
1
-2 -1 -1
1
1
1
A
A (0,0)
B (1,-2)
B
(-2,1)
(-1,-1)
2 Level: Mr Raw decision dependent on his
predictions about Mrs Column’s strategy:
– 16 strategies e.g. AAAA – always play A;
ABAB – play B if your prediction is that Mrs
Column uses strategy AB or BB, otherwise
play A
1
1
1
Mr Raw
BABB – Cooperate if and only if you are
convinced that your opponent will
cooperate if and only if you will cooperate
(this strategy weakly dominates all the
others)
1
Mrs Column
AB – Cooperate if and only if you are
3 Sposób – praktyka i Wet za wet
●
Robert Axelrod przeprowadził eksperyment w
1984 roku:
●
●
●
●
Specjaliści mieli napisać programy implementujące
jakąś strategię – 14 programów
Zwycięzca – Anatol Rapoport strategia Tit for Tat
czyli wet za wet
Axelrod opublikował wyniki i podał programy,
które zwalczają Tit for Tat
W drugiej rundzie udział wzięło 62 specjalistów
●
.... i znowu wygrał Rapoport z niezmienionym
programem
Wet za wet – Tit for tat
●
Wet za wet:
●
●
●
W pierwszej partii zagraj NZ
W każdej następnej zagraj to, co Twój
przeciwnik zagrał poprzednim razem
4 właściwości dobrej strategii:
●
●
●
●
Przyjazna – zaczyna od kooperacji i nie zdradza jako
pierwsza
Odwetowa – powinna zdecydowanie karać zdradę
Przebaczająca – po ukaraniu powinna być skłonna
do dalszej kooperacji
Przejrzysta – jej decyzje spójne i łatwe do
Uproszczony poker
• Jaś i Małgosia pod nieobecność
baby jagi grają w karty w domku
na kurzej łapce:
– Oboje kładą 1 cukierka na stół
– Z talii złożonej tylko z asów i króli
losują po jednej karcie
– Jasiu może podbić stawkę o 2
cukierki lub spasować
– Jeśli spasuje Małgosia zabiera
cukierki ze stołu
– Jeśli podbije, wówczas Małgosia
może sprawdzić lub spasować
– Jeśli spasuje, Jasiu zabiera całą
stawkę
– Jeśli sprawdzi, wówczas porównują
karty i wyższa wygrywa, w
przypadku remisu dzielą stawkę po
równo.
Równoważna postać strategiczna
• Jasiu podbija…
–
–
–
–
11 zawsze
12 tylko gdy ma asa
21 tylko gdy ma króla
22 nigdy
• Małgosia sprawdza…
–
–
–
–
11 zawsze
12 tylko gdy ma asa
21 tylko gdy ma króla
22 nigdy
Równoważna postać strategiczna
• Jasiu podbija…
–
–
–
–
11 zawsze
12 tylko gdy ma asa
21 tylko gdy ma króla
22 nigdy
• Małgosia sprawdza…
–
–
–
–
11 zawsze
12 tylko gdy ma asa
21 tylko gdy ma króla
22 nigdy
Dwie równowagi Nasha, dwa punkty siodłowe

similar documents