混合戦略1

Report
混合戦略ナッシュ均衡とは?
(1)ナッシュ均衡が存在しないゲームが結構ある。
たとえば、コイン合わせゲーム。どの戦略の組
み合わせにも逸脱のインセンティブがある。
プレイヤー2
表を出す 裏を出す
プレイヤー1
表を出す (1,-1) (-1,1)
裏を出す (-1,1) (1,-1)
戦略集合の拡張とは?
今までは表をだすか、あるいは裏を出すかという2
者択一の選択であったが、両方の戦略の混合を
考えることができる。たとえば、さいころを振り、出
た目によって戦略を決めるような方法もある。ただ
し、各戦略には自由に確率(あるいは確率分布)
を与えることができると考えます。すなわち、表を
出す戦略に確率pを、裏を出す戦略に確率1-p
を与えると考えます。たとえば、表を出す戦略に
確率1/3(さいころの目が1と2が出たら)で、裏
を出す戦略に確率2/3(さいころの目が3,4,5,
6が出たら)で採用すると考えます。混合戦略と呼
ばれます。
期待値の考え方: 具体例:くじA,B を考える
くじA:5%の確率で100 万円,95%の確率でハズレ
(0 万円)
くじB:20%の確率で8 万円,80%の確率で4 万円
・ これらを比較する方法(の1 つ)として考えられるの
が,期待値(確率変数の平均値)を計算する方法で
ある。
期待値の公式
・ 確率的にあらわれる数値,あるいは確率的にあら
われる状態に対して数値を割り当てる関数を,確率
変数と呼ぶ。(例:サイコロの目)
・ それぞれの確率変数に,それがどれくらいの確率
であらわれるかを掛けたものを合計して、
足したものを期待値(平均値)と呼ぶ。
上の具体例の期待値
くじA の期待値:100 万円×0.05+0 万円
×0.95=5 万円
くじB の期待値:8 万円×0.2+4 万円×0.8
=4.8 万円
サイコロの目(サイコロの目を賞金額とすれ
ば)の期待値(平均賞金額)
1×1/6+2×1/6+・・・+6×1/6=21/6=3.5
ペナルティキック(コイン合わせゲーム
に代えて)
ペナルティキックはキッカーとキーパーの1対1。
キーパーはボールの方向を読む。キッカーは
キーパーの読みを外そうとする。
キッカー
左
右
キーパー
左
(1,-1) (-1,1)
右
(-1,1) (1,-1)
• キーパーの混合戦略は、
( p1,1  p1), 0  p1  1
• キッカーの混合戦略は、
( p2 ,1  p2 ), 0  p2  1
• たとえば、 p1  p2  1/ 2 ならば、キー
パーは確率1/2で左に、確率1/2で右に
飛ぶ。キッカーは確率1/2で左にけり、確
率1/2で右にける。
ペナルティキック‧ゲーム
各セルの確率の積は、そのセルが起きる
確率
キッカー
左
キーパー
左
右
p1 p2
右
p1(1  p2 )
(1  p1) p2 (1  p1)(1  p2 )
• 両プレイヤーが混合戦略を採用する場合は、各
プレイヤーは、自らの期待利得を最大にするよう
に、混合戦略を決める。キーパーの期待利得は、
Eキーパー(左)  p2 1 ( 1  p2 ) (1)
 2 p2  1
• キーパーの期待利得は、
Eキーパー(右)  p2(  1)( 1  p2 )1
 1  2 p2
• しかし、キーパーの期待利得はキーパーの混合
戦略に依存していない。
• もし p2
、  1/ 2 (キッカーが左にキックする確
率)ならば、
Eキーパー(左)  2 p2  1<1  2 p2
 Eキーパー(右)
キッカーが左にキックする確率が1/2より小さい
ので、キーパーは右に飛ぶ。ただし、1/2は
2 p2  1  1  2 p2 すなわち、
4 p2 2 から 計算さ れる
• もし
p、2>1/ 2 ならば、
Eキーパー(左)  2 p2 1>1  2 p2
 Eキーパー(右)
キッカーが左にキックする確率が1/2より大きい
ので、キーパーは左に飛ぶ。ただし、1/2は
2 p2 1  1  2 p2 すなわち、
4 p2 2  p2 1 /2
• もし
p2、  1/ 2 ならば、
Eキーパー(左)  2 p2  1=1  2 p2
 Eキーパー(右)
• キッカーが左にキックする確率が1/2の
時、キーパーは左に飛ぶことと、右に飛ぶ
ことが無差別である。
• キーパーの最適反応関数(左に飛ぶ確率
)は、
 0 

Bキーパー
( p2) = p:1 0  p1 1

1



も し 、 p2  1/ 2
も し 、 p2  1/ 2
も し 、 p2  1/ 2
p1
• もし
ば、
p、1  1/ 2(キッカーが左に蹴る確率)なら
Eキッ カー(左) 1 -2 p1>2 p1-1
 Eキッ カー(右)
キーパーが左に飛ぶ確率が1/2より小さいので、
キッカーは左に蹴る。
もし、 p>
1 1/ 2 ならば、
Eキッ カー(左) 1 -2 p1<2 p1-1
 Eキッ カー(右)
キーパーが左に飛ぶ確率が1/2より大きいので、
キッカーは左に蹴る。
• キッカーの最適反応関数(左に蹴る確率)は、
 1

Bキッ カー
( p1 ) = p2: 0  p 2 1

0



も し 、 p1  1/ 2
も し 、 p1  1/ 2
も し 、 p1  1/ 2
p2
2人の最適反応関数の図示
キッカーの左へ蹴る確率
キッカーの反応関数
1
キーパーの反応関数
1/2
1/2
1
キーパーの
左へ飛ぶ
確率
p1
• 混合戦略ナッシュ均衡
( p1,1  p1) ( 1/ 2,1/ 2)
( p2 ,1  p2 ) ( 1/ 2,1/ 2)
• ナッシュ均衡の期待利得の最大化と予
想と実際に一致(予想の一貫性)を満足
している。また、混合戦略ナッシュ均衡
は2つの純戦略から得られる利得を等
しくすることによって得られている。
混合ナッシュ均衡(1/2,1/2)はナッシュ均
衡の定義2に一致する。
ナッシュ均衡は次のような性質を満たす戦略
*
のペア s  S  S 
である。

S
1
2
n
*
*
si  Bi (si )
for all i  N
ただし、
Bi (si )  si  Si : ui (si , si )  ui (si, si )
for all si  Si 
• もし
ば、
p1  1/ 2
(キーパーが左に飛ぶ確率)なら
Eキッ カー(左) 1 -2 p1  1/ 2  2 p1-1
 1/ 2  Eキッ カー(右)
キッカーはどのように戦略 p2 を変更しても、利得は
変化しない。したがって、
uキッ カー(si , si )  uキッ カー(si, si )
を満足する。
• もし p
2
ば、
 1/ 2 (キッカーが左に蹴る確率)なら
Eキーパー(左)  2 p2  1=1  2 p2
 Eキーパー(右)
キーパーはどのように戦略 p1 を変更しても、利得
は変化しない。したがって、
uキーパー(si , si )  uキーパー(si, si )
を満足する。
恋愛ゲームの混合戦略ナッシュ均衡
計算を簡単にするために、前出の恋愛ゲームをよ
り簡単にしている。
女性
男性
野球観戦
野球観戦
(2,1)
ディズニー
ランド 1  p2
(0,0)
ディズニー
ランド
(0,0)
(1,2)
p1
1  p1
p2
• 両プレイヤーが混合戦略を採用する場合は、
各プレイヤーは自らの期待利得を最大にする
ように、混合戦略を決める。男性の期待利得は
E男性(野球観戦)  p2 2 ( 1  p2 ) 0  2 p2
E男性 (ディ ズニーラ ンド )  p2 0 ( 1  p2 )1
 1  p2
ただし 、 p1は女性が野球観戦に行く 確率
• 2つの戦略が等しい期待利得を与える確率は
2 p2  1  p2  p2  1/ 3およ び1-p2  2 / 3
• 男性の最適反応関数(野球に行く確率)は
 0 

B男性
( p2) = p:1 0  p1 1

1



も し 、 p2  1/ 3
も し 、 p2  1/ 3
も し 、 p2  1/ 3
• 女性の期待利得は、
E女性(野球観戦)  p1 1 ( 1  p1 ) 0  p1
E女性 (ディ ズニーラ ンド )  p1 0 ( 1  p1 ) 2
2 ( 1  p1 )
2つの戦略が等しい期待利得を与える確率
は
p1 2 ( 1  p1 )  p1  2 / 3およ び1-p1  2 / 3
• 女性の最適反応関数は、
 1

B女性
( p1) = p2: 0  p 2 1

0



も し 、 p1 2 /3
も し 、 p1 2 /3
も し 、 p1 2 /3
2人の最適反応関数の図示
p2女性の野球の確率
1
B女性
( p1)
女性の反応関数
男性の反応関数
B男性
( p2)
1/3
男性の野球の確率
2/3
1
p1
• 混合戦略ナッシュ均衡は2つの最適反応関
数混合戦略ナッシュ均衡の交点に対応する
。混合戦略ナッシュ均衡は、
( p1,1  p1) ( 1/3 ,2 /3 )
( p2 ,1  p2 ) ( 2 /3 ,1/3 )
• 恋愛ゲームではこの混合ナッシュ均衡と2つ
の純戦略ナッシュ均衡の合計3つある。すべ
て、2つの反応関数の交点に対応する。
他の2つの純戦略ナッシュ均衡は、
( p1,1  p1) ( 1 ,0 )
( p2 ,1  p2 ) ( 1 ,0 )
( p1,1  p1) ( 0 ,1 )
( p2 ,1  p2 ) ( 0 ,1 )
タカ‧ハトゲームの利得表
ハト
タカ
ハト
(2,2)
(1,3)
タカ
(3,1)
(0,0)
プレイ ヤー2
プレイ ヤー1
• プレイヤー1の期待利得は、
Eプレイ ヤー1 (ハト )  p2 2 ( 1  p2 )1  p2 1
Eプレイ ヤー1 (タ カ)  p2 3 ( 1  p2 ) 0 3 p2
2つの戦略が等しい期待利得を与える確率
は
p2 +1  3 p2  p2  1/2 およ び1-p2 1 /2
• プレイヤー1の最適反応関数(ハトをとる確
率)は、
0  すなわち、 ハト

Bプレイ ヤー1
( p2) =
p:1 0  p1 1
 1 すなわち、 タ カ

も し 、 p2>1/2
も し 、 p2  1/2
も し 、 p2>1/2
• プレイヤー2の期待利得は、
Eプレイ ヤー2 (ハト )  p1 2 ( 1  p1)1  p1 1
Eプレイ ヤー1 (タ カ)  p1 3 ( 1  p1 ) 0
3 p1
2つの戦略が等しい期待利得を与える確率は
p1+1  3 p1  p1  1/2 およ び1-p1 1 /2
• プレイヤー2の最適反応関数は、
0  すなわち、 ハト

Bプレイ ヤー2
( p1) =
0 , 1 
 1 すなわち、 タ カ

も し 、 p2<1/2
も し 、 p2  1/2
も し 、 p2>1/2
2人の最適反応関数の図示
p2
1
タカ
1/2
ハト
プレイヤー2の反応関数
プレイヤー1の反応関数
1/2
タカ 1
p1
じゃんけんゲームにおける混合戦
略ナッシュ均衡。
純戦略ナッシュ均衡は存在しないが、混合戦略
ナッシュ均衡は存在する。
グー
チョキ
パー
グー
0,0
1,-1
-1,1
チョキ
1,-1
0, 0
1.-1
パー
1,-1
-1,1
0, 0
じゃんけんゲームにも純粋ナッシュ
均衡は存在しない。
グー
チョキ
パー
グー
0,0
1,-1
-1,1
チョキ
1,-1
0,0
1.-1
パー
1,-1
-1,1
0,0
• プレイヤー1は、 ( p1, p2 ,1  p1  p2 )
• プレイヤー2は、
( q1, q2 ,1  q1  q2 )
という混合戦略をとる。期待値は同じになる
Eプレ イ ヤー1 (グー)  p1 0  p 2 1  (1) ( 1  p1  p 2 )
 1  p1
Eプレイ ヤー1 (チョ キ)  p1 1  p 2 0  1( 1  p1 p 2 )
 2 p1 p 2 1
Eプレイ ヤー1 (パー)  p1 1  p 2 -1  0 ( 1  p1 p 2 )
 p1  p 2
• 混合戦略ナッシュ均衡は一つであり、
( p1, p2 ,1  p1  p2 ) ( 1/3 ,1/3 ,1/3 )
( q1, q2 ,1  q1  q2 ) ( 1/3 ,1/3 ,1/3 )
期待値は同じになる
1
1
1
Eプレ イ ヤー1 (グー)  0  1  ( 1 )  0
3
3
3
1
1
1
Eプレイ ヤー1 (チョ キ)  (1)  0  ( -1)  0
3
3
3
1
1
1
Eプレイ ヤー1 (パー)  1  (1)  0  0
3
3
3
ナッシュは次の定理も証明した。
有限ゲームおいて、混合戦略ナッシュ
均衡の混合戦略を構成する純戦略は他
のプレイヤーの混合戦略に対して最適
戦略になっている。なぜなら、混合戦略
ナッシュ均衡を構成する純戦略は同じ
期待利得を与えるからです。
ナッシュは次の定理を証明した。
戦略の数が有限である有限ゲームお
いて、戦略集合を混合戦略まで含め
ると、この有限ゲームには必ずナッシ
ュ均衡が存在する。

similar documents