第10回

Report
論理生命学第10回:
経験ベイズ法と周辺尤度
渡辺一帆
内容
経験ベイズ法
周辺尤度最大化による事前分布の最適化
さらに事前分布を仮定する階層ベイズ法
対数周辺尤度と汎化誤差
経験ベイズ法(1)
 ベイズ推定
学習モデル:
n
p(x | w)   p( xi | w)
n
i 1
xn  {x1,...,xn }
w
パラメータ
学習データ
事前分布:
p(w | α)
w
パラメータ
α
ハイパーパラメータ
p(x n | w ) p(w | α )
事後分布: p(w | x , α) 
p(x n | α)
n
x n に対する α の尤度
経験ベイズ法(2)
 周辺尤度
n
Z (x )  p(x | α)    p( xi | w) p(w | α)dw
n
n
i 1
を最大にする
α
を探す
・経験ベイズ法
・タイプⅡ最尤推定法
☆(離散化した)
決まった
さらに
p(α )
α
α
の候補について Z (x n ) を計算
を使って事後分布を計算
を仮定する場合もあり(階層ベイズ法)
ベイズ2値回帰(1)
n
n
バイナリ系列 x  {xi }i 1
xi {0, 1}
各時刻において確率 ri [0 1] で 1
1  ri
10100011100101101…
で 0
r  {ri }in1 生起確率
n
p(x | r )   ri xi (1  ri )1 xi
n
Ex) 神経細胞の発火率推定
i 1
e wi
ri 
で変換
1  e wi
w  {wi }in1
ri
n
p(x n | w)   exp{xi wi  log(1  e wi )}
i 1
wi
ベイズ2値回帰(2)
  n1

事前分布 p(w |  )  exp  ( wi 1  wi ) 2 
 2 i 1

確率の変動は滑らか
 :ハイパーパラメータ
大
周辺尤度の計算、最大化
Z (x n )   p(x n | w ) p(w |  )dw
事後分布
EM法では、
Q( ; ~ )   p (w | x n , ~ ) log p (x n , w |  )dw
周辺尤度:
解析的に計算できないことが多い
⇒ 近似法、MCMC法
小
階層ベイズ法(1)
例)
 ( y  f ( x, w))2 
1
p( y | x, w) 
exp

2
2


  d 2
  || w ||2 
1
1
p(w |  ) 
exp
exp  w j 

2 
2
2

 2 j 1 
D  ( x1, y1 ), ( x2 , y2 ),...,( xn , yn )
n
事後分布:
p(w | D,  )   p( yi | xi , w) p(w |  )
i 1
1 n
 d 2
2
log p(w | D,  )    ( yi  f ( xi , w))   w j
2 i 1
2 j 1
二乗誤差
+(定数)
正則化項

:正則化パラメータ
階層ベイズ法(2)

p(w | α) 
j
d
発展版
α  { 1,  2 ,..., d }
 1 d

2
exp


w


j
j 
d
2
j

1
2


Automatic Relevance Determination(ARD)
j 1
1 
p(α)   p( j )  
 exp  j  j 1
j 1
j 1 (  )
d
さらに
d
ガンマ分布
超事前分布(hyperprior )
 p( w
j
|  j ) p( j )d j  
, 
ハイパーハイパーパラメータ
j
 1
 1 
exp  j w2j 
 exp  j  j 1d j
2
 2
 ( )
  1 / 2
1

(  ) 2 1  w2j / 2


 1/ 2
t分布
階層ベイズ法(3)
正規分布
t分布(一つのα)
t分布(α複数)
w2
w1

w
の推定結果はスパースになる
ほとんどの w j
0
、いくつかだけが値をもつ
 スパース性の利点
計算効率(時間、メモリ)、結果の解釈(変数選択)
 実際の解法・・・ w と
α についての積分
変分ベイズ法など
周辺尤度と汎化誤差(1)
 予測分布
事後分布
p( x | x n )   p( x | w ) p(w |x n )dw
 n

p
(
x
|
w
)
p
(
x
|
w
)

 p0 (w)dw

i


 i 1


 n

p
(
x
|
w
)

 p0 (w)dw
i
  
i 1

Z (x n1 )

Z (x n )
 汎化誤差

p( x | w 0 ) 
G(n)  Exn  p( x | w 0 ) log
dx
n
p( x | x ) 

x  xn1 とみなした。
真の分布: p( x | w0 )
真の分布から予測分布
がどれくらいずれたか
データセットの出方についての平均
G(n)  F (n  1)  F (n)  S
F (n)  Exn [F (xn )]  Exn [ log Z (xn )]
F (n) (自由エネルギー)は累積汎化誤差
S    p( x | w 0 ) log p( x | w 0 )dx
はエントロピー
周辺尤度と汎化誤差(2)
 nが十分大きいとき
F (n)  nS   log n
 :学習モデルと事前分布によって決まる定数
 汎化誤差
G ( n) 

n
例題数が増えれば汎化誤差は減少
 事後分布が平均 w 0 の正規分布に近づくとき

 潜在変数モデルでは、一般に   d だが、
2
いくつかのモデルで  の値が調べられている。
(混合分布、隠れマルコフモデルなど)
d
2
d :パラメータ数
まとめ
経験ベイズ法
周辺尤度最大化
階層ベイズ法
周辺尤度と汎化誤差

similar documents