SlideShare a Scribd company logo
ベイズ統計学入門

      東京大学 三好雄也



1
注意


当資料はあくまで文系学生が開催した勉強会用に作成した補助資料です。解釈や前
提を間違えている可能性もあるかもしれません。

あくまで、ベイズ統計学がどのようなモノなのかを大雑把にイメージするための資料
としてご参考ください。

特に数式の部分は省略してもよいかと・・・。

また当資料はプレゼンを意図して作ったものではないため、プレゼンの作法等を無視
していますし、資料だけ読んでも理解しにくいかもしれません。その点ついてもご了承
くださいませ。




2
目次


1.       ベイズ統計学とは

2.       ベイズの定理

3.       自然共役(事前)分布

4.       モンテカルロ法

5.       MCMC ギブズサンプリング

6.       応用例 ベイジアン線形回帰分析

7.       終わりに




     3
数理統計学の分類


     母集団                 母集団
     真の値                確率変動



推定          デザイン   推定
              漸
              近
              理
      標本      論          標本
     確率変動               確定したもの


     頻度主義                ベイズ

4
ベイズ統計学とは
       結果を前提に母集団を予想する、結果から母集団を予想する
         ⇔ 母集団を前提に、結果から母集団を予想する。

       未知母数(パラメータ)はすべて確率変動すると仮定
         頻度主義:母集団(確定)から標本(変数)が発生 → 母集団の推測
         ベイズ:母集団(主観)から発生した標本(確定)をもとに母集団(変数)を推測

       ベイズにおける確率 = 信念の度合い、自信

       ベイズの定理を用いる   ・・・極論してしまえば最尤法の拡張版

       分布全体が推測の対象 ⇔ モデルのパラメータ推定が中心

       新しいデータが観測されたらパラメータを逐次的に更新できる




    5
補足

統計マップ




        倉田一成氏webサイトより抜粋

6
補足

データ解析とモデル
データの解析=統計モデリング
統計モデルとは観測データのパターンをうまく説明できるモデル
    基本は確率分布であり、その確率分布の形を決定するものがパラメータ
「推定」=モデルの当てはまりが良くなるようにパラメータを決定すること


回帰系モデル
                 GLM:指数関数族
                   ポワソン回帰
                   ロジスティック回帰

                 GLMM(Generalized linear mixed model)
                 …過分散データの分析など
                   階層ベイズ




7
ベイズの定理 1


ベイズの定理とは、
                          p y|H p(H)
               p(H|y) =
                             p(y)

                                 ⇔ 事後情報 = データの情報 + 事前情報

y:何らかの情報              H:何らかの仮説
p(H)     事前の確信度      仮説Hが正しいという事前の確信度
p(y|H)   尤度関数    Hが真の際にデータが得られる尤度
p(H|y)   事後の確信度      情報yが得られた後の仮説Hの確信度


P(y)     正規化定数 p(θ|y) + p(not θ|y) = 1 とするためのもの


8
ベイズの定理 例:カジノ


       あるカジノにて、ある人が「7だ!」と叫んだとする。その人がダイスをやっている確
        率はどのように計算されるか?
       なお、ダイスは1~36の数字があり、ルーレットは0,00,1~36の38の数字がある。
       さらに、そのカジノのダイスとルーレットの比率は7:3であるとする。


求めるものは p(ダイス|7)
問題文より、p(ダイス) = 7/10、p(ルレ) = 3/10


ベイズの定理より
              p(7|ダイス)p(ダイス)        1/36 × 7/10
p(ダイス|7) =                   =                       = 0.711 > 0.7
                    p(y)       1/36×7/10 + 1/38×3/10



    9
ベイズの定理 2
統計モデルとは
ある確率変数Yの実現値 y = { y1 , y1 , …yn } から、Yが本来従う確率分布(真の分
布)を推定するためのもの
パラメータとは
統計モデルが平均や分散などの特定の値(特性値)に依存するときの、これらの特
性値のこと。 正規分布、二項分布、ポワソン分布、ガンマ分布、ベータ分布
    ベイズの定理とは
                     p y|θ p(θ)
            p(θ|y) =            ∝ p y|θ p(θ)
                        p(y)
                              ⇔ 事後情報 = データの情報 + 事前情報
y:確率変数     θ:パラメータ
p(θ|y) 事後確率 yが与えられた時のθの確率(密度)関数
p(θ)   事前確率 θに関する確率分布
p(y|θ) 尤度関数 θが与えられた時のyの確率(密度)関数
    情報が増える → その情報を取り入れて事後情報が変化(ベイズ更新)
    10
尤度(関数)とは
Ω = {A,B}
確率 𝑃Ω (?|X) 𝑃Ω (A|X) + 𝑃Ω (B|X) = 1
  ・・・偶数と奇数の目が均等に出るサイコロを振った時の目の予想


尤度𝑃Ω (X|?)    𝑃Ω (X|A) + 𝑃Ω (X|B) = 1
      ・・・何回かサイコロを振った結果から、サイコロの目の作り方を推測
例えば、偶数が出やすいサイコロAと、奇数が出やすいサイコロBがあったとき、どち
らのサイコロか分からない状態でサイコロを振ったとする。このとき、偶数が出る傾向
があれば、そのサイコロはAである可能性が高い(P(偶数|A) > p(偶数|B))と考えら
れる。


つまり、尤度(関数)とは
あるパラメータにおいて、その観測値が得られる確率 → 事前分布に関する関数



 11
尤度と主観確率


確率変数Yの確率密度関数をp(y|θ)に従うとする。この時、n回もしくはn個の独立な
観測値y = { 𝑦1 , 𝑦2 , …𝑦 𝑛 }が得られたとき、これらの観測値に対する同時確率は
                              n
                   p(y|θ) =   i=1 p(yi |θ)


尤度とは「あるパラメータにおいて、その観測値が得られる確率」である。ゆえに事後
分布を調べるためには、その「あるパラメータ」を設定してやる必要がある。

      p y|θ p(θ) … ある分布p(θ)から、その観測値が得られる確率

ただし、その「ある分布」の選び方はどうしても主観的となってしまうため、このことが
頻度主義の統計学からずっと批判され続けていた。
     ⇔ 近年ではこのことがモデルに柔軟性をもたらすと評価されている。

12
ベイズの定理 例:くじ
あるくじがある。このくじを引いてみると、順にはずれ、はずれ、当たりという結果となった。このくじで
当たりが出る確率の分布(事後分布)はどのようになっているか。

当たりが出る確率θ(0≦θ≦1, 𝑦 𝑖 =1)とする。すなわちはずれが出る確率は1 − 𝜃(𝑦 𝑖 =0)
最初の時点ではこのくじに関する情報がないとし、p(θ) = 1 と仮定する                                           主観的!
          一様分布 0から1までの値をとる確率は1/(1-0) 期待値は(1+0)/2
1人目がはずれだったとき、ベイズの定理より 𝑝1 (𝜃|𝑦1 = 0) ∝ 𝑝 𝑦1 = 0|𝜃 𝑝 𝜃 = 1 − 𝜃
2人目がはずれだったとき、𝑝2 (𝜃|𝑦1 , 𝑦2 ) ∝ 𝑝 𝑦1 , 𝑦2 |𝜃 𝑝(𝜃)= 𝑝 𝑦2 |𝑦1 , 𝜃 𝑝(𝑦1 , 𝜃)𝑝(𝜃) = (1 − 𝜃)2
3人目が当たりだったとき、 𝑝3 (𝜃|𝑦1 , 𝑦2 , 𝑦3 ) ∝ 𝑝 𝑦3 |𝑦1 , 𝑦2 , 𝜃 𝑝 𝑦2 |𝑦1 , 𝜃 𝑝 𝑦1 , 𝜃 𝑝 𝜃 = (1 − 𝜃)2 𝜃

                                                 事後分布は左図のようになる。

                                                 事前分布を一様分布とした場合、最尤推定値
                                                 とベイズ推定値は一致する。

                                                 余談となるが、この事前分布のモデルをどう
                                                 するか決定する方法の1つがベイズファクター
   0       0.2     0.4     0.6      0.8      1

  13
事後分布を用いたベイズ統計推論
     事後分布や尤度は複雑になる傾向がある
     特に離散値ではなく、連続値となると、かなり計算が面倒になる

              離散値:サイコロやコイントスなどの1回1回の試行 確率関数p(y)
                             𝑁
             平均 μ =     𝑖               𝑦𝑖 𝑝 𝑦𝑖
                                     𝑁
             分散 𝜎 2 =           𝑖       ((𝑦 𝑖 −𝜇)2 𝑝 𝑦 𝑖 )

              連続値:確率密度関数f(y)
                      𝑁
             平均 μ = 𝑖=1(𝑦𝑓 𝑦 )𝑑𝑦
                                          𝑁
             分散 𝜎 2 = =                 𝑖=1
                                            ((𝑦    − 𝜇)2 𝑓 𝑦 )𝑑𝑦

また、ベイズ統計においては難しい事後分布が良く出てくる。
1.    自然な共役分布を用いる ← 最初から難しいことはしないと腹をくくる
2.    MCMCを用いた分析:← 複雑な分布も扱える。事後分布の疑似分布を作成する。



     14
自然共役(事前)分布
    計算しやすいモデルを作るべく、事前分布と事後分布が同じ「分布族」になるよう
     に、事前分布を設定する。→ 自然共役事前分布

               尤度             事前分布                         事後分布
             二項分布             ベータ分布               →        ベータ分布
             正規分布             正規分布                →        正規分布
             正規分布             正規分布                →       逆ガンマ分布
            ポアソン分布            ポアソン分布              →        ガンマ分布


    先ほどのくじの例では、事前分布にベータ分布を選んでやればよい。
      事前分布に一様分布を用いるよりも妥当性がある、かつ計算も容易

                               𝛤(𝑎+𝑏)
         ベータ分布B(a,b) p(θ) =              θ 𝑎−1 (1-θ) 𝑏−1∝ θ 𝑎−1 (1-θ) 𝑏−1
                              𝛤(𝑎)𝛤(𝑏)


    15
自然共役事前分布 例:くじ
 例のくじがある。以前、このくじの当たりの可能性は3回中1回当たりであった。しかし
ある日、このくじが突然壊れてしまい、当たりの可能性が分からなくなってしまった。そ
こで、何回かくじを引いてみて、その結果からくじの当たりの確率を推測することにした。
この時、当たりが出る確率θの分布はどのようになっているか?

当たり(𝑌 = 1とする)が出る確率は𝜃なので、ベルヌーイ試行 p(y|θ) = 𝜃 𝑌 (1 − 𝜃)1−𝑌

                              𝑛                                      𝑛                         𝑛
                                       𝑦 𝑖 (1 −
      p(𝑦1 , … , 𝑦 𝑛 |θ) =   𝑖=1   𝜃              𝜃)1−𝑦 𝑖   = 𝜃     𝑖=1   𝑦𝑖
                                                                               × (1 − 𝜃)   𝑛− 𝑖=1 𝑦 𝑖


このとき、事前分布p(𝑦1 , … , 𝑦 𝑛 |θ)はベータ分布に従う。すると、事後分布もベータ分布
に従うことが知られている。

                                                               𝑛                        𝑛
        事前分布B(a,b) → 事後分布B(a +                                𝑖=1    𝑦𝑖 , b + n -      𝑖=1    𝑦𝑖 )

ここで仮に、①10回引いて当たりが5回の場合と②30回引いて当たりが15回の場合の
事後分布を記載する。

16
ベータ分布の事後分布 ①10回


                    prior
                    likelihood                    事後分布はなだらか
          4




                    posterior
                                                  =確信度は高くない
          3
density

          2
          1
          0




              0.0           0.2   0.4           0.6    0.8    1.0

     17                                 si-ta
ベータ分布の事後分布 ②30回

                                                      事後分布が急
                    prior                             =確信度は高い
                    likelihood
          4




                    posterior
          3
density

          2
          1
          0




              0.0           0.2   0.4           0.6      0.8    1.0

     18                                 si-ta
自然共役事前分布のまとめと補足
    適切な事前分布(自然共役事前分布)を仮定、もしくは特定してやれば、事後分布
     の計算も容易となる。
    ベイズの定理にあるように、
                事後情報 = データの情報 + 事前情報

    ゆえに、ベータ分布の例で示したように、データ(=試行回数)が多くなればなるほ
     ど初期(事前情報)への依存が減る。


    今回は事前分布ははずれが2回、当たりが1回のベータ分布、尤度はベルヌーイ
     試行を繰り返した分布である二項分布とした。
    しかし、何ら情報がないときにどのような事前分布を選んだらよいのかという問題
     が残る。
    対処法の1つとして、ベイズファクターを用いたモデル選択という方法がある。




    19
補足

ベイズファクター
    ある分析対象について、J個のモデル𝑀 𝑖 (i=1,2,…J、パラメータは𝜃 𝑖 )を考える。モデ
     ル𝑀 𝑖 の下でデータyが出現する確率(≒説明力)は
                   p(y|𝑀 𝑖 ) =   𝜃𝑖
                                      𝑝 y|𝜃 𝑖 , 𝑀 𝑖 𝑝 𝜃 𝑖 𝑀 𝑖 𝑑𝜃 𝑖

     i≠kのとき、ベイズファクター𝐵 𝑖𝑘 は
                                          p(y| 𝑀 𝑖)
                                 𝐵 𝑖𝑘 =
                                          p(y| 𝑀 𝑘 )
     この時に 𝐵 𝑖𝑘 >1 であれば、 𝑀 𝑖 の方が優れているということになる。

    ベイズファクターとは各モデルが与えられた時の周辺尤度の比
例
コインを10回投げて、表が6回出たとする。このデータをもとに表がでる確率をθとし、次
の2つのモデルを考える。
                     𝑀 𝑖 : θ=1/2、 𝑀 𝑘 : 一様分布p(θ) = 1
このとき、
                    p(y| 𝑀 𝑖)    10𝐶6 × (0.5)6 (0.5)4   0.205
             𝐵 𝑖𝑘 =           = 1                     =       ≒2.25
                    p(y| 𝑀 𝑘 ) 0 10𝐶6 × 𝜃6(1−𝜃)4 𝑑𝜃 0.091
    20
MCMCの前にモンテカルロ法
    モンテカルロ法
      ある分布に基づいて乱数を発生させること


    サンプリング方法
      独立なサンプリング…逆変換法 採択棄却法、重点サンプリング法
                   ← 平面などの次元の小さい場合に良く用いられる。
      非独立なサンプリング…MCMC


               ←高次元なパラメータを持つ複雑なモデルに対して、急速に発展
    次元の呪い
        パラメータ数を増やせば、計算が指数関数的に増加する
        最尤法の場合、全ての変数の組み合わせについて尤度を計算する必要がある
        さらに、最尤法の場合、初期値に依存して局所解を算出してしまう恐れがある



    21
補足

モンテカルロ積分


モンテカルロ積分
     θの確率密度関数をp(θ)、θのある関数g(θ)とする
     このとき、E[g(θ)] = p(θ)g(θ) 𝑑θ を大数の法則(L.L.N, Law of Large
     Numbers)からサンプリングによって求める方法がモンテカルロ積分
                                              1    𝑁
                    E[g(θ)] = p(θ)g(θ) 𝑑θ ≒       𝑖=1   𝑔(𝜃 𝑖 )
                                              𝑁




22
モンテカルロサンプリングの例
                                                                           上は逆変換法、下は採択棄却法を用いたサ
              2.0




                                                                           ンプリング
              1.5




                                                                           各直線を確率密度関数とみて、その確率密度
  frequency




                                                                           に従って点をサンプリング
              1.0




                                                                           ⇒ 頻度ごとにヒストグラムを作成
              0.5




                                                                           それぞれの図形を示す数式
              0.0




                     0.0   0.2         0.4       0.6     0.8         1.0

                                             y

                                                                           三角分布密度関数
              1.0




                                                                           f(x) = 4y(0≦x≦0.5)、4-4y(0.5≦x≦1)
              0.8




                                                                           半円形分布
              0.6
frequency




                                                                           f(x) =   𝑥(2 2/𝜋 − 𝑥) (0≦x≦ 2 2/𝜋)
              0.4
              0.2




                                                                             Rで学ぶベイズ統計学入門の例
              0.0




                    23
                    0.0          0.5               1.0         1.5

                                             x
MCMC
    MCMCとはマルコフ連鎖を利用して、確率分布(事後分布等)からサンプリングを
     行う方法。近似ベイズ計算 (approximate Bayesian computation, ABC)
    言い換えると、「事後分布に従う必ずしも独立でない標本から、エルゴード性を有
     するマルコフ連鎖をシミュレートする方法」
    Wikiによると、「求める確率分布を均衡分布(不偏分布)として持つマルコフ連鎖
     を作成することを基に確率分布のサンプリングを行うアルゴリズムの総称」
    特徴
      (非既約的条件下で)任意の事後分布に対して適用が可能
      収束が早い
      サンプリングが容易
      所詮は近似に過ぎない

    これにより、複雑な事後分布の評価が可能になる!
    ベイズ統計学では、事後分布を求め、そのうえで平均や分散を求めるという手法
     も取られる。例えばOLSのβをベイズ統計学で推定する場合、まず𝛽 の事後分布を
     調べたのちに、 𝛽 の平均を求めるという手順を踏む(・・・多分)。
    24
MCMCのキーワード


マルコフ連鎖とは f(𝑥 𝑡 |𝑥1 , 𝑥2 ,…𝑥 𝑡−1 ) = (𝑥 𝑡 |𝑥 𝑡−1 )    例:ランダムウォーク
確率推移行列
           𝜋1
            𝑡+1   𝑝11      𝑝21    𝜋1
                                   𝑡
                = 𝑝        𝑝22          ⇔     𝜋 𝑡+1 = 𝑃𝜋 𝑡 ⇒   𝜋 𝑞 = 𝑃 𝑞 𝜋0
           𝜋2
            𝑡+1    12             𝜋2
                                   𝑡

不変分布(定常分布)
qを大きくしたときに初期値に依存しないπに収束するときのπ*
                            lim 𝜋 𝑞 = lim 𝑃 𝑞 𝜋0 = π*
                            𝑞→∞         𝑞→∞

                                            1/4 3/4        1/3
                                 例     P=           、 π* =             ⇒ π* = Pπ*
                                            3/8 5/8        2/3
Pの成分がすべて0ではないことを非既約的という


25
MCMCのメカニズム 1
    事後分布が不偏分布となるように、マルコフ連鎖を設計・生成する(推移核を推定
     する)手法
    その推移核の決め方の1つとして、重要とされているのが「詳細つり合い条件」と
     「エルゴード性」。
    詳細つり合い条件
         マルコフ連鎖𝑥1 , 𝑥2 ,…𝑥 𝑡 , 𝑥 𝑡+1 ,… π(x):確率分布
         確率推移行列 P
                  π(𝑥 𝑡 ) P(𝑥 𝑡 →𝑥 𝑡+1 ) = π(𝑥 𝑡+1 ) P(𝑥 𝑡+1 →𝑥 𝑡 )




                                 𝑥𝑡   𝑥 𝑡+1
    26
MCMCのメカニズム 2
    詳細つり合い条件は推移核を決めるための条件の1つ
                π(𝑥 𝑡 ) P(𝑥 𝑡 →𝑥 𝑡+1 ) = π(𝑥 𝑡+1 ) P(𝑥 𝑡+1 →𝑥 𝑡 )
    これだけでは推移核は1つに決まらない。
    そこで、推移核の決め方として有名なのが
     1. ギブズ法(熱浴法)
     2. メトロポリス法、MH法(メトロポリス・ヘイスティング法)


    ギブズ法
        完全条件付分布からのサンプリングが容易な場合に有効
        ただし、「完全条件付分布」が把握できない場合には不適 → メトロポリス
        簡単には、一般的な分布の場合に用いられる
        パラメータが2個以上の場合にしか適用できない
    メトロポリス法
        事後分布の確率密度の高い候補点が提案されれば必ず移動し、そうでなければ確率密
         度の比の確率で移動する
        時間がかかるが複雑なモデル(パラメータが多い場合)も扱うことができる

    27
ギブズサンプリングのイメージ 1




                              道具としてのベイズ統計より
ある分布の「山」があるとする。
このとき、この山からのサンプリングを行いたい。
1.    まず初期地点Aを適当に設定する。
2.    次に、他の変数(ここではy)を固定させ、xだけに着目し、AからBに移動する。
3.    その次にxを固定させ、yだけに着目し、BからCに移動する。
4.    繰り返し
5.    最終的に、平面上に山の形に即すように点がプロットされる。
 28
ギブズサンプリングのイメージ 2
     g(𝜃1 , 𝜃2 )に従う乱数を生成するとする

     同時確率分布g(𝜃1 , 𝜃2 )からは乱数を発生させにくいが、条件付き分布g(𝜃1 |𝜃2 )、
      g(𝜃2 |𝜃1 )からは容易に乱数を発生させることができる。


                       0
1.    まず初めに、適当な𝜃1 の初期値𝜃1 を設定する。
                0      0           0      1
2.    次に、g(𝜃2 |𝜃1 ) から𝜃2 を、 g(𝜃1 |𝜃2 )から 𝜃1 を発生させていく。

         𝜃 0 , 𝜃1 ,… 𝜃 𝑖𝑡 , 𝜃 𝑖𝑡+1 ,… (i=1,2) は、推移核が①既約性と②非周期性を満たせば、
            𝑖    𝑖

      定常分布に収束する。

     なお、一般的に g(𝜃 𝑖 |𝜃−𝑖 )を完全条件付分布という。
                                            𝑡+1   𝑡
     推移カーネルは P(𝜃 𝑡 →𝜃 𝑡+1) =      𝑖=1 g(𝜃 𝑖    |𝜃−𝑖 )   ←あまり着目されない

     29
ギブズサンプリングのイメージ 3
    互いに相関のない2変量の標準正規分布をギブズサンプリングでプロットしてみる




    30
MCMCの例:ギブズ
ある標準正規分布のように見える正規分布から15個の観測値を得た。このときの事
後分布を評価する

平均μの自然共役事前分布として正規分布、𝜎 2 の自然共役事前分布として逆ガンマ
分布を設定する(これを「正規-逆ガンマ事前分布」という)と、以下のようになる。

ベイズの定理   p(μ,𝜎 2 |y) ∝ p(y|μ,𝜎 2 )p(μ,𝜎 2 ) = p(y|μ,𝜎 2 ) p(μ |𝜎 2 ) p(𝜎 2 )

事前分布     μ|𝜎 2 ~ N( 𝜇 𝑛 , 𝜎 2 /𝑘0 )、 𝜎 2 ~ IG( 𝑟0 /2, 𝑠0 /2)
                                                                        2
                                                          ⇔ N-IG( 𝜇0 , 𝜎0 ; 𝑟0 , 𝑠0 )

⇒ 事後分布   μ|𝜎 2 ,y ~ N( 𝜇 𝑛 , 𝜎 2 /𝑘 𝑛 )    𝜎 2 ~ IG( 𝑟 𝑛 /2 , 𝑠 𝑛 /2 )
                  𝑘0         n
         𝜇𝑛=          𝜇0 + 𝑘 +𝑛    𝑦      𝑟 𝑛 = 𝑟0 + n
                𝑘0 +𝑛       0
         𝑘 𝑛 = 𝑘0 + n                     𝑠 𝑛 = 𝑠0 + (n-1)
                                                          ⇔ N-IG( 𝜇 𝑛 , 𝜎 2 ; 𝑟 𝑛 , 𝑠 𝑛 )
                                                                          𝑛


31
データ
以下の15個のデータ
0.39, 1.00, -2.86, -1.68, -0.30, -0.75, -0.63, -0.86, 2.72, 0.35, -0.56, 0.18, 0.13, -1.07,
2.22




                            -2      -1        0      1        2

         事後分布 N-IG( 𝜇 𝑛 , 𝜎 2 ; 𝑟 𝑛 , 𝑠 𝑛 )
                            𝑛                     初期値をN-IG ( 0, 1 ; 3, 2)とした

 32
補足

ガンマ・逆ガンマ分布
    𝜎 2 の事前分布に用いられることが非常に多い

    ガンマ分布 Ga(a,b) : f(x) ∝ 𝑥 𝑎−1 𝑒 −𝑏𝑥

    逆ガンマ分布 IG(a,b) : f(x) ∝ 𝑥 −𝑎−1 𝑒 −𝑏/𝑥    → IG(3,2)で平均1、分散1となる

    ガンマ分布はaが大きくなると分布の山が左に移動し、bが大きくなるほど、尖度が大きくなる。
     逆ガンマは下の図の通り
                     1.0




                                                       a=1,b=1
                                                       a=2,b=3
                     0.8




                                                       a=1,b=0.01
                     0.6
           density

                     0.4
                     0.2
                     0.0




    33
                           0   1          2       3       4         5
サンプリング系列




34
ヒストグラム

     μのヒストグラム   σ2 のヒストグラム




35
ベイジアン線形回帰分析
次の線形回帰を考える                Y = Xβ + 𝜀 𝑡 、 𝜀 𝑡 ~i.i.d.N(0, σ2 )

このとき、
最小二乗推定量 𝛽 = (𝑋 ′ 𝑋)−1 𝑋𝑦             ,           𝛽 ~ N(β, ,σ2 (𝑋 ′ 𝑋)−1 )
                 2    2   𝑒′ 𝑒                  𝑒′ 𝑒
分散の推定量          σ =s =           ,                     ~ 𝜒 2 (n-k)   n-k は自由度
                          𝑛−𝑘                  σ   2


ベイズの定理より p(β,σ2 |y) ∝ p(y|β,σ2 )p(β,σ2 ) = p(y|β,σ2 ) p(β|σ2 )p(σ2 )
変数変換 y → ε p(β,σ2 | ε) ∝ p(ε |β,σ2 ) p(β|σ2 )p(σ2 )


事前分布 正規-逆ガンマ分布 β|𝜎 2 ~ N(β0 , 𝜎 2 𝐴−1 ) , 𝜎 2 ~ IG( v0 /2, s0 /2 )

事後分布 正規-逆ガンマ分布 N(β*, 𝜎 2 𝛴∗−1 ) ・IG( (v0 + n)/2) , s*/2 )
                                     β*= (𝑋 ′ 𝑋 + 𝐴)−1 (X’Xβ + Aβ0 ) 、𝛴 ∗ = X’X + A
                            s* = s0 + v𝑠 2 + (β0 -β)’( (𝑋 ′ 𝑋)−1 + 𝐴−1 )−1 (β0 -β)

 36
補足

変数変換に関して
p(β,σ2 |y) ∝ p(y|β,σ2 )p(β,σ2 ) = p(y|β,σ2 )p(β,σ2 )


変数変換 y → ε
p(β,σ2 | y) = p(β,σ2 |ε), p(y |β,σ2 ) = p(ε|β,σ2 )


正確には
          p(y|β,σ2 ) = p(ε|β,σ2 ) Jε→y ,             Jε→y は変数変換のヤコビアン
                 dε
しかし、ε = y-Xβ なので、dyi = 1 よって Jε→y =1
                                     i


このとき
                                                         n            ′
                       N      1           ε2         1             y-Xβ y-Xβ
尤度    p(ε|β,σ2 )   =   i=1           exp − 2 =
                                           i                 exp −
                             2π σ2        2σ     2π σ2                2σ2



 37
ベイジアン線形回帰分析の例
        Rの場合、事前分布である正規-逆ガンマ分布の特性値(初期値)N(β0 , Σ0 )・
         IG(𝑣0 /2, 𝑠0 /2)を設定し、分析するデータを加えてやればよいだけ。
                          15

                          10
                                                            以下のyを人口的に発生させた
                           5
                                                                    Y = 2X + 3 + ε, ε ~ N(0,42 )
                           0
                                                            このとき、初期値を以下のように定める
    -6      -4      -2         0     2        4         6
                          -5                                            N(2, 16)・IG(0.01,100)
                         -10
                                    y = 1.8773x + 1.5       なお、通常の線形回帰だと
                         -15                                               Y = 1.8773x + 1.5

     library(MCMCpack)
     regdata <- list(X = c(-5, -4, -3, -2, -0.1, 0, 1, 2, 3, 4, 5),Y = c(-10.6, -4.1, -0.9, -1.8, -5.7, 1.6, 6.3,
     5.7, 4.8, 13, 8.2)) # dataset
     posterior <- MCMCregress(Y~X, data=regdata, mcmc = 10000, b0 = 2, B0 =16, c0 = 0.001,
     d0 = 100, burnin = 1000)
     plot(posterior)
     summary(posterior)
     38
分析結果 1




39
分析結果 2




40
M-Hサンプリング


    実際にはギブズサンプリングに必要な「完全条件付分布」が手に入らないこ
     ともある。
    そのような時はM-Hサンプリングを用いる。 説明は省略するが、p30を参照


実際には、ギブズもM-Hもある程度「使いどころ」が決まっている(らしい)。
  ギブズ → 正規分布(トービット、プロビット)、階層モデルなど
  M-H → ロジット分布など




41
終わりに


    もちろん、ベイズ統計学においても時系列分析やパネルデータ分析は存在してい
     ます。状態空間におけるベイズ更新とカルマンフィルターなんてジャンルも存在し
     ているようです。
    その際に、複雑な確率密度関数、事後分布が出てきた際に威力を発揮するのが
     MCMCです。


    そのほか、ベイズ統計学としてはナイーブベイズやベイジアンフィルタ、機械学習
     という括りではSVM、ニューラルネットなどなど、実務では計量経済学以外の統計
     学の手法が多々用いられています。




    42

More Related Content

ベイズ統計入門

  • 1. ベイズ統計学入門 東京大学 三好雄也 1
  • 3. 目次 1. ベイズ統計学とは 2. ベイズの定理 3. 自然共役(事前)分布 4. モンテカルロ法 5. MCMC ギブズサンプリング 6. 応用例 ベイジアン線形回帰分析 7. 終わりに 3
  • 4. 数理統計学の分類 母集団 母集団 真の値 確率変動 推定 デザイン 推定 漸 近 理 標本 論 標本 確率変動 確定したもの 頻度主義 ベイズ 4
  • 5. ベイズ統計学とは  結果を前提に母集団を予想する、結果から母集団を予想する ⇔ 母集団を前提に、結果から母集団を予想する。  未知母数(パラメータ)はすべて確率変動すると仮定  頻度主義:母集団(確定)から標本(変数)が発生 → 母集団の推測  ベイズ:母集団(主観)から発生した標本(確定)をもとに母集団(変数)を推測  ベイズにおける確率 = 信念の度合い、自信  ベイズの定理を用いる ・・・極論してしまえば最尤法の拡張版  分布全体が推測の対象 ⇔ モデルのパラメータ推定が中心  新しいデータが観測されたらパラメータを逐次的に更新できる 5
  • 6. 補足 統計マップ 倉田一成氏webサイトより抜粋 6
  • 7. 補足 データ解析とモデル データの解析=統計モデリング 統計モデルとは観測データのパターンをうまく説明できるモデル 基本は確率分布であり、その確率分布の形を決定するものがパラメータ 「推定」=モデルの当てはまりが良くなるようにパラメータを決定すること 回帰系モデル GLM:指数関数族 ポワソン回帰 ロジスティック回帰 GLMM(Generalized linear mixed model) …過分散データの分析など 階層ベイズ 7
  • 8. ベイズの定理 1 ベイズの定理とは、 p y|H p(H) p(H|y) = p(y) ⇔ 事後情報 = データの情報 + 事前情報 y:何らかの情報 H:何らかの仮説 p(H) 事前の確信度 仮説Hが正しいという事前の確信度 p(y|H) 尤度関数 Hが真の際にデータが得られる尤度 p(H|y) 事後の確信度 情報yが得られた後の仮説Hの確信度 P(y) 正規化定数 p(θ|y) + p(not θ|y) = 1 とするためのもの 8
  • 9. ベイズの定理 例:カジノ  あるカジノにて、ある人が「7だ!」と叫んだとする。その人がダイスをやっている確 率はどのように計算されるか?  なお、ダイスは1~36の数字があり、ルーレットは0,00,1~36の38の数字がある。  さらに、そのカジノのダイスとルーレットの比率は7:3であるとする。 求めるものは p(ダイス|7) 問題文より、p(ダイス) = 7/10、p(ルレ) = 3/10 ベイズの定理より p(7|ダイス)p(ダイス) 1/36 × 7/10 p(ダイス|7) = = = 0.711 > 0.7 p(y) 1/36×7/10 + 1/38×3/10 9
  • 10. ベイズの定理 2 統計モデルとは ある確率変数Yの実現値 y = { y1 , y1 , …yn } から、Yが本来従う確率分布(真の分 布)を推定するためのもの パラメータとは 統計モデルが平均や分散などの特定の値(特性値)に依存するときの、これらの特 性値のこと。 正規分布、二項分布、ポワソン分布、ガンマ分布、ベータ分布  ベイズの定理とは p y|θ p(θ) p(θ|y) = ∝ p y|θ p(θ) p(y) ⇔ 事後情報 = データの情報 + 事前情報 y:確率変数 θ:パラメータ p(θ|y) 事後確率 yが与えられた時のθの確率(密度)関数 p(θ) 事前確率 θに関する確率分布 p(y|θ) 尤度関数 θが与えられた時のyの確率(密度)関数  情報が増える → その情報を取り入れて事後情報が変化(ベイズ更新) 10
  • 11. 尤度(関数)とは Ω = {A,B} 確率 𝑃Ω (?|X) 𝑃Ω (A|X) + 𝑃Ω (B|X) = 1 ・・・偶数と奇数の目が均等に出るサイコロを振った時の目の予想 尤度𝑃Ω (X|?) 𝑃Ω (X|A) + 𝑃Ω (X|B) = 1 ・・・何回かサイコロを振った結果から、サイコロの目の作り方を推測 例えば、偶数が出やすいサイコロAと、奇数が出やすいサイコロBがあったとき、どち らのサイコロか分からない状態でサイコロを振ったとする。このとき、偶数が出る傾向 があれば、そのサイコロはAである可能性が高い(P(偶数|A) > p(偶数|B))と考えら れる。 つまり、尤度(関数)とは あるパラメータにおいて、その観測値が得られる確率 → 事前分布に関する関数 11
  • 12. 尤度と主観確率 確率変数Yの確率密度関数をp(y|θ)に従うとする。この時、n回もしくはn個の独立な 観測値y = { 𝑦1 , 𝑦2 , …𝑦 𝑛 }が得られたとき、これらの観測値に対する同時確率は n p(y|θ) = i=1 p(yi |θ) 尤度とは「あるパラメータにおいて、その観測値が得られる確率」である。ゆえに事後 分布を調べるためには、その「あるパラメータ」を設定してやる必要がある。 p y|θ p(θ) … ある分布p(θ)から、その観測値が得られる確率 ただし、その「ある分布」の選び方はどうしても主観的となってしまうため、このことが 頻度主義の統計学からずっと批判され続けていた。 ⇔ 近年ではこのことがモデルに柔軟性をもたらすと評価されている。 12
  • 13. ベイズの定理 例:くじ あるくじがある。このくじを引いてみると、順にはずれ、はずれ、当たりという結果となった。このくじで 当たりが出る確率の分布(事後分布)はどのようになっているか。 当たりが出る確率θ(0≦θ≦1, 𝑦 𝑖 =1)とする。すなわちはずれが出る確率は1 − 𝜃(𝑦 𝑖 =0) 最初の時点ではこのくじに関する情報がないとし、p(θ) = 1 と仮定する 主観的! 一様分布 0から1までの値をとる確率は1/(1-0) 期待値は(1+0)/2 1人目がはずれだったとき、ベイズの定理より 𝑝1 (𝜃|𝑦1 = 0) ∝ 𝑝 𝑦1 = 0|𝜃 𝑝 𝜃 = 1 − 𝜃 2人目がはずれだったとき、𝑝2 (𝜃|𝑦1 , 𝑦2 ) ∝ 𝑝 𝑦1 , 𝑦2 |𝜃 𝑝(𝜃)= 𝑝 𝑦2 |𝑦1 , 𝜃 𝑝(𝑦1 , 𝜃)𝑝(𝜃) = (1 − 𝜃)2 3人目が当たりだったとき、 𝑝3 (𝜃|𝑦1 , 𝑦2 , 𝑦3 ) ∝ 𝑝 𝑦3 |𝑦1 , 𝑦2 , 𝜃 𝑝 𝑦2 |𝑦1 , 𝜃 𝑝 𝑦1 , 𝜃 𝑝 𝜃 = (1 − 𝜃)2 𝜃 事後分布は左図のようになる。 事前分布を一様分布とした場合、最尤推定値 とベイズ推定値は一致する。 余談となるが、この事前分布のモデルをどう するか決定する方法の1つがベイズファクター 0 0.2 0.4 0.6 0.8 1 13
  • 14. 事後分布を用いたベイズ統計推論  事後分布や尤度は複雑になる傾向がある  特に離散値ではなく、連続値となると、かなり計算が面倒になる 離散値:サイコロやコイントスなどの1回1回の試行 確率関数p(y) 𝑁  平均 μ = 𝑖 𝑦𝑖 𝑝 𝑦𝑖 𝑁  分散 𝜎 2 = 𝑖 ((𝑦 𝑖 −𝜇)2 𝑝 𝑦 𝑖 ) 連続値:確率密度関数f(y) 𝑁  平均 μ = 𝑖=1(𝑦𝑓 𝑦 )𝑑𝑦 𝑁  分散 𝜎 2 = = 𝑖=1 ((𝑦 − 𝜇)2 𝑓 𝑦 )𝑑𝑦 また、ベイズ統計においては難しい事後分布が良く出てくる。 1. 自然な共役分布を用いる ← 最初から難しいことはしないと腹をくくる 2. MCMCを用いた分析:← 複雑な分布も扱える。事後分布の疑似分布を作成する。 14
  • 15. 自然共役(事前)分布  計算しやすいモデルを作るべく、事前分布と事後分布が同じ「分布族」になるよう に、事前分布を設定する。→ 自然共役事前分布 尤度 事前分布 事後分布 二項分布 ベータ分布 → ベータ分布 正規分布 正規分布 → 正規分布 正規分布 正規分布 → 逆ガンマ分布 ポアソン分布 ポアソン分布 → ガンマ分布  先ほどのくじの例では、事前分布にベータ分布を選んでやればよい。  事前分布に一様分布を用いるよりも妥当性がある、かつ計算も容易 𝛤(𝑎+𝑏) ベータ分布B(a,b) p(θ) = θ 𝑎−1 (1-θ) 𝑏−1∝ θ 𝑎−1 (1-θ) 𝑏−1 𝛤(𝑎)𝛤(𝑏) 15
  • 16. 自然共役事前分布 例:くじ 例のくじがある。以前、このくじの当たりの可能性は3回中1回当たりであった。しかし ある日、このくじが突然壊れてしまい、当たりの可能性が分からなくなってしまった。そ こで、何回かくじを引いてみて、その結果からくじの当たりの確率を推測することにした。 この時、当たりが出る確率θの分布はどのようになっているか? 当たり(𝑌 = 1とする)が出る確率は𝜃なので、ベルヌーイ試行 p(y|θ) = 𝜃 𝑌 (1 − 𝜃)1−𝑌 𝑛 𝑛 𝑛 𝑦 𝑖 (1 − p(𝑦1 , … , 𝑦 𝑛 |θ) = 𝑖=1 𝜃 𝜃)1−𝑦 𝑖 = 𝜃 𝑖=1 𝑦𝑖 × (1 − 𝜃) 𝑛− 𝑖=1 𝑦 𝑖 このとき、事前分布p(𝑦1 , … , 𝑦 𝑛 |θ)はベータ分布に従う。すると、事後分布もベータ分布 に従うことが知られている。 𝑛 𝑛 事前分布B(a,b) → 事後分布B(a + 𝑖=1 𝑦𝑖 , b + n - 𝑖=1 𝑦𝑖 ) ここで仮に、①10回引いて当たりが5回の場合と②30回引いて当たりが15回の場合の 事後分布を記載する。 16
  • 17. ベータ分布の事後分布 ①10回 prior likelihood 事後分布はなだらか 4 posterior =確信度は高くない 3 density 2 1 0 0.0 0.2 0.4 0.6 0.8 1.0 17 si-ta
  • 18. ベータ分布の事後分布 ②30回 事後分布が急 prior =確信度は高い likelihood 4 posterior 3 density 2 1 0 0.0 0.2 0.4 0.6 0.8 1.0 18 si-ta
  • 19. 自然共役事前分布のまとめと補足  適切な事前分布(自然共役事前分布)を仮定、もしくは特定してやれば、事後分布 の計算も容易となる。  ベイズの定理にあるように、 事後情報 = データの情報 + 事前情報  ゆえに、ベータ分布の例で示したように、データ(=試行回数)が多くなればなるほ ど初期(事前情報)への依存が減る。  今回は事前分布ははずれが2回、当たりが1回のベータ分布、尤度はベルヌーイ 試行を繰り返した分布である二項分布とした。  しかし、何ら情報がないときにどのような事前分布を選んだらよいのかという問題 が残る。  対処法の1つとして、ベイズファクターを用いたモデル選択という方法がある。 19
  • 20. 補足 ベイズファクター  ある分析対象について、J個のモデル𝑀 𝑖 (i=1,2,…J、パラメータは𝜃 𝑖 )を考える。モデ ル𝑀 𝑖 の下でデータyが出現する確率(≒説明力)は p(y|𝑀 𝑖 ) = 𝜃𝑖 𝑝 y|𝜃 𝑖 , 𝑀 𝑖 𝑝 𝜃 𝑖 𝑀 𝑖 𝑑𝜃 𝑖 i≠kのとき、ベイズファクター𝐵 𝑖𝑘 は p(y| 𝑀 𝑖) 𝐵 𝑖𝑘 = p(y| 𝑀 𝑘 ) この時に 𝐵 𝑖𝑘 >1 であれば、 𝑀 𝑖 の方が優れているということになる。  ベイズファクターとは各モデルが与えられた時の周辺尤度の比 例 コインを10回投げて、表が6回出たとする。このデータをもとに表がでる確率をθとし、次 の2つのモデルを考える。 𝑀 𝑖 : θ=1/2、 𝑀 𝑘 : 一様分布p(θ) = 1 このとき、 p(y| 𝑀 𝑖) 10𝐶6 × (0.5)6 (0.5)4 0.205 𝐵 𝑖𝑘 = = 1 = ≒2.25 p(y| 𝑀 𝑘 ) 0 10𝐶6 × 𝜃6(1−𝜃)4 𝑑𝜃 0.091 20
  • 21. MCMCの前にモンテカルロ法  モンテカルロ法  ある分布に基づいて乱数を発生させること  サンプリング方法  独立なサンプリング…逆変換法 採択棄却法、重点サンプリング法 ← 平面などの次元の小さい場合に良く用いられる。  非独立なサンプリング…MCMC ←高次元なパラメータを持つ複雑なモデルに対して、急速に発展  次元の呪い  パラメータ数を増やせば、計算が指数関数的に増加する  最尤法の場合、全ての変数の組み合わせについて尤度を計算する必要がある  さらに、最尤法の場合、初期値に依存して局所解を算出してしまう恐れがある 21
  • 22. 補足 モンテカルロ積分 モンテカルロ積分 θの確率密度関数をp(θ)、θのある関数g(θ)とする このとき、E[g(θ)] = p(θ)g(θ) 𝑑θ を大数の法則(L.L.N, Law of Large Numbers)からサンプリングによって求める方法がモンテカルロ積分 1 𝑁 E[g(θ)] = p(θ)g(θ) 𝑑θ ≒ 𝑖=1 𝑔(𝜃 𝑖 ) 𝑁 22
  • 23. モンテカルロサンプリングの例 上は逆変換法、下は採択棄却法を用いたサ 2.0 ンプリング 1.5 各直線を確率密度関数とみて、その確率密度 frequency に従って点をサンプリング 1.0 ⇒ 頻度ごとにヒストグラムを作成 0.5 それぞれの図形を示す数式 0.0 0.0 0.2 0.4 0.6 0.8 1.0 y 三角分布密度関数 1.0 f(x) = 4y(0≦x≦0.5)、4-4y(0.5≦x≦1) 0.8 半円形分布 0.6 frequency f(x) = 𝑥(2 2/𝜋 − 𝑥) (0≦x≦ 2 2/𝜋) 0.4 0.2 Rで学ぶベイズ統計学入門の例 0.0 23 0.0 0.5 1.0 1.5 x
  • 24. MCMC  MCMCとはマルコフ連鎖を利用して、確率分布(事後分布等)からサンプリングを 行う方法。近似ベイズ計算 (approximate Bayesian computation, ABC)  言い換えると、「事後分布に従う必ずしも独立でない標本から、エルゴード性を有 するマルコフ連鎖をシミュレートする方法」  Wikiによると、「求める確率分布を均衡分布(不偏分布)として持つマルコフ連鎖 を作成することを基に確率分布のサンプリングを行うアルゴリズムの総称」  特徴  (非既約的条件下で)任意の事後分布に対して適用が可能  収束が早い  サンプリングが容易  所詮は近似に過ぎない  これにより、複雑な事後分布の評価が可能になる!  ベイズ統計学では、事後分布を求め、そのうえで平均や分散を求めるという手法 も取られる。例えばOLSのβをベイズ統計学で推定する場合、まず𝛽 の事後分布を 調べたのちに、 𝛽 の平均を求めるという手順を踏む(・・・多分)。 24
  • 25. MCMCのキーワード マルコフ連鎖とは f(𝑥 𝑡 |𝑥1 , 𝑥2 ,…𝑥 𝑡−1 ) = (𝑥 𝑡 |𝑥 𝑡−1 ) 例:ランダムウォーク 確率推移行列 𝜋1 𝑡+1 𝑝11 𝑝21 𝜋1 𝑡 = 𝑝 𝑝22 ⇔ 𝜋 𝑡+1 = 𝑃𝜋 𝑡 ⇒ 𝜋 𝑞 = 𝑃 𝑞 𝜋0 𝜋2 𝑡+1 12 𝜋2 𝑡 不変分布(定常分布) qを大きくしたときに初期値に依存しないπに収束するときのπ* lim 𝜋 𝑞 = lim 𝑃 𝑞 𝜋0 = π* 𝑞→∞ 𝑞→∞ 1/4 3/4 1/3 例 P= 、 π* = ⇒ π* = Pπ* 3/8 5/8 2/3 Pの成分がすべて0ではないことを非既約的という 25
  • 26. MCMCのメカニズム 1  事後分布が不偏分布となるように、マルコフ連鎖を設計・生成する(推移核を推定 する)手法  その推移核の決め方の1つとして、重要とされているのが「詳細つり合い条件」と 「エルゴード性」。  詳細つり合い条件 マルコフ連鎖𝑥1 , 𝑥2 ,…𝑥 𝑡 , 𝑥 𝑡+1 ,… π(x):確率分布 確率推移行列 P π(𝑥 𝑡 ) P(𝑥 𝑡 →𝑥 𝑡+1 ) = π(𝑥 𝑡+1 ) P(𝑥 𝑡+1 →𝑥 𝑡 ) 𝑥𝑡 𝑥 𝑡+1 26
  • 27. MCMCのメカニズム 2  詳細つり合い条件は推移核を決めるための条件の1つ π(𝑥 𝑡 ) P(𝑥 𝑡 →𝑥 𝑡+1 ) = π(𝑥 𝑡+1 ) P(𝑥 𝑡+1 →𝑥 𝑡 )  これだけでは推移核は1つに決まらない。  そこで、推移核の決め方として有名なのが 1. ギブズ法(熱浴法) 2. メトロポリス法、MH法(メトロポリス・ヘイスティング法)  ギブズ法  完全条件付分布からのサンプリングが容易な場合に有効  ただし、「完全条件付分布」が把握できない場合には不適 → メトロポリス  簡単には、一般的な分布の場合に用いられる  パラメータが2個以上の場合にしか適用できない  メトロポリス法  事後分布の確率密度の高い候補点が提案されれば必ず移動し、そうでなければ確率密 度の比の確率で移動する  時間がかかるが複雑なモデル(パラメータが多い場合)も扱うことができる 27
  • 28. ギブズサンプリングのイメージ 1 道具としてのベイズ統計より ある分布の「山」があるとする。 このとき、この山からのサンプリングを行いたい。 1. まず初期地点Aを適当に設定する。 2. 次に、他の変数(ここではy)を固定させ、xだけに着目し、AからBに移動する。 3. その次にxを固定させ、yだけに着目し、BからCに移動する。 4. 繰り返し 5. 最終的に、平面上に山の形に即すように点がプロットされる。 28
  • 29. ギブズサンプリングのイメージ 2  g(𝜃1 , 𝜃2 )に従う乱数を生成するとする  同時確率分布g(𝜃1 , 𝜃2 )からは乱数を発生させにくいが、条件付き分布g(𝜃1 |𝜃2 )、 g(𝜃2 |𝜃1 )からは容易に乱数を発生させることができる。 0 1. まず初めに、適当な𝜃1 の初期値𝜃1 を設定する。 0 0 0 1 2. 次に、g(𝜃2 |𝜃1 ) から𝜃2 を、 g(𝜃1 |𝜃2 )から 𝜃1 を発生させていく。  𝜃 0 , 𝜃1 ,… 𝜃 𝑖𝑡 , 𝜃 𝑖𝑡+1 ,… (i=1,2) は、推移核が①既約性と②非周期性を満たせば、 𝑖 𝑖 定常分布に収束する。  なお、一般的に g(𝜃 𝑖 |𝜃−𝑖 )を完全条件付分布という。 𝑡+1 𝑡  推移カーネルは P(𝜃 𝑡 →𝜃 𝑡+1) = 𝑖=1 g(𝜃 𝑖 |𝜃−𝑖 ) ←あまり着目されない 29
  • 30. ギブズサンプリングのイメージ 3  互いに相関のない2変量の標準正規分布をギブズサンプリングでプロットしてみる 30
  • 31. MCMCの例:ギブズ ある標準正規分布のように見える正規分布から15個の観測値を得た。このときの事 後分布を評価する 平均μの自然共役事前分布として正規分布、𝜎 2 の自然共役事前分布として逆ガンマ 分布を設定する(これを「正規-逆ガンマ事前分布」という)と、以下のようになる。 ベイズの定理 p(μ,𝜎 2 |y) ∝ p(y|μ,𝜎 2 )p(μ,𝜎 2 ) = p(y|μ,𝜎 2 ) p(μ |𝜎 2 ) p(𝜎 2 ) 事前分布 μ|𝜎 2 ~ N( 𝜇 𝑛 , 𝜎 2 /𝑘0 )、 𝜎 2 ~ IG( 𝑟0 /2, 𝑠0 /2) 2 ⇔ N-IG( 𝜇0 , 𝜎0 ; 𝑟0 , 𝑠0 ) ⇒ 事後分布 μ|𝜎 2 ,y ~ N( 𝜇 𝑛 , 𝜎 2 /𝑘 𝑛 ) 𝜎 2 ~ IG( 𝑟 𝑛 /2 , 𝑠 𝑛 /2 ) 𝑘0 n 𝜇𝑛= 𝜇0 + 𝑘 +𝑛 𝑦 𝑟 𝑛 = 𝑟0 + n 𝑘0 +𝑛 0 𝑘 𝑛 = 𝑘0 + n 𝑠 𝑛 = 𝑠0 + (n-1) ⇔ N-IG( 𝜇 𝑛 , 𝜎 2 ; 𝑟 𝑛 , 𝑠 𝑛 ) 𝑛 31
  • 32. データ 以下の15個のデータ 0.39, 1.00, -2.86, -1.68, -0.30, -0.75, -0.63, -0.86, 2.72, 0.35, -0.56, 0.18, 0.13, -1.07, 2.22 -2 -1 0 1 2 事後分布 N-IG( 𝜇 𝑛 , 𝜎 2 ; 𝑟 𝑛 , 𝑠 𝑛 ) 𝑛 初期値をN-IG ( 0, 1 ; 3, 2)とした 32
  • 33. 補足 ガンマ・逆ガンマ分布  𝜎 2 の事前分布に用いられることが非常に多い  ガンマ分布 Ga(a,b) : f(x) ∝ 𝑥 𝑎−1 𝑒 −𝑏𝑥  逆ガンマ分布 IG(a,b) : f(x) ∝ 𝑥 −𝑎−1 𝑒 −𝑏/𝑥 → IG(3,2)で平均1、分散1となる  ガンマ分布はaが大きくなると分布の山が左に移動し、bが大きくなるほど、尖度が大きくなる。 逆ガンマは下の図の通り 1.0 a=1,b=1 a=2,b=3 0.8 a=1,b=0.01 0.6 density 0.4 0.2 0.0 33 0 1 2 3 4 5
  • 35. ヒストグラム μのヒストグラム σ2 のヒストグラム 35
  • 36. ベイジアン線形回帰分析 次の線形回帰を考える Y = Xβ + 𝜀 𝑡 、 𝜀 𝑡 ~i.i.d.N(0, σ2 ) このとき、 最小二乗推定量 𝛽 = (𝑋 ′ 𝑋)−1 𝑋𝑦 , 𝛽 ~ N(β, ,σ2 (𝑋 ′ 𝑋)−1 ) 2 2 𝑒′ 𝑒 𝑒′ 𝑒 分散の推定量 σ =s = , ~ 𝜒 2 (n-k) n-k は自由度 𝑛−𝑘 σ 2 ベイズの定理より p(β,σ2 |y) ∝ p(y|β,σ2 )p(β,σ2 ) = p(y|β,σ2 ) p(β|σ2 )p(σ2 ) 変数変換 y → ε p(β,σ2 | ε) ∝ p(ε |β,σ2 ) p(β|σ2 )p(σ2 ) 事前分布 正規-逆ガンマ分布 β|𝜎 2 ~ N(β0 , 𝜎 2 𝐴−1 ) , 𝜎 2 ~ IG( v0 /2, s0 /2 ) 事後分布 正規-逆ガンマ分布 N(β*, 𝜎 2 𝛴∗−1 ) ・IG( (v0 + n)/2) , s*/2 ) β*= (𝑋 ′ 𝑋 + 𝐴)−1 (X’Xβ + Aβ0 ) 、𝛴 ∗ = X’X + A s* = s0 + v𝑠 2 + (β0 -β)’( (𝑋 ′ 𝑋)−1 + 𝐴−1 )−1 (β0 -β) 36
  • 37. 補足 変数変換に関して p(β,σ2 |y) ∝ p(y|β,σ2 )p(β,σ2 ) = p(y|β,σ2 )p(β,σ2 ) 変数変換 y → ε p(β,σ2 | y) = p(β,σ2 |ε), p(y |β,σ2 ) = p(ε|β,σ2 ) 正確には p(y|β,σ2 ) = p(ε|β,σ2 ) Jε→y , Jε→y は変数変換のヤコビアン dε しかし、ε = y-Xβ なので、dyi = 1 よって Jε→y =1 i このとき n ′ N 1 ε2 1 y-Xβ y-Xβ 尤度 p(ε|β,σ2 ) = i=1 exp − 2 = i exp − 2π σ2 2σ 2π σ2 2σ2 37
  • 38. ベイジアン線形回帰分析の例  Rの場合、事前分布である正規-逆ガンマ分布の特性値(初期値)N(β0 , Σ0 )・ IG(𝑣0 /2, 𝑠0 /2)を設定し、分析するデータを加えてやればよいだけ。 15 10 以下のyを人口的に発生させた 5 Y = 2X + 3 + ε, ε ~ N(0,42 ) 0 このとき、初期値を以下のように定める -6 -4 -2 0 2 4 6 -5 N(2, 16)・IG(0.01,100) -10 y = 1.8773x + 1.5 なお、通常の線形回帰だと -15 Y = 1.8773x + 1.5 library(MCMCpack) regdata <- list(X = c(-5, -4, -3, -2, -0.1, 0, 1, 2, 3, 4, 5),Y = c(-10.6, -4.1, -0.9, -1.8, -5.7, 1.6, 6.3, 5.7, 4.8, 13, 8.2)) # dataset posterior <- MCMCregress(Y~X, data=regdata, mcmc = 10000, b0 = 2, B0 =16, c0 = 0.001, d0 = 100, burnin = 1000) plot(posterior) summary(posterior) 38
  • 41. M-Hサンプリング  実際にはギブズサンプリングに必要な「完全条件付分布」が手に入らないこ ともある。  そのような時はM-Hサンプリングを用いる。 説明は省略するが、p30を参照 実際には、ギブズもM-Hもある程度「使いどころ」が決まっている(らしい)。  ギブズ → 正規分布(トービット、プロビット)、階層モデルなど  M-H → ロジット分布など 41
  • 42. 終わりに  もちろん、ベイズ統計学においても時系列分析やパネルデータ分析は存在してい ます。状態空間におけるベイズ更新とカルマンフィルターなんてジャンルも存在し ているようです。  その際に、複雑な確率密度関数、事後分布が出てきた際に威力を発揮するのが MCMCです。  そのほか、ベイズ統計学としてはナイーブベイズやベイジアンフィルタ、機械学習 という括りではSVM、ニューラルネットなどなど、実務では計量経済学以外の統計 学の手法が多々用いられています。 42