-------


   ベイズ推定の例題とその解
     02.10.2013
        頻度主義的解法との比較




 前回から始めたベイズ推計ですが、そこで提示した例題を、(a)ベイズの定理を用いた解法、(b)古典的・頻度主義的な解法の二種類の解を示してみたいと思います。

 このような作業をすると、何がベイズ推計の本質なのか、それがやっと見えてくると思うからです。

 この例題は、次の書籍から引用したものです。「Excelでスッキリわかる ベイズ統計入門」。涌井良幸、涌井貞美著、日本実業出版社、2010年10月20日、2200円。以下、「本書」と記述することにします。

 それでは早速取り掛かります。しかし、「誰にも、きちんと読んでもらえない」、という可能性が大きいような気もしますが。。。。。



 前回の記事で、問題は5題あった。


2−(1). 喫煙者の推定の問題

問題:
「男性10人、女性7人が一室でパーティーを開いた。男子の喫煙者は5人、女性は3人である。部屋に入ったら煙草の吸殻が1本、灰皿の上にあった。このとき、吸った人が女性である確率を求めなさい(煙草の吸い回しはしていないと仮定する)」。

解法:

(a)ベイズの定理による解法

 吸った人が女性である確率を求めるということは、P(女性|喫煙者)を求めることである。

 ベイズの定理によって、

               P(喫煙者|女性)・P(女性)
 P(女性|喫煙者)=---------------------------
                  P(喫煙者)

を求めることになる。
 P(喫煙者|女性)=3/7
 P(女性)=7/(7+10)=7/17 P(喫煙者)=(3+5)/(7+10)=8/17

上式に代入して、

P(女性|喫煙者)=(3/7 × 7/17)/(8/17)=3/8 (答)


(b)集合論による解法

 次の図のような状況であった。吸殻を残したのは喫煙者の誰かであり、喫煙者が女性である確率は、図から明らかに3/8である。



図  状況を示すベン図


解説:この例題から分かるように、この問題をベイズの定理を使って解く理由は特にない。普通にベン図を使った集合論で解けば良い。
 それでもベイズの定理を使うことを推奨できるとすれば、定理の各項にかなり機械的に数値を当てはめれば良いことだろうか。「どんな問題でも、ひとつの方法論で解けるならば簡単に思える」、という人であれば、ベイズの定理を使うのも一案かもしれない。


2−(2). 雨の日のお誘いの問題

問題:
「酒好きのAさんはB氏をよくお酒に誘う。統計をとると、雨の降っていない日に誘うと、B氏は5回中4回誘いに応じ、雨の降っている日に誘うと、5回中3回誘いに応じることが分かった。B氏がAさんの誘いに応じたとき、雨が降っていない確率を求めよ。雨が降った日と降らない日の割合は7:1とする」。

解法:

(a)ベイズの定理による解

ベイズの展開公式を使う。

                      
P(雨ではない|誘いに乗る)

    P(誘いに乗る|雨ではない)・P(雨ではない)
=------------------------------------------------------------------
  P(誘いに乗る|雨ではない)・P(雨ではない)+ P(誘いに乗る|雨)・P(雨)


P(誘いに乗る|雨ではない)=4/5
P(誘いに乗る|雨)=3/5
P(雨ではない)=7/8
P(雨)=1/8
を代入する。

                       4/5 × 7/8
P(雨ではない|誘いに乗る)=---------------------------------------
                     4/5 × 7/8 + 3/5 × 1/8

=0.903


(b)ベン図による解

 状況をベン図に書けば、次のようになる。



図 お天気とお誘いのベン図

 雨ではないときにお誘いに乗った数=4×7=28
 お誘いに乗った総数=3+4×7=31

 お誘いに乗ったときに雨ではない確率は=28/31=0.903


解説:

 この例題も(1)の例題と同様で、特に、ベイズの定理を使うことは不必要である。むしろ、使わない方が簡単である。
 しかし、この例が何を示唆するか、と言えば、ベイズの定理の左辺をどう解釈するか、というある種の技法が、この問題には潜んでいるからである。
 ここで、もう一度、ベイズの定理の図を示したい。



図 ベイズの定理の表現図

 左辺P(A|X)であるが、ベイズの定理は、集合論から導かれているので、本来の解釈は、単に、XであってかつAでもある集合の大きさをXである集合の大きさで割った数値で表現される確率である。P(A)も、P(X)も、同様で、この図に示されているように、四角(=全体)を分母とする確率である。

 ところが、ベイズ推計では、P(A|X)ということに、方向性を持たせている。右辺にあるP(X|A)も同様である。

 もとに戻って考えなおしてみよう。

 「風が吹けば桶屋が儲かる」、の例を再度掲載すれば、

                   
「桶屋が儲かる」ときに「風吹く」確率

  「風が吹く」ときに「桶屋が儲かる」確率 × 「風が吹く」確率
=----------------------------------------------------------
                  「桶屋が儲かる」確率


である。

 ベイズの定理は、もともと集合(ある条件を満たした日数)がその対象であるから、「風が吹いた日」のうち「桶屋が儲かった日」は何日あったか、が正しい表現である。

 それが『「風が吹く」ときに「桶屋が儲かる」確率』という表現になっている。

 そして、もともとの問題は、「風が吹けば桶屋が儲かる」、という形であった。これは「原因」と「結果」の表現になっているところに特徴がある。

 すなわち、ベイズ推計の特徴は何か、と言えば、本来、集合論の問題であったものが、「原因」と「結果」の問題に拡張されていると理解するのが良さそうである。


2−(3). 取り出した白玉はどちらの壺からの問題

問題:
「外からは区別の付かない壺a,bがある。壺aには、白玉が2個、赤玉が3個入っている。壺bには、白玉が4個、赤玉が8個入っている。これら2つの壺a,bの一つを選択し、その壺から一つの玉を取り出したら白玉だった。この玉が壺aから取り出された確率、壺bから取り出された確率を求めよ」。


解法:
(a)ベイズの定理による解

 まずは、壺aから白玉が取り出される確率は、5個の玉のうち白玉は2個なので、2/5である。

 これは、Wを取り出した玉が白玉である確率、Haを壺aが選択された場合とすれば

「壺aから取り出された玉が白である確率」=P(W|Ha)=2/5

 同様に、

「壺bから取り出された玉が白である確率」=P(W|Hb)=4/(4+8)=4/12

 さて、ここで、壺aが選択されるか、あるいは、壺bが選択されるかについては、なんら情報はないので、「理由不十分の原則」によって、

 P(Ha)=P(Hb)=1/2

と設定する。

 実は、このようなケースについて「理由不十分の原則」の適用を行うとする「本書」の記述は明らかに間違いだと思う。後述する。

 P(Ha|W)=P(壺a|白玉)=(2/5 × 1/2)/(2/5 × 1/2+4/12 × 1/2)

 結局、1/2はすべての項に乗じているので、すべて

=(2/5)/(2/5 + 4/12)

=6/11

 壺bから取り出される確率は、
P(Hb|W)=P(壺b|白玉)=5/11

(b)集合論での解法



図 白玉が壺aから取り出されるベン図

 この図より

 壺aが選択されたとき白玉が取り出された確率=2/5 

 壺bが選択されたとき白玉が取り出される確率=4/12

 よって、白玉が壺aから取り出される確率は

=(2/5)/(2/5 + 4/12)

=6/11

 壺bから取り出される確率は、
P(Hb|W)=P(壺b|白玉)=5/11


解説:

 この例で、「理由不十分の原則」を導入するのは間違だ、と思う。なぜならば、「理由不十分の原則」で導入する1/2という数値は、学問的にきっちりとした頻度主義的な解法では当然だとされる数値だからである。なぜならば、「壺は外からは区別が付かない」ので、頻度主義では1/2になるのが当たり前だからである。すなわち、1/2は「理由充分な数値」なのである。

 この例でも、ベイズの原則を用いる妥当性はなくて、むしろ、集合論を用いて解を得ることが簡単かつ明快である。すなわち、ベイズ推定の例としては、不適当である。


2−(4). 壺から取り出した玉で真贋判定の問題

問題:
「A社の作る本物の壺には、水晶玉とガラス玉が4:1の割合で入っている。B社の作るにせものの壺には、水晶玉とガラス玉が2:3の割合で入っている。2社の壺は外見から判別できない。また、壺には玉がたくさん入っているものとする。いま、A社製かB社製か不明の壺があり、続けて3回玉を取り出したら、順に水晶玉、水晶玉、がらす玉であった。この壺がA社製である確率を求めよ」。


解法:

(a)ベイズの定理による解

 ここでは、ベイズ更新という新しい概念が入ってくる。やっとベイズ推定の例になったという感触である。

P(Ha|S)を求める解とする。これは、水晶球Sが取り出されたときに、それが壺aからである確率である

P(Ha|S)はベイズの定理の展開式によって、

           P(S|Ha)・P(Ha)
P(Ha|S)=--------------------------------------
        P(S|Ha)・P(Ha) + P(S|Hb)・P(Hb) 

 a→b、S→G(ガラス玉)と置き換えれば、同様の式が全部で4式できる。

 さて、通常の頻度を考えることで

P(S|Ha)=0.8 なぜならA社の壺にはS水晶玉が4個、ガラス玉が1個入っているから
P(G|Ha)=1−0.8=0.2

bの壺についても同様に、

P(S|Hb)=0.4
P(G|Hb)=0.6

1)一個目の玉の取り出し

 P(Ha|S)を上式で求めようとすると、P(Ha)=壺aが選択された場合の値、P(Hb)=壺bが選択された場合の値、が未知である。

 そこで、問題の壺が「区別が付かない」と記述されているので、同等にすることが、頻度主義でも当然であるので、いずれも1/2=0.5とする。

 すると、

 P(Ha|S)=(0.8×0.5)/(0.8×0.5+0.4×0.5)=2/3

 P(Hb|S)=1−2/3=1/3

2)二個目の玉の取り出し

 再び、P(Ha)壺aが選択された場合、P(Hb)壺bが選択された場合、が未知である。しかし、一個目の確率が2/3、1/3と求められているので、これを使う方が良さそうである。

 「本書」では、「1回目にA社の壺が選択されたとするなら、2回目は1回目よりもA社の壺が選択される確率は高いはずです。これを学習効果があるからです」、と記述されているが、これは嘘である。なぜならば、題意によれば、2回目も、1回目と同じ製造会社が不明の壺から玉を取り出すのだから。

 正確には、1回目の結果により、製造会社がA社と推定することが「より正当だ」という結果がでたのだから、2回目には、その結果を使うのが順当な対応だということになる」。これを「ベイズ更新」と呼ぶ。

 そこで、2回目の結果は、

         0.8×2/3
P(Ha|S)=-------------------------------
      0.8×2/3+0.4×1/3

 =4/5

P(Hb|S)=1/5

 なお、「本書」では、(注)があって、「尤度(もっともらしさ:A社の壺から水晶が取り出される確率など)は、確率モデルの枠組みを規定するものなので、ベイズ更新でも変化しません、と書かれているが、これも間違い。

 問題に記述があるように、「壺には玉がたくさん入っている」と仮定されているので、A社の壺から水晶が取り出される確率は、2回目以降も変わらない、という記述が正しい。

3)三回目の玉の取り出し

 ニ回目の結果である

P(Ha)=4/5
P(Hb)=1/5
を使って、3回目を出す。

         0.8×4/5
P(Ha|S)=-------------------------------
       0.8×4/5+0.4×1/5

 =4/7

P(Hb|S)=1−4/7=3/7

4)結論

 水晶玉、水晶玉、ガラス玉というように玉が取り出された壺がA社製である確率は、4/7である。

 したがって、B社製である確率は3/7である。


(b)場合の数による解法

 これまで、「集合論による解法」であったが、これは「場合の数による解法」と述べた方が良いと思われる。

 ちょっとだけ面倒なことをやらないと答えはでない。

 まず、製造社不明の壺から水晶玉、水晶玉、ガラス玉という「順」で玉が取り出されたということであるが、その順番は重要なのだろうか。問題にもあるように、「壺にはたくさんの玉が入っている」ので、一つ取り出したとしても、確率は変わらない。すなわち、ここで重要なことは「順」ではなくて、3個の玉を取り出したところ、水晶玉が2個、ガラス玉が1個取り出されたという個数が重要なのである。

 さて、3個の玉を取り出したとき、

場合1: 3個とも水晶玉
場合2: 2個が水晶玉、1個がガラス玉
場合3: 1個が水晶玉、2個がガラス玉
場合4: 0個が水晶玉、3個がガラス玉

という4つの場合に別れる。そして、その場合の数は、2の3乗=8通りである。

水晶=水、ガラス=ガと記述すれば、

場合1の数=1  水、水、水
場合2の数=3  水、水、ガの順番を変えたもの
場合3の数=3  水、ガ、ガの順番を変えたもの
場合4の数=1  ガ、ガ、ガ

もしも壺がA社製であれば、
場合1の確率=0.8×0.8×0.8
場合2の確率=0.8×0.8×0.2×3
場合3の確率=0.8×0.2×0.2×3
場合4の確率=0.2×0.2×0.2

 問題で示されているのは場合2なので、0.8×0.8×0.2×3
=4/5 × 4/5 × 1/5 × 3
=48/125

もしも壺がB社製であれば、
場合1の確率=0.4×0.4×0.4
場合2の確率=0.4×0.4×0.6×3
場合3の確率=0.4×0.6×0.6×3
場合4の確率=0.6×0.6×0.6

 問題で示されている場合2では、
0.4×0.4×0.6×3
=2/5×2/5×3/5×3
=36/125

                 
 したがって、
                  48/125
壺がA社製である確率=---------------------
                48/125+36/125

=48/(48+36)
=4/7

B社製である確率=1−4/7=3/7


解説:

 このように、この問題においても、ベイズ推定の解と場合の数を数える頻度主義的解法による解は一致する。

 「理由不十分の原則」「ベイズ更新」といった仮定を用いたのに、結果が厳密解と一致するのは、奇妙な気がしないでもない。

 疑問:「この一致は偶然なのか。それとも必然なのか」。その答えは、「このケースの場合には、必然である」。

 まず、1個目の玉の取り出しのとき、「本書」では、「最初の玉を取り出すとき、A社の壺とB社の壺の選択確率は不明です。だから、「理由不十分の原則」を用います、と記述されているが、実は、「壺の選択確率」がまず問題で、実は、選択された訳ではない。不明の壺が、最初からそこに1個あったに過ぎない。

 1個の玉を取り出したとき、それが水晶玉であったとすると、

 A社製の壺であれば、水晶玉である確率は0.8、B社製の壺であれば0.4である。
 だから、不明の壺がA社製である確率は、
     0.8
 =---------------=2/3
   0.8+0.4

 になるに決まっている。集合論からの結論を得た場合と同じ式を用いているに過ぎない。

 二個目の玉の場合は、場合の数を用いた解で説明した三個目のケースを簡単にしたものになって、その答えは、ベイズの定理による解法の二個目の場合と全く同じ式になる。

 すなわち、この例題は、「ベイズ更新」といった新しい概念を用いたとは言っているものの、実は、全く頻度主義的な式を変形した形で用いたに過ぎない。

 だから、厳密解と同じ解になるのは、当然なのである。

 しかし、この方法をベイズ推計と呼ぶのなら、これを使うことに意味があるケースも無い訳ではない、とも言える。なんらかの推定値を求めなければならない場合があったとして、それが、頻度主義的な厳密解を求めることはできないという場合があるからである。

 今回は、その例を示す余裕は無いので、次回以降に先送りとしたい。


2−(5). 病気の診断:陽性と疑陽性の問題

問題:「ある病気を発見する検査Tに関して、次のことが知られている。
●病気にかかっている人を検査Tを適用すると、98%の確率で病気であると正しく診断される。
●病気にかかっていない人に検査Tを適用すると、5%の確率であやまって病気にかかっていると診断される。
●人全体では、病気にかかっている人と病気にかかっていない人の割合は、それぞれ3%と97%である。
 さて、母集団から無作為に抽出された一人に検査Tを適用して、病気にかかっていると診断されたとき(陽性)、この人が本当に病気にかかっている確率を求めよ」。



解法:
(a)ベイズの定理による解

 Haを病気である人の割合(すべての人が分母)
 Hbを病気出ない人=健康な人の割合(すべての人が分母)
 Dを陽性の人(すべての人が分母)
と定義する。

  P(病気|陽性)が求める値で=P(Ha|D)が求める値だということになる。

 ベイズの定理の展開公式(二項の場合)を使う。

          P(D|Ha)・P(Ha)
 P(Ha|D)=----------------------------------
        P(D|Ha)・P(Ha)+P(D|Hb)・P(Hb)

 これに次の数値を代入する。

 P(D|Ha)は病気である人が陽性と出る確率=0.98
 P(Ha)はすべての人のうち病気である確率=0.03
 P(D|Hb)は健康な人が陽性と出る確率=0.05
 P(Hb)は健康な人の割合=0.97

        0.98×0.03
P(D|Ha)=----------------------------------
        0.98×0.03 + 0.05×0.97

=0.377

 陽性なのに本当に病気である確率は37.7%であるということになる。陽性だからといって、心配しすぎると損をする。


(b)場合の数による解法

 このように割合(%)で示された場合、その実態を把握するのは、相当の技量を要する。

 そこで、割合で示された場合には、「場合の数にして考える」ことをお薦めする。

 この場合、すべてを整数にするために、10000人を対象に考えるが、別に1000人でも構わない。

 さて、全体として10000万人が居たとする。色々な条件の人がそれぞれ何人なのだろうか。色々な条件の人といっても、病気である人は3%、病気でない人は97%とあるから、

 病気である人=10000×0.03=300人
 病気でない人=9700人

 病気でない人を検査すると5%の人が陽性と判定されるので、
 陽性と誤診される人=9700×0.05=485人

 病気である人で陽性になる人は98%=300×0.98=294人

 陽性と判定される人は、誤診と本当の病人を合わせて=485+294=779人

 求めるのは、陽性の人のうちで、病気である人なので=294/779=0.377


解説:

 「本書」によれば、「行動経済学で言われることですが、人は事前確率にうといようです。「病気の人は98%の確率で病気と判断される」という尤度に引きずられて、そのバックグラウンドを見落としてしまう傾向があるのです」と記述されている。
 そんなことはない。単に、%などの割合で表現された数字を解析して、実態に変換し理解するのが、意外と厄介だということに過ぎない。
 しかし、場合の数にして考えれば、人間の理解力を増強するような直感が利くので、実態を見抜くことが簡単にできる。



今回の最終結論

 今回取り上げた確率に関する5つの問題は、実は、ベイズの定理などを使わないで解くことができる問題ばかりであったことがご理解いただけたのではないか、と思う。

 それならなぜ「本書」がベイズの定理を使っているのか、そこには、ニつの理由があると思う。

 一つ目の理由:式を丸暗記すれば、式に数値を代入するだけで、かなりバラエティーに富んだ問題でも、機械的に解が求まる。

 二つ目の理由:この5つの問題については、ベイズの定理を使っても、頻度主義的な厳密解と同じ答えになること、(これは集合論を基本にしている問題である限り、あたり前なのであるが)、これを示すことによって、必ずしも理論的に正しいことが証明できていない部分を含むベイズ推計が正解に近い答えを出すことができることをアッピールしたい。

 この二つ目の理由が余りにも目立つと、頻度主義的な統計学者と反りが合わないという結末になるのだろう。

 ということで、ここまで紹介してきた「本書」は、入門書としてやさしさを狙っているのは分かるが、初心者を惑わすような決定的な記述ミスが何箇所かあって、お薦めはできない。

 ベイズ推計の第二回目の説明としては、こんなところで止めておきたい。