-------


   ベイズ推定とは何か
     02.04.2013
        頻度主義の立場から



 4日の朝、デリーからの便で成田に戻りました。木・金・土・日という忙しいスケジュールでしたが、デリー・ジャイプール・アグラのインド・ゴールデントライアングルを回って来ました。こちらの写真などは、整理して、Facebookにでも掲載します。

 最近、ベイズ推計、ベイズ確率、ベイズ統計といった言葉が流行っている。ベイズの定理というものがあって、それを使うと、ある原因があって、ある結果が生じたとき、通常であれば、原因を解析して結果を推定することになるが、結果を解析して、原因を突き止めることができるという。

 まるで魔法のようなことができるということで、様々な応用例があるとされている。一体どのような方法なのだろうか。もしできたとしても、どこまで信頼できる方法なのだろうか。今回は、統計の頻度主義者の立場をとったとして、ベイズ推定をどう評価すべきか検討してみたい。

 ベイズ推定については素人なので、どこまで理解し、そして、その実態に迫った内容が書けるか全く分からないのでなんとも言えないが、最終的には、ベイズ推定で放射線の低線量被曝の影響を推定するということに使うとどうなるか、という例があるようなので、その解析まで行きたいと考えている。

 どのような記事を書くにしても、まず、何か、ベイズ推定の本を買わなければならない。アマゾンをいろいろとさまよってみて、超入門書らしきものを探してみた。結果としてたどり着いたのは、「Excelでスッキリわかる ベイズ統計入門」。涌井良幸、涌井貞美著、日本実業出版社、2010年10月20日、2200円を買ってみた。以下、「本書」と記述することにする。

 以下の文章で、「本書」の構成と一部に見られる論理矛盾を指摘するが、他のベイズ推計の本を見ていないで、すべてのこのジャンルの本がこのように妙な点があるということを言っている訳ではないことをあらかじめご了解いただきたい。



1.そもそもベイズの定理とは何か

1−1.ベイズという人について

 Wikipediaによれば、以下のようになっている。

 トーマス・ベイズ(Thomas Bayes、1702年 - 1761年4月17日)はイギリスの長老派の牧師・数学者である。ベイズの定理の特殊な場合についての証明が死後発表されたことで知られる。トーマス・ベイズはロンドンで生まれた。1719年に論理学と神学を修めるためにエディンバラ大学に入った。国教徒でなかったために、オックスフォード大学やケンブリッジ大学には入れなかった。

 この時代の人なので、まだ数々の華々しい科学的な発見に支えられた確定論的な見解、例えば、ラプラスのような見解にはなっていない人だろうと思われる。


1−2.ベイズの定理とは

 ベイズの定理とは、次の式で表現されることである。



式 ベイズの定理

P(A|X)は、XがおきたときにAが起きる確率、P(X|A) は Aが起きたときXが起きる確率を意味する。

 一見複雑に見えるが、この式は集合論から導かれたものであり、定理とも言えないほど、非常に簡単な話である。集合論ではおなじみのベン図で簡単に証明ができる。

 ベン図は、ジョン・ベンが作ったとされる。有名人だと思うのだが、なぜか、Wikiでは、英語版にしか説明がないのは不思議である。

John Venn FRS (4 August 1834 - 4 April 1923), was a British logician and philosopher. He is famous for introducing the Venn diagram, which is used in many fields, including set theory, probability, logic, statistics, and computer science.)

 「本書」では、「風が吹けば桶屋が儲かる」を用いて、ベイズ定理とは何かを説明しようと試みている。

 まず、ベイズの定理を日本語を使って表現すると、次の式になる。

                        「風が吹く」ときに「桶屋が儲かる」確率 × 「風が吹く」確率
「桶屋が儲かる」ときに「風吹く」確率=----------------------------------------------------
                          「桶屋が儲かる」確率

 この式は、例えば、昨年のデータを次のように仮定し、

 風が吹いた日数=100日
 桶屋が儲かった日数=10日
 風が吹いて、かつ、桶屋が儲かった日数=5日
  
図1 桶屋が儲かるベン図

 上のようなベン図を描いてみれば、一目瞭然である。「本書」には場合の日数が書いてないが、集合論もそうだし、確率論の確実な理解は、割合(%)などでなく、実際の「場合の数」を考えることによって、誤解をする可能性を大幅に減らすことができる。

 「桶屋が儲かる」確率とは、本来、1年の内で、何日か桶屋が儲かったという事実から計算される数値で、分母には365日が使われた確率であろう。

 昨年「桶屋が儲かった」日の確率(割合)=「桶屋が儲かった日数」/365日

 「風が吹いた」確率も同様で

 昨年「風が吹いた」日の確率=「風が吹いた日数」/365日

 しかし、1年365日は共通の分母なので、すべてを確率で議論するときには、省くことも可能である。そこで、日数で議論を進めることにする。

 となれば、上式において、

 「風が吹いて桶屋が儲かった日」というのは、桶屋が儲かった日で、かつ、風が吹いた日なので、5日。

 「風が吹く」ときに「桶屋が儲かる」確率は、桶屋が儲かった日数/風が吹いた日数である。すなわち、=5/100。

 「風が吹く」確率は風が吹いた日数=100日。

 「桶屋が儲かる」確率は桶屋が儲かった日数=10日。

 結局 5/10=5/100 × 100 / 10 という恒等式が成立することになる。これが、ベイズの定理である。

 これがベイズ関係の書籍などでは、すでに示した式のように記述されている。


1−3. 「ベイズの定理」の展開公式

 場合分けが必要な場合には、普通のタイプのベン図では表現が不可能である。そのために、拡大が必要である。それを展開公式と呼ぶ。

 これは、次のようなベン図が描ける場合の定理式である。これも集合論から導かれる何の不思議もない当然の式である。




図2  展開公式のためのベン図



 ベイズの展開公式

 ここまでの結論は、ベイズの定理そのものは、集合論によって簡単に証明できることであって、事後確率、事前確率といった特別な意味を持っている式ではない。

 次に述べるベイズ推定は、ベイズの定理を拡大解釈して、新しい意味を持たせたものである。

 しかも、その解法の中心にベイズの定理を置いて、比較的簡単にさまざまな解析対象に適用できるように工夫をしたものである。

 しかし、妙な原則、例えば、「理由不十分の原則」などといった概念を導入するにも関わらず、不思議なことではあるが、その結果は、少なくとも、以下2.において説明するような初歩的なケースについては、頻度主義的な統計手法で得た結果と一致する。

 だからいって、すべてのベイズ推定が正しいという証明は、「本書」の範囲では見つからない。

 確認が不可欠だとは思うが、どうも、ベイズ推計は、非常に柔軟な手法であるという新しさはあるが、その結果が絶対的に正しいとは言えないのかもしれない、という感触である。


2.ベイズ推定とされる例題

 「この本」の第二章では、「ベイズ推定はすごいだろう」ということを示す例として、以下に示すような例が使用されている。

(1)「喫煙者の推定」
(2)「雨の日のお誘い」
(3)「取り出した白玉はどちらの壺からか」
(4)「壺から取り出した玉で壺の真贋判定」
(5)「病気の診断:陽性と疑陽性の話」

以下、これらの問題をベイズ推定で解く場合と、通常の頻度分析で解く場合の比較をしてみたい。今週は、解を出しませんので、皆さんも、通常の方法で、ベン図や頻度を使って、答を出してみて下さい。

2−(1). 喫煙者の推定
問題:「男性10人、女性7人が一室でパーティーを開いた。男子の喫煙者は5人、女性は3人である。部屋に入ったら煙草の吸殻が1本、灰皿の上にあった。このとき、吸った人が女性である確率を求めなさい(煙草の吸い回しはしていないと仮定する)」。


2−(2). 雨の日のお誘い
問題:「酒好きのAさんはB氏をよくお酒に誘う。統計をとると、雨の降っていない日に誘うと、B氏は5回中4回誘いに応じ、雨の降っている日に誘うと、5回中3回誘いに応じることが分かった。B氏がAさんの誘いに応じたとき、雨が降っていない確率を求めよ。雨が降った日と降らない日の割合は7:1とする」。


2−(3). 取り出した白玉はどちらの壺から
問題:「外からは区別の付かない壺a,bがある。壺aには、白玉が2個、赤玉が3個入っている。壺bには、白玉が4個、赤玉が8個入っている。これら2つの壺a,bの一つを選択し、その壺から一つの玉を取り出したら白玉だった。この玉が壺aから取り出された確率、壺bから取り出された確率を求めよ」。


2−(4). 壺から取り出した玉で真贋判定
問題:「A社の作る本物の壺には、水晶玉とガラス玉が4:1の割合で入っている。B社の作るにせものの壺には、水晶玉とガラス玉が2:3の割合で入っている。2社の壺は外見から判別できない。また、壺には玉がたくさん入っているものとする。いま、A社製かB社製か不明の壺があり、続けて3回玉を取り出したら、順に水晶玉、水晶玉、がらす玉であった。この壺がA社製である確率を求めよ」。


2−(5). 病気の診断:陽性と疑陽性の話
問題:「ある病気を発見する検査Tに関して、次のことが知られている。
・病気にかかっている人を検査Tを適用すると、98%の確率で病気であると正しく診断される。
・病気にかかっていない人に検査Tを適用すると、5%の確率であやまって病気にかかっていると診断される。
・人全体では、病気にかかっている人と病気にかかっていない人の割合は、それぞれ3%と97%である。
さて、母集団から無作為に抽出された一人に検査Tを適用して、病気にかかっていると診断されたとき(陽性)、この人が本当に病気にかかっている確率を求めよ」。

 ベイズ定理を用いたこれらの問題の解は、「本書」にあるので、お買いになれば見ることが可能ですので、とうぞ。また、「本書」には一部のベン図を用いた解も掲載されている。これらを含め、すべての解答は、次回にまとめて記述予定。


3.頻度主義者はなぜベイズ派が嫌いか

 「本書」によれば、「ベイズの定理とは、次のような式から出発する理論です(p18)」、とある。この記述はそもそも奇妙である。ベイズの定理とはこの式、もしくは、この式から出発したベイズの展開公式を意味するだけであって、この式から出発する理論は、「本書」に出ていない。応用例は、多数出ているが、ベイズ推定などなどであってベイズの定理ではない。

 どうも、「本書」に見られるような無意識あるいは意図的な拡張が、ベイズの定理の万能性を主張するために行われていると見ることができるような状況なら、それは、厳格な頻度主義者の目からみれば、単なるヒンシュクの対象でしかない。恐らく、厳格な頻度主義者は、頻度主義的な確率論を奇妙なことにまで拡張することを嫌っているだろうと推測される。

 なぜならば、ベイズの定理そのものは、集合論の中に含ませて置くことが妥当な非常にプリミティブな公式にすぎず、ベイズ自身が、「事前確率」とか「事後確率」とかいう概念を考えていた訳ではない。

 もう一つは、「理由不十分の原則」とか言う「ベイズ推定」の特徴(「本書」による)がある。1回目の事前確率を二者択一のケースであれば、1:1に仮定をするが、そこになんらかの原理がある訳ではない。分からない場合には、1:1にするという便宜上このように設定したとしても、あまり困らないという言わば経験則に過ぎない。厳密な理論を構築したいであろう頻度主義者にとっては、このような理由のない経験主義は目の上のタンコブである。

 さらに、頻度主義者の神経を逆なですることは、便宜的にこのように設定しても、実際、比較的まともな値が出てくることなのではないか。ただし、あくまでも経験上そうなっているだけだと思われるので、すべてのベイズの定理を用いた解析がまともであるということを意味するとは思えない。

 さらに、人々の考え方が周辺状況の変化に応じて、どのように変化するか、といった推定を行うといった、頻度主義では出来ない技がベイズ推定などでは使われている。だから、どうなのだ、と言えば言えるが、何か新しい手法ではあるようで、これも頻度主義者にとっては、納得の行かないことなのかもしれない。

 という訳で、ベイズ推定の初回の記述は終わりである。次回は、例題をベイズ的手法と、それに対抗して、頻度主義的・ベン図的・場合の数を用いた手法の両方で解いてみたい。