「統計的検定」と「刑事裁判」の「論理的類似点」

この記事は次のWebサイトを参考にさせてもらっています。(「“統計的に有意差なし”もうやめませんか」　Natureに科学者800人超が署名して投稿 – ITmedia NEWS)

統計的検定(仮説検定ともいいます)という手法がありますが、「帰無仮説」「対立仮説」「棄却」「有意水準」「p値」などの用語が出てきて理解するのを難しくしています。また、その論理的判断が日常感覚での論理的判断とは少し異なることも理解を難しくしていると思われます。その論理的判断の手法が司法刑事裁判と似ていることに気づきました。「統計的検定」と「刑事裁判」を比較することで、「統計的検定」が少し理解しやしすなると思いこの記事を書きました。

統計的検定と刑事裁判との比較
論理的判断が難しい理由
具体的な例
[コラム]刑事裁判の社会的意義
第1種の誤り、第2種の誤り
統計的検定の難しさ
どちらの立場に立つべきか？

統計的検定と刑事裁判との比較

　日本の刑事裁判の報道を見ていると、検察側、被告人側とも「有罪」か「無罪」かを争っているように見えます。しかしながら、ハリウッド映画のリーガル・サスペンス等を見ていると、刑事裁判で争っているのは、「guilty」か「not guilty」なのが分かります。英語圏でも、「無罪」=「innocence」という言葉や概念はありますが、刑事裁判で争われるのは、被告人が「guilty=有罪」か「not guilty = (少なくとも)有罪ではない」かです。

　統計的検定でも同じロジックを使うようです。何かの有意性(例えば、ワクチンの有効性)を調べたくて、統計的検定で調べるのですから、その際に判断の基準となるのは、p値になります。

　p値が最初に設定した値(有意水準:5%あるいは1%)より小さければ、p値がその値をとるのは、確率的に低く、偶然とは考えにくいと捉え、「帰無仮説は間違っている(棄却する)」=「対立仮説に有意性がある(採択する)」という結論になります。

　難しいのは、p値か最初に設定した値(有意水準)より大きい場合です。この場合、「(少なくとも)帰無仮説が間違っているとはいえない(棄却されない)」=「(少なくとも)対立仮説に有意性があるとはいえない(採択できない)」というあいまいな判断になります。

「ある」の反対は「あるとはいえない」ということになります。

　刑事裁判で言えば、裁判で検察が提出してくる証拠が被告人が犯人であることを示していた場合、合理的に考えて被告人しか犯人は考えられなかったとしたら「推定無罪は間違っている」=「有罪が立証」されたと結論づけられます。

　逆に少しでも被告人が犯人だとする合理的な理由が見つけられない場合、「疑わしきは、被告人の利益に」の原則が適用され、「推定無罪」側に働きます。その結果「(少なくとも)推定無罪が間違っているとはいえない」=「(少なくとも)有罪とはいえない」という結論になり、裁判の結果は無罪判決になります。この場合、冤罪に近い「真っ白な無罪」も「状況証拠はそろっているが、有罪とする物的証拠がない」という「グレーな無罪」も両方「無罪判決」になります。

「有罪」の反対は「(少なくとも)有罪とはいえない」ということになります。

　少し強引ですが、刑事裁判を統計的検定に当てはめると、「有意水準」は0%になります。検察が示してきた証拠に疑わしい点がある場合や、あるいは弁護側が示した被告人が犯人ではないという証拠に検察が合理的に反論できない場合は、p値は0より大きくなり、結果として「推定無罪」が適用され、判決は「not guilty」=「無罪(少なくとも有罪とはいえない)」になります。

(ちなみに、この有意水準5%というのは、R.A.Fisherという学者がきめたそうです。その理由は「5%に該当する標準正規分布の棄却限界値が約2で便利だから」というものらしいです。)

論理的判断が難しい理由

　ここで統計的検定を難しくしているのは、日常的に何かの「効果」を判定する場合に、「効果あり」⇔「効果なし」と二項対立の形で判断するのに、統計的検定では「効果あり」⇔「効果があるとは言えない」という判断をしなけばならないからです。

　日本における「無罪」判決の誤解:

　日本の刑事裁判で、有罪判決が出ると「被告人=犯罪者」、無罪判決がでると「冤罪=警察・検察による違法な取り調べがおこなわれた。被告人は冤罪被害者でヒーロー。」のような二項対立で報道されることがあるようです。やはり、この場合も「有罪(guilty)」⇔「無罪(innocence)」ではなく、もしかすると神の目から見ると真犯人だが、検察が法廷で合理的な証拠を示す事が出来ずに、「有罪(guilty)」⇔「(少なくとも)有罪ではない(not guilty)」という結論になったと考えるべきでしょう。

具体的な例

　ある感染症にたいするワクチンの効果を確認する場合を考えます。ワクチン等の有効性を判断するための治験では、治験者を2つのグループに分けて、一方のグループに本物のワクチンを投与して、もう一方のグループにはプラセボ(偽薬)を投与して効果を測定します。それぞれの治験者の抗体数を調べてヒストグラムを描くと2つの山が出来ます。

　この時、帰無仮説と対立仮説を以下のように設定します。

帰無仮説:

H0:2つの治験者の中和抗体の平均値は同じである。

対立仮説:

H1:ワクチン投与したグループの治験者の中和抗体の平均値は、プラセボ投与したグループの治験者の中和抗体より大きい。

　(1)下図のように「プラセボ投与」と「ワクチン投与」の山が重なり合わないぐらい、離れていれば効果の判定は簡単で「帰無仮説」は棄却でき、「有意差あり」と判定できますが、難しいのは山が重なり合う場合です。

　(2)2つの山が重なる場合でも、「ワクチン投与」の平均値(p値)が「プラセボ投与」の上位5%に設定した有意水準以下の場合があります。下図にその場合を示します。この場合、平均値(p値)が5%を下回る場合は、偶然起こるとは言い難いと判断して、「帰無仮説」は棄却でき、「有意差あり」=「ワクチンの効果あり」と判断します。

(3)2つの山が重なる場合で、「ワクチン投与」の平均値(p値)が「プラセボ投与」の上位5%に設定した有意水準以上の場合があります。下図にその場合を示します。この場合、平均値(p値)が5%を上回る場合は、「帰無仮説」は棄却できませんが、「帰無仮説」が正しいとも言えません。この場合、「有意差があるとは言えない」=「ワクチンの効果があるとは言えない」と判断します。この場合に「ワクチンの効果はない」と判断しないでください。

形式は異なりますが、統計的検定の考え方と刑事裁判の考え方の対比表を示します。

「統計的検定」において、「帰無仮説」として「比較対象となる2つのグループの平均値が等しい」と設定する場合が多くあります。その場合「統計的検定結果」が「有意差があるとは言えない」と判断されることがあります(上記(3)の場合です)。しかし、その場合でも、「2つのグループの平均値が等しい」という結果になるということは「稀」です。しかし、「稀」ではあっても全く起こらないとも言えないので「2つのグループの平均値が等しい」という結論が出る場合があるので、帰無仮説は棄却されません。また、「2つのグループの平均値が等しい」という結論は、「稀」にしか起こらないので、明確に採択もされません。

　つまり、「有意差があるとは言えない」とは「何も明確なことは言えない」であり、「無に帰する仮説」ということから、「帰無仮説」と呼ばれる所以です。

「統計的検定」とは「背理法」の一種なので、否定されるべき「仮説」が必要になります。別の言い方をすれば、「帰無仮説」とは、「有意差あり」という結論がでた場合に、否定されることを前提にした便宜上設定された仮説ということもできます。

　「統計的検定」で留意すべきなのは、「対立仮説」の場合、「採択される」⇔「採択されない」の二項対立であるのに対し、「帰無仮説」の場合、「棄却される」⇔「放置される(無に帰す)」という微妙な結論になることを覚えておくといいと思います。

[コラム]刑事裁判の社会的意義

[コラム]刑事裁判の意義:

周防正行監督の作品「それでもボクはやってない」で正名僕蔵さん演じるリベラルな判事が司法修習生に対して刑事司法の社会的意義につにて問います。その答えは「無実の罪人を作らないこと」です。

近代刑事裁判の原則は「十人の真犯人を逃すとも、一人の無辜の罪人を罰するなかれ」です。日本の報道では、「無罪判決」が出ると「冤罪」を防いだように報道されることがありますが、必ずしも、そうでない場合もあります。つまり「真っ白な無罪」もあれば「かなりグレーだが無罪」もあるということです。

例えば殺人事件が起こったとき、警察が一人の容疑者を逮捕したが容疑者はその殺人について全面否認します。その状態のまま、裁判になると、検察⇔被告人の全面対決になります。その場合でも、被告人は殺人事件の犯人ではないという主張を立証する責任はありません。「殺人事件の犯人ではないのことの証明」=「ないことの証明」になるので「悪魔の証明」になり証明不可能だからです。

この場合、検察側が各種の証拠を示して被告人が殺人犯であることを立証しなければなりません(動機:被告人は被害者から多額の借金をしていた、物的証拠:現場に凶器となる刃物が落ちていて被告の指紋がべったりついていた、アリバイ:現場付近に設置された防犯カメラに犯行時刻の前後に被告の姿が写っていた)。

これを「立証責任は検察側にある」といいます。理想論を言えば、検察側から提出される証拠が全て被告人が犯人であることを示しているのが望ましいです。

もし被告人が犯人であることを否認した場合、検察が合理的な理由・証拠を示して、被告人が犯人だと立証できなければ、その点については「疑わしきは、被告人の利益に」という原則の元、「無罪(=not guilty)」の根拠になります。

裁判中は被告人は犯罪者でも、犯罪者に類する者でもなく、無罪が推定されます。これを「推定無罪の原則」といいます。

第1種の誤り、第2種の誤り

　統計的検定により判断してもそれがあやまっているリスクがあります。そのリスクは2つに分けられます。(※確率的な事象を元に判断しているので、その結果については一定のリスクがあります。上記の「具体的な例」の「優位性あり」の例ですか、「p値が5%を下回る場合は、偶然起こるとは言い難い」と仮定しましたが、「p値が5%を下回ることも偶然起こりうる」と最初の判断はあやまっていることになります。)

　「第1種の誤り=あわてものの誤り=生産者危険」「第2種の誤り=ぼんやりものの誤り=消費者危険」です。これも分かり難いのですが、刑事裁判の事例と比較すると少しイメージしやすくなります。

　厳密な刑事裁判では認められませんが、仮に「5%までの疑わしさは検察の主張が認められる(有罪認定される)」とします。その場合、神の目から見て、刑事被告人が無実であっても、5%疑わしい場合は、間違った判決が下され犯人にされてしまいます。つまり、冤罪です。これが第1種の誤りということです。

　また逆に、神の目から見て、刑事被告人が真犯人の場合でも、刑事裁判の原則を貫いて、検察の主張が100%納得できるものではないとして退けた場合は、真犯人を見逃すことになります。これが、第2種の誤りということです。

統計的検定の難しさ

　冒頭で参照したWeb記事によると、5つの科学雑誌に載った791の文献を調査したところ51%が、「有意差がない=効果がない」と誤った推論をしているそうです。このことからも、統計的検定の論理的な判断が学者・研究者でも難しいということが分かります。

どちらの立場に立つべきか？

　映画などのリーガル・サスペンスでは、弁護(被告)人側と検察側のどちらかの視点で描かれているので、観客もどちらかに感情移入して鑑賞することになります。

　弁護(被告)人側に立った作品だと(「ザリガニの鳴くところ」等)、推定無罪(帰無仮説)が棄却されずに、無罪判決(not guilty)が下されることを期待して感情移入することになります。

　検察側に立った作品だと(「HERO」等)、推定無罪(帰無仮説)が棄却されて、有罪判決(guilty)が下されることを期待して感情移入することになります。

　では、統計的検定を行うものとしては、どちらの立場に立って臨むべきなのでしょうか？例えば、殺人事件が起こって、容疑者を逮捕して裁判でguilyかnot guilyかを決めたい場合に、刑事裁判の意義があるのですから、統計的検定も「有意差あり」か「有意差があるとはいえない」かを決めたいのであれば、気持ちとしては検察官として臨むのが望ましいと思います。