SIMPSON’S PARADOX

部分をみるか、全体をみるかで真実は変わる(こともある)

イギリスの統計学者が発表した論文に由来する「シンプソンのパラドックス」は、データの「部分」を見るか「全体」を見るかで、まったく異なる結論が導かれる可能性があることを忠告する。バイアスを助長しかねないこの「データの危険性」について、事例を挙げながら解説する。

TEXT BY ATSUHIKO YASUDA@XOOMS
photo: Getty Images

「平均値の罠」

ある国の政府が、国民の所得の状況について、次のような発表をしたとしよう。

「今年、我が国では、年間所得1,000万円以上の高所得者層、1,000万円以下の低所得者層、どちらの層でも平均所得が増加しました。これは、国民全体の平均所得が向上していることを示すものであります」

所得の調査結果は正しいと仮定して、政府のこの見解は正しい、と言えるだろうか。すなわち、高所得者層も低所得者層も平均所得が上がっている時、国民全体の平均所得も向上している、と結論づけていいのだろうか。

直感的には、そんなの当たり前じゃないか、と思える。高所得者層も低所得者層も平均所得が増えたのなら、それらを足し合わせた国民全体の平均所得も当然、増えているはず。そう考えるのは極めて自然だ。

しかし、実は必ずしも、そうとは言えないのだ。図を見ながら、具体的な例で考えてみよう。

A、B、C、Dという4名の年収グラフ。

今、高所得者2人(A、B)、低所得者2人(C、D)の合計4人の国民がいるとしよう。そして、高所得者層の2人の一昨年の年間所得は、それぞれ2,000万円と1,200万円、低所得者層の2人は、それぞれ700万円と300万円だったとする。

この時、それぞれの層の一昨年の平均所得は、

【一昨年の平均所得】
 •高所得者層:(2,000万円+1,200万円)÷2 = 1,600万円
 •低所得者層:(700万円+300万円)÷2 = 500万円

となる。さて、今年はかなりの不景気で、4人全員の所得が減ったとしよう。高所得者層の2人の年間所得は1,800万円と900万円に、低所得者層は650万円と250万円に減ったとする。

この時、今年の高所得者・低所得者、各層の平均所得は次のようになる。

【今年の平均所得】
 •高所得者層の平均所得:1,800万円
 •低所得者層の平均所得:(900+650+250)÷3 = 600万円

これを、先に見た一昨年の平均所得と比べてみると、なんと、4人の国民全員の年間所得は減ったのにもかかわらず、高所得者層の平均所得も、低所得者層の平均所得も、ともに増加しているではないか! なんとも直感に反する結果だが、計算に間違いはない。


この例のような「ある対象を『部分』で見た時と、それらを統合した『全体』を見た時では傾向が異なる」という現象は、1951年、イギリスの統計学者、E.H.シンプソンが「分割表における相互作用の解釈」という論文の中で指摘した。このため、一般には「シンプソンのパラドックス」として知られている。

「部分」と「全体」は相反する

シンプソンのパラドックスは、データの「部分」をみるか「全体」をみるかで、まったく異なった結論が導かれる可能性がある、ということを私たちに忠告している。とりわけ、平均値のような、一見わかりやすい比較の場合は、部分と全体が相反する傾向をもつことに疑いを持ちにくい。

オレゴン大学の数学教授であり、メジャー・リーグの大ファンでもあるケン・ロスが、”Mathematician at the ballpark”という本の中で紹介した例をみてみよう。ロスは、2名の大リーガー──デレク・ジーターとデビッド・ジャスティス──の打率を、1995年と1996年の2年間にわたって比較した。

D.ジーターとD.ジャスティスの打率の比較(出典:Ken Ross ”Mathematician at the ballpark”)

このデータをみると、1995年と1996年、どちらの年も、ジャスティスの打率は、ジーターの打率を上回っていることがわかる。すなわち、年ごとに評価するなら、ジャスティスのほうが好打者だ、と言う印象を受ける(もしあなたが正義感あふれる人間なら、ジャスティスは、ジーターほど人気はないけれど、もっと評価されるべき選手だ、と憤慨するだろう)。

ところが、両年を通算した打率を見てみると、ジーターがジャスティスを大きく上回っているのだ(残念ながら、あなたの正義の怒りは徒労に終わることになる)。これもまた、「部分と全体では傾向が異なる」シンプソンのパラドックスである。

隠れた「プレーヤー」を見落とすな!

「部分」を見ずに、「全体」の印象だけで判断することの危うさを教えてくれる、こんな例もある。次の表は、米フロリダ州で、ある一年間におきた殺人事件の裁判について、有罪判決が出た割合を調べたものだ。

殺人事件の裁判における、被告人の人種と有罪判決の割合(米フロリダ州)

上の表を見ると、被告人が白人の裁判では、有罪判決の割合は11.0%なのに対し、被告がアフリカ系の場合は7.9%となっている。このデータを見るかぎり、フロリダ州では、少なくとも裁判において、アフリカ系への差別は認められず、むしろ、アフリカ系が優遇されている、という印象を受ける。はたしてそれは「正しい印象」だろうか。

実は、この例は「隠れたプレーヤー」を見つけなければ、判断を誤ってしまう、という実例だ。この表に、あらたな属性——「被害者の人種」——を加えた次の表を見ると、まったく逆の事実が見えてくる。

殺人事件の裁判における、被告人、被害者の人種と有罪判決の割合(米フロリダ州)

これを見ると、被告人がアフリカ系で「被害者」が白人の時、有罪判決の割合は22.9%と突出して高いことがわかる。一方、被告人が白人で「被害者」がアフリカ系の場合、有罪判決はゼロだ。

つまり、二番目の表から見えてくるのは、「白人がアフリカ系を殺しても有罪にはならないが、逆に、アフリカ系が白人を殺すと有罪になる確率が極めて高い」という事実だ。最初の表から受けた印象とは、まったく逆の事実が見えてくる。

ふたつの表は同じ対象を、同じデータを使って整理したものだ。ただ、最初の表では、「被害者の人種」という属性を無視している。それによって得られた分析結果は、真逆になってしまうのだ。さらに言えば、二番目の表が「最終的な真実」かどうかも保証はない。このデータに、さらに他の属性——たとえば、被告人・被害者の収入や学歴、職業、性別など——を加えれば、また違った結論が導かれるかもしれない。

真実に近づくために

データや数字に基づく分析は、客観的で公平なものだと信じられている。しかし、どのデータ、どの属性に注目するかには、必ず分析者の主観や「視点」が入っている。集めたデータは正しく、分析者に悪意や偏見はなく、分析の手順に間違いがないとしても、その結果は、必ずしも「真実」とは限らないのだ。

もしかしたら、完璧な真実というのものは存在しないかもしれない。しかし、「真実」に少しでも近づくためには、与えられたデータを鵜呑みにするのではなく、少し足を止めて、今、部分と全体のどちらを見ているのかを考え、背後に隠れている別な「視点」がないかを疑ってみることしかないだろう。「シンプソンのパラドックス」は、データ時代を生きる私たちに、その「心構え」を教えてくれている。

※ 参考書籍
・Ken Ross “A Mathematician at the Ballpark: Odds and Probabilities for Baseball Fans”(Pi Press/ 2004)
・”Simpson’s Paradox” (Wikipedia)
“More examples of Simpson’s Paradox, barring the ones on Wikipedia, Titanic, and delayed flights.” (StackExchange)
・神永正博『直感を裏切る数学』(講談社ブルーバックス/ 2014)