1 なぜ統計的因果推論が必要か

私たちが研究を行う上で立てるリサーチクエスチョンの多くは、「ニホンザルの群れの凝集性はオスの攻撃に影響を受けるのか」、「食物状況はオスの性行動に影響しているか」というようなものである。これらの問いは、2つ(あるいはそれ以上)の変数間の単なる相関関係(「\(X\)が小さい/大きいほど、\(Y\)も小さい/大きい」)ではなく、因果関係(「\(X\)を小さく/大きくすると、\(Y\)も小さく/大きくなる」)に関する問いである。すなわち、私たちの研究のゴールの多くは、データから変数間の因果関係を推測(= 統計的因果推論)することにあるのである。よって、統計的因果推論の手法を学ぶことは、私たちの研究の根本にかかわる重要なことである。

統計的因果推論についての知識がなければ、実際に得られたデータから因果関係を推測することは難しい。特に研究者が変数への操作や介入を行えない観察研究では、複数の要因が複雑に影響し合っていることが珍しくないため、殊更に困難である。そのような状況では、変数間でみられる相関関係が実際の因果関係と一致しないことが良く起こるからである。

以下の例を考えてみよう。
ニホンザルのコドモにおいて、ある期間に食べた1日当たりの平均食物摂取量(乾燥重量で\(X\)g)がその期間における遊び時間割合(\(Y\)%)に影響しているかを調べたいとする。\(X\)と\(Y\)、そして年齢(\(Z\))の間に図1.1の間のような因果関係があるとする(もちろん架空の関係である)。なお、丸は各変数を、矢印は因果関係を表す(詳細は2.3節を参照)。

図1.1: X, Y, Zの間の因果関係

このような関係の下ではどのようなデータが得られるだろうか。シミュレーションによって図1.1のような因果関係を持つデータを生成し¹、\(X\)と\(Y\)の関係を散布図にしたものが、図1.2である。

この図からは「食物摂取量(\(X\))が多いほど、遊び時間割合(\(Y\))が少ない」という負の相関関係が読み取れる。この関係は、「食物摂取量(\(X\))が多くなると、遊び時間割合(\(Y\))が多くなる」という実際の因果関係(図1.1参照)とは正負が逆になってしまっている。つまり、\(X\)と\(Y\)の相関関係だけを見るだけでは、その因果関係を適切に推測できないのである。

図1.2: 平均食物摂取量(X)と遊び時間割合(Y)の関係。直線は回帰直線を表す。

なぜこのようなことが起こるのだろうか。それは、\(X\)と\(Y\)の因果関係を適切に推測するためには、その両方に影響している第3の変数\(Z\)(年齢)を考慮しなくてはならないからである。年齢ごとに\(X\)と\(Y\)の関係を見てみると、実際の因果関係と一致した方向の正の相関(「\(X\)が多いほど\(Y\)も多い」)が確認できるようになる。

図1.3: 年齢(Z)を考慮した平均食物摂取量(X)と遊び時間割合(Y)の関係。直線は年齢ごとの回帰直線を表す。

このように、データから適切な因果推論を行うためには、データの背後にある変数間の因果構造(= データ生成過程)を考慮しなければならない。この後見ていくように、データの因果構造によってどのような変数を考慮して分析すべきかは異なってくる。本稿では、構造的因果モデル(SCM)と因果ダイアグラムという2つのツールを用いることで、いかなる因果構造を持つデータにおいても適切に因果推論を行うための手法を学んでいく。

次章以降で学ぶ内容は以下のとおりである。

因果関係を正確に記述する方法(第2章)
因果モデルの構造をデータの特徴に関連付ける方法(第3章)
モデルとデータに含まれる因果関係の組み合わせから結論を導く方法(第4~5章)

なお、\(X, Y, Z\)は以下の確率分布に従って得られるとした。\[\begin{aligned}X &\sim Normal(20Z + 120, 10)\\Y &\sim Normal(0.2X - 10Z + 25, 5)\end{aligned}\] 確率分布については、2.1を、詳細はRのコードを参照。↩︎