4 介入効果の推定

ここでは、いよいよ相関関係と因果関係をきちんと見分け、原因を変化させたときに結果に与える効果(因果効果・介入効果)の大きさを推定するための方法を学ぶ。

これまで見てきたように、変数間に相関関係があるからと言って、因果関係があるとは限らない場合が多々ある。よって、相関関係から予測される効果実際の因果効果(介入効果)とズレることがよく起こる。

例えば、あなたは河川中の汚染物質量が底生昆虫の種数に与える影響を知るため、データを収集したとする。その結果、図4.1のようなデータが得られた(\(X\): 河川中の汚染物質の量, \(Y\): 底生昆虫の種数)。このデータだけをもとに、「底生昆虫の種数を増やすためには、河川中の汚染物質を減らすべきだ」と結論付けることはできるだろうか?

答えはノーである。あくまでもこのデータから言えるのは、「\(X\)が小さいほど\(Y\)は大きい」ということだけであり、これは相関関係の話である。あなたが本当に知りたいのは「\(X\)小さくしたとき\(Y\)が大きくなる」といえるかである。

河川中の汚染物質量と底生昆虫の種数の関係

図4.1: 河川中の汚染物質量と底生昆虫の種数の関係

例えば、図4.1のデータについて、各データが川の上流域/下流域のいずれで収集されたかも記録したところ、図4.2のような結果が得られたとする。このグラフからは、データを上流/下流で収集するかが\(X\)\(Y\)の両方に独立に影響したことで、\(X\)\(Y\)の相関が生じた可能性が示唆される(交絡要因の影響)。このように、\(X\)\(Y\)の相関が\(X\)と関係ない要因で生じているなら、\(X\)を変化させても\(Y\)は変化しないだろう。

データ収集場所の情報も含めた河川中の汚染物質量と底生昆虫の種数の関係

図4.2: データ収集場所の情報も含めた河川中の汚染物質量と底生昆虫の種数の関係

4.3のように、\(Y\)はデータ収集場所の影響もうけるが、それに加えて\(X\)の影響も部分的に受けているということもあるかもしれない(上流域/下流域それぞれでも\(X\)\(Y\)に相関がある)。その場合、\(X\)を変化させれば\(Y\)も部分的に変化する。

データ収集場所の情報も含めた河川中の汚染物質量と底生昆虫の種数の関係2

図4.3: データ収集場所の情報も含めた河川中の汚染物質量と底生昆虫の種数の関係2

このように、\(X\)の介入効果が正しく推定できているかは、\(Y\)の値がどのような過程で得られるのかに大きく依存するのである。

因果効果を推定するために良く用いられる方法は、ランダム化比較試験(RCT)である。この方法では、応答(反応)変数(\(Y\))に影響を与える因子は、1つ(\(X\))を除いて固定されるか、ランダム化される。このようなとき、\(Y\)の変化は\(X\)によってのみ生じたといえるので、\(X\)の介入効果を正確に推定できる。

しかし、実際の研究ではRCTを行うことは不可能であることが多い(金銭的・時間的・倫理的・方法論的問題などなど…)。そのような場合、研究者は代わりにこうした操作を行わない観察研究を行うことになるが、近年の統計学の発展により、観察研究であっても適切に分析を行えば因果効果を推定できることが分かってきた。以下では、前章までに学んだことをもとに、どうすれば観察研究でも因果効果を正確に推定できるのかを学んでいく。

4.1 介入とは

モデルにおいてある変数に「介入する」とは、その変数をある値に固定することを意味する(\(\neq\)条件付けする)。よって、しばしば他の変数の値もそれに合わせて変化する。一方で、値を固定するので、他の変数からの影響はなくなる

グラフでは、\(X\)に介入するということは、\(X\)に向かう辺が全て取り除かれることを表す(図4.4のAからBに変化するように)。このことからも、\(X\)で条件付けするときとは変数間の関係が全く違くなることが分かる。ある変数に介入する際の手順は、因果グラフの構造により異なる。

ひとことメモ
\(X\)以外をランダム化することも、\(X\)へ向かう辺をすべて取り除くことに相当する。
Xに介入したときのグラフの変化

図4.4: Xに介入したときのグラフの変化

条件付き確率(\(P(Y = y|X = x)\))と区別するため、\(X\)をある値\(x\)に固定(= \(X\)に介入)したときに\(Y = y\)になる確率は、以下のように書く。 \(do\)表記と因果ダイアグラムを用いることで、グラフが現実を正確に表現していれば、観察データのみから因果効果を推定することができる。以下では、その方法を見ていく。

\[ P(Y = y|do(X = x)) \]

4.2 調整

4.2.1 調整と調整化公式

それでは、\(P(Y = y|do(X = x))\)はどのように求めたらよいだろうか。
4.5で、\(Z\)は性別、\(X\)は薬の投与の有無(0/1)、\(Y\)は回復の有無(0/1)を表すとする。



薬の効果を表す因果ダイアグラム

図4.5: 薬の効果を表す因果ダイアグラム


患者全員に薬を投与するという介入(\(do(X = 1\)))と、誰にも薬を投与しないという介入(\(do(X = 0\)))との比較を考える。このとき、その差は因果効果差または平均因果効果(ACE: average causal effect)と呼ばれ、以下の式で表せる。\(X\)\(Y\)が複数の値をとる場合は、すべての組み合わせついて効果を算出する。

\[ P(Y = 1|do(X = 1)) - P(Y =1| do(X=0)) \]

因果効果\(P(Y = y|do(X = x))\)は、介入して\(X\)への辺を取り除いたモデル(図4.6)における条件付き確率\(P_m(Y=y|X=x)\)に等しい5

介入後の因果ダイアグラム

図4.6: 介入後の因果ダイアグラム


また、介入前と介入後のグラフにおける確率について、以下の3点が成り立つ。

  1. \(Z\)を決める過程は\(Z\)から\(X\)への矢印がなくなっても変わらないので、周辺確率\(P(Z = z)\)は介入後も変化しない(\(P(Z=z) = P_m(Z=z)\))。

  2. \(Y\)\(X\)\(Z\)によって決まる過程(つまり\(Y = f(x,y,u_y)\))は\(X\)への介入によって変わるわけではない。よって、条件付き確率\(P(Y=y|X=x,Z=z) = P_m(Y=y|X=x,Z=z)\)である。

  3. 介入後のグラフで\(X\)\(Z\)はd分離されて独立なので、\(P_m(Z=z|X=x) = P_m(Z=z)\)が成り立つ

以上より、因果効果\(P(Y=y|do(X=x))\)は以下のように変形できる。

\[ \begin{aligned} &P(Y=y|do(X=x))\\ &= P_m(Y=y|X=x)\\ &= \sum_{z}P_m(Y=y|X=x,Z=z)P_m(Z=z|X=x) \;\;\;\; (全確率の公式より)\\ &= \sum_{z}P_m(Y=y|X=x,Z=z)P_m(Z=z) \;\;\;\; (1より)\\ &= \sum_{z}P(Y=y|X=x,Z=z)P(Z=z) \;\;\;\; (2と3より) \end{aligned} \]

この式により、因果効果を介入前のグラフのデータから計算できるようになる。
この式は調整化公式と呼ばれ、ある\(Z\)の値について\(X\)\(Y\)の関係を計算し、それを\(Z\)について平均していることが分かる。このような処理を「\(Z\)による調整」または「\(Z\)についてのコントロール」と呼ぶ6


調整化公式の使用例:
4.5のグラフについて、以下のデータ(表4.1)が得られているとする。

表4.1: 薬の投与に関する結果
薬投与 薬投与なし
男性 81/87が回復(93%) 234/270が回復(87%)
女性 192/263が回復(73%) 55/80が回復(69%)
全体 273/350が回復(78%) 289/350が回復(83%)


このとき、平均因果効果(ACE)は以下のように求められる。なお、\(X=1\)は薬が投与されたこと、\(Z=1\)は患者が男であること、\(Y=1\)は患者が回復したことを表す。ACEは正の値なので、薬の効果があったことを示す。

\[ \begin{aligned} &P(Y = 1| do(X = 1))\\ &= P(Y=1|X=1,Z=1)P(Z=1) + P(Y=1|X=1,Z=0)P(Z=0) \\ &= 0.93 \times \frac{87+270}{700} + 0.73 \times \frac{263+80}{700}\\ &= 0.832\\ \end{aligned} \]

\[ \begin{aligned} &P(Y = 1| do(X = 0))\\ &= P(Y=1|X=0,Z=1)P(Z=1) + P(Y=1|X=0,Z=0)P(Z=0) \\ &= 0.87 \times \frac{87+270}{700} + 0.69 \times \frac{263+80}{700}\\ &= 0.7818\\ \\ &\therefore ACE = P(Y = 1| do(X = 1)) - P(Y = 1| do(X = 0))\\ &= 0.832 - 0.7818 = 0.0502\\ \end{aligned} \]

4.2.2 何を調整すべきか

注意すべき点は、モデルの因果構造によって、調整すべき変数の集合\(Z\)が異なる点である。
例えば、因果ダイアグラムが図4.7のような事例を考える(\(X\): 薬の投与, \(Y\): 回復, \(Z\): 血圧)。

薬の効果を表す因果ダイアグラム

図4.7: 薬の効果を表す因果ダイアグラム


このモデルについて、因果効果\(P(Y = 1| do(X = 1))\)を求めたいとする。このとき、\(Z\)で調整すべきだろうか?\(X\)への介入とは、\(X\)に向かう辺をすべて取り除くことであった。このモデルにおいて、Xに向かう辺はそもそも存在しない。よって、もしこの因果ダイアグラムが正しいのであれば、\(Z\)で調整する必要はなく、以下の等式が成り立つ。

\[ P(Y=1|do(X=1)) = P(Y=1|X=1) \]

繰り返しになるが、\(X\)への介入とは、\(X\)に向かう辺をすべて取り除くことである。つまり、\(X\)に介入した際の因果効果\(P(Y = 1| do(X = 1))\)を求めるときに調整しなければいけないのは、\(X\)に向かって矢印が伸びている変数、つまり\(X\)である。

\(X\)の親を\(PA(X)\)とするとき、\(X\)\(Y\)に及ぼす因果効果は調整化公式を用いて以下のように与えられる。なお、ここで\(z\)\(PA\)に含まれる変数がとりうるすべての組み合わせである。

\[ P(Y =y|do(X=x)) = \sum_{z}P(Y=y|X=x,PA=z)P(PA=z) \]

この式の右辺は分母と分子に\(P(X=x,Z=z)\)をかけて割ることで、以下のように変形できる。 このとき、\(P(X=x|PA=z)\)傾向スコアと呼ばれる。



\[ P(Y =y|do(X=x)) = \sum_{z} \frac{P(X=x,Y=y,PA=z)}{P(X=x|PA=z)} \]

この式を用いれば、グラフとそこにある仮定を用いることで、観察データのみから因果効果を求めることができるのである。

4.3 バックドア基準

4.3.1 バックドア基準とは

以上から、\(X\)に介入した際の因果効果は、\(X\)の親さえ見つければ調整化公式によって機械的に求まると思うかもしれない。しかし、実際の分析においては、事態はそう単純ではないことが多い。なぜならば、グラフに変数の親が表示されていたとしても、測定が難しいためにすべてについて手に入らないことがしばしば生じうるからである。

それでは、どのような条件であれば観察データのみから(= 実験的介入を行わずに)因果効果を求めることができるだろうか。その判断基準として最も重要なもののひとつがバックドア基準と呼ばれるものである。バックドア基準を用いることで、因果モデルに含まれる任意の2変数\(X\)\(Y\)について因果効果を求めるために、モデルに含まれるどの変数の集合\(Z\)について条件付けすべきかを知ることができる

因果ダイアグラム\(G\)において、\(X\)から\(Y\)への有向道(第2.3節参照)があるとする。このとき、以下の条件を満たすノードの集合\(Z\)はバックドア基準を満たすという。

  1. 集合\(Z\)に含まれるいかなるノードも\(X\)の子孫ではない
  2. 因果ダイアグラムより\(X\)から出る矢印を除いたグラフにおいて、\(Z\)\(X\)\(Y\)をd分離する(第3.2節も参照)

\(Z\)がバックドア基準を満たすとき、\(X\)\(Y\)に及ぼす因果効果は\(PA(X)\)について調整した際と同様に、以下の式で得られる。つまり、\(X\)\(Y\)に及ぼす因果効果は\(Z\)で調整することで求められる。

\[ P(Y =y|do(X=x)) = \sum_{z}P(Y=y|X=x,Z=z)P(Z=z) \]

条件1は、以下の2点を含意する。

  • \(X\)\(Y\)の中間変数を条件付けして道をブロックしないようにする(第3.1.1節参照)
  • \(X\)\(Y\)の合流点を条件付けして、\(X\)\(Y\)の間に新しい道が開かないようにする(第3.1.3節、第3.2節参照)

なお、\(X\)から出る矢印を除いたグラフにおいて\(X\)\(Y\)の間に存在する道のうち、\(X\)\(Y\)がd分離されていない(= 他の変数でブロックされていない)道をバックドアパスという。例えば、図4.8の左(A)の因果ダイアグラムでは、\(X\)から出る矢印を除いたグラフにおいて\(X\)\(Y\)の間に存在する道(\(X \leftarrow Z_1 \rightarrow Z_2 \leftarrow Y\))は合流点\(Z_2\)を含むので、どの変数で条件づけなくてもすでにブロックされている(= バックドアパスではない)。一方で、右(B)の因果ダイアグラムでは、\(X\)から出る矢印を除いたグラフにおいて\(X\)\(Y\)の間に存在する道(\(X \leftarrow Z_1 \rightarrow Z_2 \rightarrow Y\))はこのままの状態ではブロックされていないので、バックドアパスである。この道は、\(Z_1\)または\(Z_2\)で条件づけることでブロックできる。

すなわち、条件2は変数の集合\(Z\)で条件づけることで\(X\)\(Y\)の間のバックドアパスがブロックできるとき、\(Z\)がバックドア基準を満たすことを表しているのである。

バックドアパスの例

図4.8: バックドアパスの例

4.3.2 具体例

言葉だけではわかりにくい部分もあるので、具体例を挙げて確認していこう。

4.3.2.1 例1

例えば図4.9において、\(X\)から\(Y\)への介入効果を推定したいとする。このとき、\(Y\)以外に\(X\)の子孫となる変数は存在しないので、条件1はすでに満たされている。一方で、\(X\)から出る矢印を除いたグラフにおいて、\(X\)\(Y\)の間の道は4つ存在する(\(X \leftarrow Z_1 \rightarrow Y\)\(Y \leftarrow Z_2 \rightarrow X\)\(X \leftarrow Z_1 \rightarrow Y\)\(X \leftarrow Z_2 \rightarrow Z_1 \rightarrow Y\)\(X \leftarrow Z_1 \leftarrow Z_2 \rightarrow Y\))。これらはいずれもブロックされていないので、バックドアパスである。

\(Z_1\)\(Z_2\)の2つを条件づけることでバックドアパスはすべてブロックできる(= \(X\)\(Y\)がd分離される)。よって、\(Z_1\)\(Z_2\)がバックドア基準を満たす変数の最小の集合であり、これらで調整すれば\(X\)から\(Y\)への因果効果を推定できる。なお、ここで最小の集合とは、その集合からどのひとつの変数を取り除いても基準を満たさなくなるようなものを指す。

なお、ここに\(Z_3\)を含めてもバックドア基準は満たされる7


dag13 <- tibble(name = c("X","Y","Z1","Z2","Z3"),
               x = c(1.5,1.5,2,1,0.75),
               y = c(0.5,0.25,0.75,0.75,0.5))

dagify(Y ~ Z1 + Z2 + Z3 + X,
       X ~ Z1 + Z2,
       Z1 ~ Z2,
       coords = dag13) -> dagified_backdoor1
バックドア基準の練習問題1

図4.9: バックドア基準の練習問題1


Rでは、dagittyパッケージのajustmentSets関数でバックドア基準を満たす変数の組を特定することができる。

adjustmentSets(dagified_backdoor1, 
               exposure = "X",
               outcome = "Y",
               ## 最小の組み合わせを求める場合は "minimal"
               type = "all")
## { Z1, Z2 }
## { Z1, Z2, Z3 }


4.3.2.2 例2

続いて、少し複雑だが図4.10において\(X \rightarrow Y\)の介入効果を推定することを考える。まず条件1より、\(X\)の子である\(Z_4\)は調整する変数に含めてはならない。続いて、\(X\)から出る矢印を除いたグラフにおいて、\(X\)\(Y\)の間の道は4つ存在する(\(X \leftarrow Z_2 \rightarrow Z_5 \leftarrow Z_3 \rightarrow Y\)\(X \leftarrow Z_1 \leftarrow Z_2 \rightarrow Z_5 \leftarrow Z_3 \rightarrow Y\)\(X \leftarrow Z_2 \rightarrow Z_1 \rightarrow Y\)\(X \leftarrow Z_2 \rightarrow Z_1 \rightarrow Y\)\(X \leftarrow Z_1 \rightarrow Y\))。このうち前者2つはすでにブロックされているので、バックドアパスとなっているのは後者2つのみである。

\(Z_1\)で条件づけさえすればこの2つはブロックされるので、バックドア基準を満たす変数の最小の集合は\(Z_1\)となる(\(Z_2\)\(Z_3\)を含めてもバックドア基準は満たされる)。一方、\(Z_5\)または\(Z_6\)で条件づける場合、\(X \leftarrow Z_2 \rightarrow Z_5 \leftarrow Z_3 \rightarrow Y\)の道が開いてしまう(= バックドアパスになってしまう)ので、これらに加えて\(Z_2\)\(Z_3\)も条件づける必要がある。


dag14 <- tibble(name = c("X","Y","Z1","Z2","Z3","Z4","Z5","Z6"),
               x = c(1.5,1.5,2,1,0.75,1.5,0.9,1.2),
               y = c(0.5,0.05,0.75,0.75,0.2,0.25,0.4,0.4))

dagify(Y ~ Z1 + Z3 + Z4,
       X ~ Z1 + Z2,
       Z5 ~ Z2 + Z3,
       Z4 ~ X,
       Z6 ~ Z5,
       Z1 ~ Z2,
       coords = dag14) -> dagified_backdoor2
バックドア基準の練習問題2

図4.10: バックドア基準の練習問題2


このことは、Rでも確かめられる。

adjustmentSets(dagified_backdoor2, 
               exposure = "X",
               outcome = "Y",
               ## 最小の組み合わせを求める場合は "minimal"
               type = "all")
## { Z1 }
## { Z1, Z2 }
## { Z1, Z3 }
## { Z1, Z2, Z3 }
## { Z1, Z2, Z5 }
## { Z1, Z3, Z5 }
## { Z1, Z2, Z3, Z5 }
## { Z1, Z2, Z6 }
## { Z1, Z3, Z6 }
## { Z1, Z2, Z3, Z6 }
## { Z1, Z2, Z5, Z6 }
## { Z1, Z3, Z5, Z6 }
## { Z1, Z2, Z3, Z5, Z6 }

4.3.2.3 例3

最後に、因果構造の一部しかわからない例として図4.11を見てみよう。ここでは、未観測の変数\(U\)が存在する。まず、\(Y\)以外に\(X\)の子孫となる変数は存在しないので、条件1はすでに満たされている。続いて、\(X\)から出る矢印を除いたグラフにおいて、\(X\)\(Y\)の間の道は2つ存在する(\(X \leftarrow Z_1 \leftarrow U \rightarrow Y\)\(X \leftarrow Z2 \leftarrow U \rightarrow Y\))。これらはいずれもバックドアパスになっている。

これらの道は\(Z_1\)\(Z_2\)で条件づけることでブロックされるので、バックドア基準を満たす変数の最小の集合は\(Z_1\)\(Z_2\)である。このように、バックドア基準が満たされるかを知るために必ずしも因果構造の全体を知る必要はなく、未観測の要因があっても因果効果を推定できる


dag15 <- tibble(name = c("X","Y","Z1","Z2","U"),
               x = c(1.5,1,1.15,1.3,0.75),
               y = c(0.6,0.6,0.7,0.8,0.8))

dagify(X ~ Z1 + Z2,
       Y ~ X + U,
       Z1 ~ U,
       Z2 ~ U,
       coords = dag15) -> dagified_backdoor3
バックドア基準の練習問題3

図4.11: バックドア基準の練習問題3


Rでもこのことは確かめられる。

latents(dagified_backdoor3) <- "U"

adjustmentSets(dagified_backdoor3, 
               exposure = "X",
               outcome = "Y",
               ## 最小の組み合わせを求める場合は "minimal"
               type = "canonical")
## { Z1, Z2 }

4.4 フロントドア基準

バックドア基準により、観察データのみから因果効果を推定する際にどの変数について調整すればよいかを判断できる。しかし、バックドア基準を満たさないグラフにおいても、因果効果を須知栄する方法はいくつか存在する。そのうちの一つが、フロントドア基準である。

フロントドア基準について説明するため、長年議論されてきた喫煙(\(X\))と肺がん(\(Y\))の因果関係について考える。1970年代において、喫煙と肺がんの間に相関がみられるのは、それら2つに同じ遺伝子(\(U\))が影響を与えているからだという主張が存在した(Pearl and Mackenzie 2018)。すなわち、先天的にタバコを吸いたくさせる遺伝子があり、その遺伝子が肺がんになる確率も高めているので、喫煙と肺がんの間に疑似的な相関が生じているという主張である(図4.12)8

このグラフにおいて遺伝子を観察することはできないので、\(U\)で調整することで\(X\)から\(Y\)へのバックドアパスをブロックすることはできない。よって、このモデルでは喫煙が肺がんに及ぼす因果効果を推定することができない。

喫煙と肺がんの関係

図4.12: 喫煙と肺がんの関係


しかし、ここでもう一つの測定値、患者内の灰内でのタールの蓄積量(\(Z\))が追加されたモデルを考える(図4.13)。このモデルはバックドア基準を満たさないが、バックドア基準を2度適用することで因果効果\(P(Y=y|do(X=x))\)を推定できるのである。

喫煙と肺がんの関係

図4.13: 喫煙と肺がんの関係


4.13において、\(X\)から\(Z\)へのバックドアパスは存在しない。なぜならば、\(X \leftarrow U \rightarrow Y \rightarrow Z\)はすでに合流点\(Y\)でブロックされているからである。よって、\(X\)から\(Z\)への因果効果\(P(Z = z|do(X=x))\)は以下のように書ける(第4.2.2節参照)。



\[ \begin{equation} P(Z = z|do(X=x)) = P(Z=z|X=x) \;\;(1) \end{equation} \]

次に、\(Z\)から\(Y\)へのバックドアパス\(Z \leftarrow X \leftarrow U \rightarrow Y\)\(X\)で条件づけることでブロックできる。よって、\(Z\)から\(Y\)への因果効果\(P(Y = y|do(Z=z))\)は以下のように書ける(調整化公式より)。



\[ P(Y=y|do(Z=z)) = \sum_{x}P(Y=y|Z=z,X=x)P(X=x) \;\; (2) \]

以上より、\(X\)から\(Y\)への因果効果(\(P(Y=y|do(X=x))\))は、\(Z\)の取りうる値\(z\)について総和をとることで以下のようになる。



\[ \begin{aligned} P(Y=y|do(X=x)) &= \sum_z P(Z = z|do(X=x))P(Y=y|do(Z=z)) \;\;(3) \end{aligned} \]

式(1)と(2)と(3)より、以下の式が導ける。なお、式(1)と式(2)の\(x\)は別物であるので(後者は単に足し合わせる際に使用したインデックスであるため)、後者は\(x'\)と表記している。この式をフロントドア公式という。



\[ P(Y=y|do(X=x)) = \sum_z \sum_{x'} P(Y=y|Z=z,X=x')P(X=x')P(Z=z|X=x) \]

ここまでの分析は、\(X\)から\(Y\)への道が複数あるときに一般化できる。変数の集合\(Z\)外貨の条件を満たすとき、\(Z\)\(X\)\(Y\)についてフロントドア基準を満たす。

  1. \(Z\)\(X\)から\(Y\)への有向道をすべてブロックする
  2. \(X\)から\(Z\)へのバックドアパスが存在しない
  3. \(Z\)から\(Y\)へのすべてのバックドアパスが\(X\)によりブロックされている

また、\(Z\)\(X\)\(Y\)についてフロントドア基準を満たし、\(P(X,Z)>0\)であるならば、\(X\)から\(Y\)への因果効果は以下の式で与えられる。

\[ P(Y=y|do(X=x)) = \sum_z \sum_{x'} P(Y=y|Z=z,X=x')P(X=x')P(Z=z|X=x) \]

4.4.1 練習問題

以下の因果ダイアグラム(4.14)を考える。

dag17 <- tibble(name = c("X","Y","Z","W","A","B","C","D"),
               x = c(0.25,0.75,0.5,0.5,0.25,0.25,0.75,0.75),
               y = c(0.1,0.1,0.35,0.1,0.35,0.6,0.6,0.35))

dagify(Z ~ B + C,
       X ~ A + Z,
       Y ~ Z + D + W,
       A ~ B,
       D ~ C,
       W ~ X,
       coords = dag17) -> dagified_prac34
練習問題の因果ダイアグラム

図4.14: 練習問題の因果ダイアグラム

  1. \(X\)から\(Y\)への因果効果を推定するために、バックドア基準を満たす最小の変数の集合をあげよ。

A. \(X\)から\(Y\)へのバックドアパスは\(X \leftarrow Z \rightarrow Y\)\(X \leftarrow A \leftarrow B \rightarrow Z \rightarrow Y\)\(X \leftarrow Z \leftarrow C \rightarrow D \rightarrow Y\)の3つであり、これらは\(Z\)で条件づけることでブロックできる。しかし、\(Z\)で条件づけると\(X \leftarrow A \leftarrow B \rightarrow Z \leftarrow C \rightarrow D \rightarrow Y\)が開いてしまう(\(Z\)が合流点なので)。この道をブロックするためには、\(A\)\(B\)\(C\)\(D\)のいずれかでブロックする必要がある。以上より、バックドア基準を満たす最小の変数の集合は$Z = {Z,A}, {Z,B}, {Z,C},{Z,D} $である。

これは、Rでも確かめられる。

adjustmentSets(dagified_prac34, 
               exposure = "X",
               outcome = "Y",
               type = "minimal")
## { D, Z }
## { C, Z }
## { B, Z }
## { A, Z }


  1. \(D\)\(W\)から\(Y\)への因果効果を推定するために、バックドア基準を満たす最小の変数の集合をあげよ。

A. \(D\)\(W\)からでる矢印を除いたグラフにおいて、バックドアパスは3つである(\(W \leftarrow X \leftarrow A \leftarrow B \rightarrow Z \rightarrow Y\)\(W \leftarrow X \rightarrow Z \rightarrow Y\)\(D \leftarrow C \rightarrow Z \rightarrow Y\))。これらはいずれも\(Z\)で条件づければブロックできる。また、\(X\)\(C\)について条件付けしてもこの道はブロックできる。

これは、Rでも確かめられる。

adjustmentSets(dagified_prac34, 
               exposure = c("D","W"),
               outcome = "Y",
               type = "minimal")
## { Z }
## { C, X }


  1. このグラフにおいて、\(X\)\(Y\)以外に観測可能な変数が1つのみだとする。このとき、\(X\)から\(Y\)への因果効果を推定するには、どの変数を計測すればよいか。

A. 問1より、\(X\)から\(Y\)へのバックドアパスをブロックするには少なくとも2つの変数が必要である。一方で、\(W\)\(X\)\(Y\)についてフロントドア基準を満たすので、\(W\)さえ観測できれば因果効果は推定できる。

References

Pearl J, Mackenzie D (2018) The book of why: The new scuence of cause and effect. Penguin
宮川雅巳 (2004) 統計的因果推論―回帰分析の新しい枠組み―. 朝倉書店

  1. 介入前と介入後のモデルにおける確立を区別するため、介入後のモデルの確立にはmを添え字として付す。↩︎

  2. 「調整」を行う方法にはいくつかのものがあるが、最もよく使われる方法は条件付けである(第2.6説も参照)。例えば、回帰分析において\(Z\)を説明変数に追加したり、\(Z\)の値ごとに分析を行うことで\(Z\)について条件付けしたことになる。↩︎

  3. \(Z_3\)を追加しても交絡などによるバイアスの補正という観点からは意味がないが、例えば回帰分析を行う際の推定精度は一般によくなる(宮川 2004)↩︎

  4. 意外なことに統計学の大家であるフィッシャーもこの主張の支持者であった。↩︎