2016.11.5

DC で勤務をしながら因果推論について勉強をする。

個人的に、このひとの説明文は読みづらいので嫌いなのだが、他に良い解説も無いので一文一文を具に解釈しながら読み進める。興味のあったのは5章の「選択バイアスとその除去」だった。

選択バイアスがある、というのはよく自分も言うが、全体データからズレる、程度の意味合いで用いており、具体的に「何が」「どのように」「どれくらい」ズレるのか理解が無かった。また、選択バイアスを除去する手法として、傾向スコアの逆確立を損失関数に係数として組み込むものしか知らなかった。よってその他の手法が知りたかった。

5.1章「選択バイアスとは?」

選択バイアスについて具体的に「何が」「どのように」「どれくらい」ズレるか書いてあった。

例えば既婚女性の賃金について平均値が知りたいときに、働くことで得られる賃金が働かないことで消費されないお金(保育費とか)より大きい場合で無ければ既婚女性は働かない。また、働くことで得られる賃金は既婚女性の持つ仕事への能力に依って増えるため、言い換えればある一定以上の仕事能力が無ければ既婚女性は働かない。このような働くかどうかの決定プロセスを選択メカニズムと読んで、選択メカニズムを無視して解析した結果に対して選択バイアスがのってる、なんていう。

つまり、観測データはp(賃金|仕事能力>閾値)のように書かれてp(賃金)とは異なる、という主張である。とうぜん条件付き期待値とただの期待値も変わってくる。

どれくらい変わるかというのを具体的に数式に起こした研究を挙げて「賃金の期待値」が「仕事能力と賃金の相関係数に比例」して「相関係数の符号によって増えるか減る」という説明がなされていた。分散についても同様に説明されていた。

いま、賃金と仕事能力は正規分布を仮定しているが、他の確率分布においても選択バイアスが有る場合「何が」「どのように」「どれくらい」ズレるのか、は同様に説明がつくのだろう、と思った。

5.2章「プロビット選択モデル」

どうやって選択バイアスを補正するのか書いてある、がプロビット選択モデルは不安定性が指摘されていて現代ではあまり使われないと書いてあるので詳細を理解するのは辞めた。


と、このあたりまで読んで疲れてしまった。この本の論の展開の仕方がさっぱりわからん。サブセクションの分け方も謎だし、説明のためのストーリーが見えなくて読みにくい。