因果・相関系初歩+α:メモ おもに林先生のブログの感想メモ的なエントリ

(注:コメントを書いている人間は初学者ではギリギリない程度の統計素人です)

4つのよくある間違い

  • Take a Risk: 林岳彦の研究メモ:■[統計][リスク]因果関係がないのに相関関係があらわれる4つのケースをまとめてみたよ(質問テンプレート付き)

とても丁寧でいい記事だった。より短くまとめると、こんな感じが。すべて初学者向けではあるものの、交絡関係の削除の仕方だけ、ちょっと難度が高いように思う。Rで「^2」でエイヤッとかってやっちゃってるけれども、なかなか私なんかには難しい。

  • 1:偶然によるもの【→対処方法】ランダムサンプリングでサンプル数を増やべし
  • 2:因果の流れが逆【→対処方法】対象分野の知識を増やす。もっと観察する。
  • 3:因果の上流に共通の要因【→対処方法】交互関係を削除。統制群をきちんとやる。独立性のない変数をむやみにぶちこみ過ぎない。傾向スコア法、^2とか…
  • 4:因果の合流点において選抜/層別/調整されてしまっている(選択バイアス)【→対処方法】サンプリング方法自体を見直して、想定する母集団に近いものを作る

 1(偶然),4(選択バイアス)は、サンプリングの問題で、1は、まあ多くの人が知っている。「4」については、統計をほんとに少ししか勉強したことのない人が理解していないことが多く、よくいらっとすることがある。「なんでサンプル数を増やさないの?」「サンプル数増やせよ」あるいは、「サンプル数が多いから問題ない」みたいな、言い方をしてくる人がけっこう多くて萎える。サンプル数を増やすだけでは解決しないサンプリングの問題がある、だなんて話は実際に調査設計を数回やったことのある人だったら、嫌でも感覚的に理解できる話だと思うのだが、「サンプル数の数」だけを元に、ツッコミを偉そうにしてくる人はまあ実践的には触れていないのだろうな、と。まあ、どんな分野でもそうだけれども、実践をやったことのない人がやりがちな偉そうなdisだと思う。そして、何よりも、実際には理想的なランダムサンプリングが不可能な場合は多い(…というか、社会調査の場合などはランダムサンプリングをできただけで万々歳だと思う。個人情報保護法が手厳しくなってきたため、社会調査で、選択バイアスを下げた調査をやるのはどんどんと厳しくなってきた。)
 2(因果が逆),3(交絡因子)は、いずれも対象分野の知識が多ければ精度はあがりますよね、という話にかかっている。2:因果が逆というのは詳しく観察したりすることで実際にどうにかなることが多いと思うが、3:交絡因子の問題は悩ましい。変数の独立性がきっちりとわかっていたら、まあ、元から重回帰分析にかけたりしないわけで、とりあえず変数をぶっこんでしまいたくなる罠というのはある。独立した変数だけをうまく抽出してくるというのは、実際にはかなり難しい場合が多いと思っていた。というか、難しい。

交絡因子について対応策を練るのは難しい

 ただ、くだんの記事がインフォーマティヴだったのは、交絡因子についてもいろいろと対処法は開発されているのですよ、という話。へぇ、そうなのか、と思ってちょっとググってみたものを、ざっとリストすると、こんな感じか。

  • 交絡因子排除の方法1:ケースコントロール研究(case-control studies)
  • 交絡因子排除の方法2:コホート研究(cohort studies)
  • 交絡因子排除の方法3:層化(stratification)

 ケースコントロールという名前がついているのは「1」だけだが、いずれも、群のコントロールに関する話で、まあ「実験・調査計画の段階できっちりしようぜ?な?」という、研究を学んだ人であれば、いつも言われる例のアレの一種だった.
*1

プラシーボ効果を排除するための二重盲検法なんかもここに入るのだろうか。要するに群のコントロールというか、データをとれた後に操作するのではなく、そもそものデータサンプリングの段階でがんばりゃにゃどうしようもないという

 ということで、交絡因子の排除の話は、背景知識(と実験・調査計画能力)を土台にしてサンプリングをするということで、背景知識とサンプリングの知識の双方がわかっていないとダメな例ではある。

問題は、っつーか、ちょっとあとでじっくり読み直したいのはこち

http://d.hatena.ne.jp/takehiko-i-hayashi/20120625/1340611310

 これはあとでじっくり読もう。(読んだ後に更新します。)

勉強になったところ

勉強になったところというか、パワポみながらのメモ。
下記は、林先生のパワポの表記をところどころもってきているので、林先生ごめんなさい。

  • 統計的因果推論の系譜は、Judea Pearlのベイジアンネットワーク系の話と、Donald Rubinの欠損値の枠組みをめぐる話とで、二系統があるらしい。
  • Judea Pearlの話はベイジアンなので、事前確率と事後確率の…そう、何度見てもピンとこない
    • p(y|x=30)みたいな表記。
    • ちなみにベイジアンでよく見るこの表記の意味はWikipediaさんから一部コピペして復習すると、
      • P(B) = 事象Aが起きる前の、事象Bの確率(事前確率, prior probability)
      • P(B|A) = 事象Aが起きた後での、事象Bの確率(事後確率,条件付き確率, posterior probability,conditional probability)
  • という意味。要するにp(y|x=30) を日常用語でいうと、「事象xが30であった場合の、事象yの確率」ということになる。
    • で、Judea Pearlは、このベイズのよくある表記をさらに改変!
    • p(y|x=30)という表記を、p(y|do(x=30))としてみた。
    • これは、「xが30であるとき」から、「xを30に変えたとき」という意味らしい。
    • 何が違うのかというと、交絡要因を明確化するものなんだという。
    • (※ようするに、交絡要因が別途にあるという場合には、xが30として変化させた場合には単なる擬似相関だから、yの確率には影響しない。因果の場合は、xを30に変化させた場合にはyが変化することになる、みたいな話か?)
    • p(y|x=30)≠p(y|do(x=30)) という表記で、「相関と因果が一致しない」
    • p(y|x=30)=p(y|do(x=30)) という表記で「見かけ上の相関から因果効果を判断してOK」 
    • (※なんか、記号論理学者とか、分析哲学系の表記みてるときのような気分だなぁ。まあ、これは、なんか単なる表記上の問題)
  • で、問題は交絡因子の取り除き方なわけだが、4つのケースが紹介されている。
    • 1.実験計画法に基づき実験する→要するによくある、統制群とかちゃんと考えろやという話
    • 2.均一化・無作為化を念頭にサンプルする
    • 3.層別化・マッチング(交絡変数の値が似たもの同士で比較):予め変数を予測出来ればね…という話である。
    • 4.統計モデルに交絡変数を組み込む 例:重回帰で説明変数を追加する…→で、ここでバックドア基準の話になる。
  • で、重回帰の説明。
  • スライド33枚めが良い感じ。重回帰式は単純に、説明変数A,B,Cが等しく、目的変数Yに効いているよね、というごく素朴なモデルの立て方になっている。…が、交絡要因があるケースや、説明変数自体が、別のものの目的変数であるようなモデルの立て方とかそういうものが、ぜんぶ一括して説明変数にしてしまう、という方法になっている。本当は、偏回帰係数の"意味"は、背後の因果構造に依存しますよね、となるほど。
  • バックドア基準とはずばり「偏回帰係数=説明変数を1単位変化させた時の因果効果」となる条件はp(y|A=・)=p(y|do(A=・)) である、と。このような場合に、選ばれた変数群がバックドア基準を満たしていると言えるだろうと。
  • 39枚目。下流側の中間変量を選ばない、合流点での変量を選ばないことが重要である、と。まあ、あたりまえではある。これは、対象ドメインの背景知識を知ってるかどうかだな。
  • 40枚目。合流点も入れてはいけない、と。これには合流点バイアス colider biasという言葉があるらしい。
  • 41枚目、多重共線性の話。(変数の出し入れにより、回帰係数が大きく変化する):2系統ある。第一の系統は数理統計的なもの。VIFによる診断と変数の除去というのがあるけれども、こっちのやり方はあまり良くないのではないか、というのが林先生の意見。で、第二の系統は、交絡によるバイアスで、これをバックドア基準による変数選択でなんとかしましょう、と。
  • 43枚目、「未知の交絡要因」を減らしていくこと自体が研究の進歩である、というこれはいい話。ただ、複雑系の話とかになっちゃうと、変数間の循環性が存在していることこそが、現象を成り立たせている、みたいな話になるから、世界観がまたちょっと変わってくるような気はする。ただ、まあ循環性自体が現象を構築していないタイプの現象も世の中にはたくさんあり、そういうタイプの現象は、一般的な因果推論の議論の範囲内なので、まあ、そこらへんはこういう議論でいいんだろうな、とは思う。
  • 44枚目:「因果ダイアグラムが描けないとバックドア基準は使えない」という話はいい話。、その通りだと思う。傾向スコア法はどが因果構造がわからないなりの工夫というのはわかる。赤字部分の「統計解析からの因果的判断を適切に自重することも重要」というのは全くその通りだとは思う。ただし、そうは言っても、データを提示したあとに、「これは因果関係ではなくて、ただの相関の可能性も強い」みたいな説明をしても、結局は世間一般のひとの科学リテラシーの問題に還元されてしまうところもあるので、なかなか難しい。もちろん、過剰に強く言い切ってしまうタイプの科学者もとても多くて困ったものだけれども、世間一般の科学リテラシーを高校とかで底上げできないものだろうか、とは思う。
  • 45枚めのまとめ図。いいかんじ。AIC系、ベイズファクター系、バックドア基準と、3つ。バックドア基準がまずは正攻法だろうというのは、まさにその通りだろうとは思う。そりゃそーだ、というか、バックドア基準のはなしは思ったよりもあたりまえの話ではあるというか、あたりまえの話だから重要なわけだけれども。
  • 47枚目の「統計的因果推論はしばしば不可能であることを認識し、しかしその不可能性の内実にはグラデーションがあることを認識しよう」というのは、とても良い言い方。すばらしい。不可知論と、実用上の「まあ、しょうがないよね」の間にこそ可能性の中心があるんじゃないか、というのはまったくその通りだと思う。どちらかの極端な話ではなく、よりベターな議論をすることはできるわけで、これはいい話。

あと、「グレンジャーの因果性テスト」って、Judea Pearlの話に近いような気がするのだが、違うんだろうか。あとでググろう。