第5回「データ解析のための統計モデリング入門」読書会に参加してきた

以下メモ

第5章glmの尤度比検定と検定の非対称性前編 by @tanimocchi http://t.co/aJtudG2gXj @SlideShareさんから #みどりぼん
— もっちぃ (@tanimocchi) 2014, 7月 8

参考資料
- http://www012.upp.so-net.ne.jp/doi/biostat/CT39/likelihood_ratio.pdf
- http://racco.mikeneko.jp/Kougi/2011a/AAN/2011aaan14.pdf
尤度関数と確率密度関数は動く変数が異なる
- 動きが似ていることもあるけど尤度関数と確率密度関数を同じと考えてはダメ
尤度比は尤度の比をとっているので確率ではなくなっている
- 0.1108が1割くらい起こりそうという解釈は間違っている
第一種の過誤
- 帰無仮説が正しいのに棄却してしまうこと
  - 尤度比検定での帰無仮説は"真のモデルは一定モデル"

本日の後半分資料、先立ってアップしてくださいました！ #みどりぼん RT @k66mk2: @yamakatu お疲れ様です。こちらに資料をアップ致しました。https://t.co/14nPryehRT よろしくお願い致します。
— やまかつ (@yamakatu) 2014, 7月 8

pixivの@k66mk2とは別の人（重要）
P値(第一種の過誤をおかす確率)の計算方法は2種類ある
- パラメトリックブートストラップ法
- カイ二乗分布を使った近似計算法
P値が有意垂準αより小さければ帰無仮説を棄却できる
カイ二乗分布を使った近似計算法を使用しても良いサンプル数の目安は？
- 一概には言えない
  - パラメータが増えるとサンプル数も増やす必要がある
  - ポアソン分布のような綺麗な分布でない場合もサンプル数を多くした方が良い
  - 怪しかったらPB法、カイ二乗分布を使った近似計算法両方すべき
PB法の繰り返し数が教科書では1000回になっているが1万回、10万回に増やしても意味はあるか？
- ある
  - 論文では1000回はまず見ない。1万回くらいはよく見る
  - 回数を増やすと精度は増すが効率は悪くなる
    - 繰り返し数の平方根しか改善しないので精度と処理時間のバランスで決める

INPUTしたらOUTPUT!