読者です 読者をやめる 読者になる 読者になる

INPUTしたらOUTPUT!

忘れっぽいんでメモっとく

第4回 「データ解析のための統計モデリング入門」 読書会に参加してきた

以下メモ


オープニングトーク

  • 9/16
    • 当日アジェンダ
      • 久保先生トーク
      • みんなからの質疑
      • (懇親会)
    • 募集中


第4章「GLMのモデル選択」


  • フルモデル(full model)
    • データ1つ1つに対してパラメータを1つ1つ割り当てたモデル
  • null model
    • 切片だけのモデル
  • 最大対数尤度
    • あてはまりの良さ
    • logL*
  • 逸脱度
    • あてはまりの悪さ
    • D = -2 logL*
  • 残差逸脱度
    • フルモデルから見た相対的な逸脱度
  • 最大対数尤度でモデルを選択するとフルモデルになってしまう。
    • 他の選択基準が必要
  • AICは予測の良さを重視するモデル選択基準
    • あてはまりの良さではない
  • バイアス = 最大対数尤度 - 平均対数尤度
    • バイアスの標本平均はパラメータ数と同じくらいになる


  • AICにどれくらい差があると選びがいがある?
    • パラメータ数 x 2くらい?
  • 最大対数尤度があてはまりの良さを表すことは納得できるが平均対数尤度の大きさが予測の良さを表すことに納得がいかない
    • 次回持ち越し?
    • そもそも真のモデルを知っていないと平均対数尤度は計算できない


  1. 観測データからモデルを作る
  2. 真のモデルから200個のデータセットを作る
  3. 1で作ったモデルを2で作った200個のデータセットに当てはめ対数尤度を求め、平均をとる
    • 1で作ったモデルが2で作った200個のデータセットに対してもあてはまりが良い(=平均対数尤度が大きい)のであれば「予測の良さ」が大きいモデルと言える気がする



今回も非常に勉強になった! 読み流していた箇所が実は重要で理解できなかった部分も納得できた。
また他の方の質問を通じて自分自身考えるきっかけにもなるので参考になる。
次回は尤度比検定。そろそろ未経験の領域なのでしっかり勉強しないと。