第11回 「データ解析のための統計モデリング入門」 読書会に参加してきた
主催の@yamakatu氏お疲れ様でした。未だにStanで試せていないけどとりあえずメモしとく。

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
- 購入: 16人 クリック: 163回
- この商品を含むブログ (21件) を見る
第11章 「空間構造のある階層ベイズモデル」
前半
http://t.co/qTnwnKzoYO 資料をあげました。 #みどりぼん
— gepuro vs 食欲 (@gepuro) 2014, 10月 26
- 空間相関がなくポアソン分布に従うと仮定してみる
- 平均 : 10.9
- 分散 : 27.4
- 過分散になっているため単純にポアソン分布に当てはめられない
- 空間相関があると考える
- 過分散になっているため単純にポアソン分布に当てはめられない
- 場所毎に平均が異なると考える
- ある区画は隣接している区画とだけ相互作用すると仮定する
- 場所差
全体の同時分布の式がよく分からなかった
- 伊庭先生の説明資料(amp;は無視して下さい。。。)
の条件付き確率に注目しているので
が入っていない部分は無視して良い
- 正規化すると消えてしまう
- 掛けるといいんじゃない?というのは間違っている
- 緑本の式はfull conditional
以外を固定した場合の条件付き確率なので掛けても戻らない
- 一番下の式は平均値を引くとも解釈できる
- 1階の式からfull conditionalを作ると2階になる
後半
- 確率場(random field)
- 空間相関のあるモデルは欠測に強くなる
- 本文中の「
に合わせようとするので、局所密度はギザギザになる」の表現がイマイチよく分からない
- ベイズモデルの場合、データに合わせようとする力が働くというだけであまり深い意味はない
- データがバラバラでも平均(縦)に合わせる・隣(横)に合わせるとデータからずれるが良くなる
- ベイズモデルの場合、データに合わせようとする力が働くというだけであまり深い意味はない
- データにぴったり当てるだけであればfull modelで良いがそれではダメなのでAICが出てきた
- AICでも不自由なので事前分布を使うようになってきた
- 前章では中心に引っ張ったり階層構造で全体の平均について引っ張る・だけど個性があればずれる
- 空間や曲線は前章にはなかった
LT
データ解析で割安賃貸物件を探せ!(山手線沿線編)
.@yamakatu 今日の資料少し直してアップしました。
http://t.co/jfFE3nu8r8
http://t.co/4Omwv65VTW
もし読書会のリンクで使うことがあればどうぞ。
— berobero (@berobero11) 2014, 10月 21
- データ解析で割安賃貸物件を探せ!(山手線沿線編)
- 駅から徒歩5分の距離
- 徒歩1分の距離が80mと不動産業界で決まっている
- 駅から徒歩5分の距離
- 空間相関
- 駅の影響
- 渋谷と原宿は近いから似ているはず
- 向きの影響
- 南向きと南東は似ているはず
- 駅の影響
- フリーレント
- あまり人が入らない場合大家さんが3ヶ月無料などとすることがある
- carモデルを使用するときは切片項をdflat()にする
- 説明変数を階層化した方が良いが今回はやっていない
- Google RefineやRubyなどで前処理をしている
- 空間相関を入れた場合と入れなかった場合の比較はした?
- 駅の比較はした
- 向きは空間相関がなかったので比較していない
- 多重共線性はどのように処理している?
- 全変数の組み合わせの相関を総当たりで確認している
- 相関が高くても0.8くらいで必要であれば残している
分布から見た線形モデル・GLM・GLMM
- 線形モデル、GLM、GLMMの違いが視覚的に理解できて非常に分かりやすい!
- RとStanのコードも記載されていてとても参考になる
- 線形モデル・GLM・GLMMでできるのはたかだが10モデル程度
- 時系列や空間相関、Zero-inflated Poisson、トピックモデル、勝敗などはStanの方がモデリングしやすい
ベイズ平滑化について知っておくべき3つのこと
- その1:横軸は「空間座標」だけではない
- 「時刻」:時系列
- 「何かの量」 : 非線形回帰
- 機械の入力
- 投薬の用量
- その2 : 2階差分のほうが使い勝手が良い
- みどりぼんでは1階差分
- システム雑音
- データに矛盾しない範囲で隣に近づけたい
- 2階差分
- データに矛盾しない範囲で直線に近づけたい
- WinBUGSのcar.normalは1階差分のみサポート
- 2次元空間以上はやや難
- みどりぼんでは1階差分
- その3 : モデルの表現3種
- full conditionalは出発点としてはやめた方が良い
- CARモデルなどでよく見られる
- 出発点としてはやめた方が良い
- 全部かけても元に戻らない
- 表現A
- 完全な同時分布で書くやり方
- 無向グラフと相性が良い
- 基本形
- 表現B
- 条件付き確率で書くやり方
- WinBugsなどのdag
- 有向グラフと相性が良い
- 1次元、時系列で便利
- 表現C
- 自分でギブスサンプラーを実装するなら必要
- 2階差分の場合
- A
- B
- C
- A
- full conditionalは出発点としてはやめた方が良い
最終回にふさわしく、勉強がまだまだ足りてないからもっと色々勉強しようねという気分になる大トリだった #みどりぼん
— siero_悪魔の囁き (@siero5335) 2014, 10月 21
- まさしく↑のtweetの通りで「俺たちの勉強はこれからだぜ!」みたいな終わりだった。。。もっと勉強せねば。
- 伊庭先生のLT、ほぼ分からなかった。。。
- 懇親会で伊庭先生より頂いたお言葉(酔っていたのでうろ覚え)
- 「フランス語を勉強したからといって新しいことができるようになるわけではない」
- 「精度が悪いからといって新しいことを試すのではなく、精度が悪い原因を調べてそれを解決できるアプローチを探すべき」
- 何かよく分かっていないけどベイズ統計とかBUGS/Stan使うとモデルの精度上がるのかも?といった自分の参加動機に対してご指導頂きました。ありがとうございました。
- CARモデルのStanコードがよく分かっていないので今年中には試す。
- 復習している間にこれまでのニコ生がYoutubeに公開されました
- まだ11章、自分で試せてていないけど備忘のためメモしとく
- 次の本は「続・わかりやすいパターン認識」に決まった模様
#みどりぼん の続きは続・わかりやすいパターン認識になりました。ハッシュタグは #ぞくパタ になります。
— siero_悪魔の囁き (@siero5335) 2014, 10月 31
- 最終回のニコ生コメントも載っけとく。問題があるようだったら削除します。