第53回R勉強会@東京で発表してきた
前回に続き発表枠が空いたので突貫でスライド作って発表させて頂きました。初心者放置で申し訳ございません。。。
以下はメモ。
初心者セッション
ゆるふわ文字データ分析入門
本日の初心者セッション資料です。https://t.co/N6SBoiBERf
— コタママ (@kotatyamtema) 2016年4月30日
#TokyoR
- 文字列の処理については@yamano357氏のTokyoR49_stringr_stringi // Speaker Deckも参考になる
- Windows版Rでマルチバイト文字含むUTF8のファイルをhtmlwidgetで処理しようとするとうまくいかないの自分だけ?
Rでウイスキー分析
- 突貫で作成したため説明が不足していました。申し訳ございません。。。
- 主成分分析も一応はやったので結果はまた別途アップします。
- 緯度・経度についても@uri_bo氏にご教示頂いたのでクラスタ毎に地図表示を試してみます。
@kashitan 元データだと地理座標系がイギリス圏で使用されるOrdnance Survey National Grid reference systemなるものらしいので、それを変換しました💪
— Uryu Shinya (@u_ribo) 2016年5月1日
- @dichika御大からもご助言頂きました!
@kashitan 昨日のウイスキーデータの緯度経度についてRevolutionsの過去記事があったのでご参考まで。 https://t.co/OAEXGonei2
— フニャリハット (@dichika) 2016年5月1日
応用セッション
実務でもきっと役立つ統計的因果推論
- スライドは非公開
岩波データサイエンスにサンプルプログラムと擬似データが公開される予定
今回扱う因果モデル
- ルービンの因果モデル
- R社のCMを見たら2週間後のアプリ使用時間 ・・・
- R社のCMを見なかったら2週間後のアプリ使用時間 ・・・
- 因果効果を定式化
- 因果効果は
- 集団で考えてみる
-
- ATE : 平均処置効果(average treatment effect)
- , は同時に観測できない
-
処置群 | 対照群 | |
---|---|---|
CMを見た場合の結果 | 処置群の観測値 | 欠測 |
CMを見なかった場合の結果 | 欠測 | 対照群の観測値 |
- 無作為割り当て(randomized controlled trial: RCT)ができる場合は限られている
CMの問題ではまず不可能
共変量と傾向スコア
- 母集団の一人ひとり変わってくる値
- 傾向スコア
- 処置群へ割り当てられる確率
- 傾向スコアを用いた解析手段
- ロジスティック回帰で傾向スコアを求める
- 目的変数は「処置ダミー(割り当て変数)」説明変数は共変量
- 傾向スコアを使った調整
- マッチング: 同じ傾向スコアの人を同じ人とみなしてを計算
- 層別解析 : 傾向スコアの大小で層を分けて分析
- 共分散分析
- IPW推定法
- ロジスティック回帰で傾向スコアを求める
IPW推定法
- Inverse Probability Weighing Estimator: IPWE
- 周辺期待値のATEが計算できる
CMを見た人の方が起動時間が短くなった
調整した結果
- 母集団全員に広告を見せた場合
- アプリ利用回数 +5回
- アプリ利用時間 + 1500秒
- 処置群
- アプリ利用回数 +2.3回
- アプリ利用時間 + 約400秒
- 母集団全員に広告を見せた場合
サンプルセレクションバイアスに対する対処法
- 共変量を求める
- ルービンの因果モデルを適用してはいけない危険な例
- 傾向スコアにロジスティックやプロビットを求めているが精度が高い手法を使うことはある?
- 基本的にはロジスティックやプロビットだが精度が高い手法
- モデルを使う使わないの判定は?
- 星野本参照
調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学)
- 作者: 星野崇宏
- 出版社/メーカー: 岩波書店
- 発売日: 2009/07/29
- メディア: 単行本
- 購入: 29人 クリック: 285回
- この商品を含むブログ (26件) を見る
欠測データの統計科学――医学と社会科学への応用 (調査観察データ解析の実際 第1巻)
- 作者: 星野崇宏,岡田謙介
- 出版社/メーカー: 岩波書店
- 発売日: 2016/04/20
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
ハドリーさん進捗どうですか
本日の発表資料です。 Hadley (@hadleywickham) Ecosystem 2016 #TokyoR #rstats #rstatsj https://t.co/u7WwLE95iP
— Uryu Shinya (@u_ribo) 2016年4月30日
- readr
- read_csv()のcol_types = cols(...)便利そう
- l : logical
- i : integer
- d : double
- c : character
- D : date
- T : time
- read_csv()のcol_types = cols(...)便利そう
dplyr
- glimpse()
- str()で確認してたけどglimpse()でも良さそう
- glimpse()
HadleyはSJISに冷たい?
- 「Why are you usin SJIS」
- Hadleyは優しい
- 後ほど対応された
- geom_は何の略?
- geometryの略
- ggplot2再入門がオススメ
実験計画のベイズ分析
- ベイズの定理が発見されたのは暴れん坊将軍の時代(1763年)
- フィッシャがー「研究者のための統計的方法」を発表したのは1925年
- ベイズの方が歴史が長い
- 統計学の授業から仮説検定を外したら怒られたw
豊田先生のラッパー関数群は5/20頃に朝倉書店からダウンロード可能になる見込み
豊田先生著の基礎からのベイズ統計学入門 輪読会 #4 - connpassで6章を担当させて頂いた際に自分も仮説検定は分かりづらい、ベイズ推定は分かりやすい!と発表しました。
- 統計学 アメリカの学会 p-value p値について見直し勧告 - NAVER まとめにもあるようにp値偏重の傾向は変わっていきそう。
- 「統計学が最強の学問である」を読んで仮説検定すげぇってなって統計を勉強するようになった自分としては仮説検定がなくなるのは寂しくもあるな。。。
- 基礎からのベイズ統計学入門 輪読会 #5 最終回 - connpass、次回(最終回)は5/16(月)です!
- まだ枠が空いているので豊田先生の話を聞いて興味を持たれた方はぜひ参加を検討ください
LT
mxnetで回帰
本日の資料です: Mxnetで回帰 #TokyoR 53th by @siero5335 #deeplearning #mxnet https://t.co/axFTlEmizq @SlideShareさんから
— ホクソシエロ_wet前処理強化月間完走 (@siero5335) 2016年4月30日
- 回帰で使用するには隠れ層のユニット数を1にする必要がある
それを捨てるなんてとんでもない
タグミスしてたっぽいので本日のLT資料を再送します。「random forestを使ったnonparametric imputation」 https://t.co/CVBRU7pNqw #TokyoR
— kato.kohaku.0 (@kato_kohaku) 2016年4月30日
- 穴あけしたデータをmissForestでimputeした結果、穴あけ前のデータとどれくらいマッチしたのかが気になる
dplyrとは何だったのか
今日のLTの資料(怒られないバージョン)です。dplyrについてのポエムを話します。 https://t.co/vySjMhZk6k #TokyoR
— Hiroaki Yutani (@yutannihilation) 2016年4月30日
- 全てをdplyrで処理しようとしない
R Markdownのちょいネタ集
#tokyor 今日私がするLT「R Markdownのちょいネタ集」のスライドや追加コメントをまとめたサイトを公開しました→ https://t.co/xk5tpP3voO githubリポジトリへのリンクはこちらです→ https://t.co/VJTLmIUWJ6
— kazutan v3.2.5 (@kazutan) 2016年4月30日
- タブ機能が実装された
- フローティングTOC便利そう
- RmdでWebサイト作る
- RStudioのプレビュー版ではプロジェクトのタイプにwebサイトが作れるようになる
- rChartsやgoogleVisで作ったインタラクティブグラフを欲しいと言われることが多いのでRmdでwebページにできるのは嬉しい
- ダッシュボード作れる
- 自分もGitHub - rstudio/RStartHere: A guide to some of the most useful R Packages that we know aboutでflexdashboardを見つけて気になってた
- 簡単にダッシュボードを作れて良さそう
Rでやってみた金融テキストマイニング
- 適時開示情報のタイトルで重回帰分析
- 株価への影響度が大きい単語を統計的に計算
RでLINE BOTを作ろう
本日の #TokyoR LT 資料です。
— kos59125 (@kos59125) 2016年4月30日
R で LINEBOT を作ろう https://t.co/g6ZzcMoadn
本日の発表に関して補足付きでブログ書きました。 https://t.co/ij7bxH59cA #TokyoR
— kos59125 (@kos59125) 2016年4月30日
- from 御社 left join 弊社
- x : お仕事を某社に依頼
- ○ : 会社を辞めて某社にjoin
解約リストと分析と現場
- 解約阻止あるある
- 解約理由も知りたいからロジスティック回帰など説明しやすい手法で分析
- 当たり前の理由しか出てこない
- 解約確率が高いユーザーは水際すぎて既に手遅れ
- 解約理由も知りたいからロジスティック回帰など説明しやすい手法で分析
- 「この方法では上手くいかないことが分かりました」を受け入れられる文化は貴重だと思う
また春に会いましょう ベイズ推定で不合格者を求めたい
今日(Tokyo.R#53)のLTのスライドをスライドシェアに上げました。潜在ランクモデルをベイズ推定してみました。 https://t.co/ckyEeGbgLc #tokyor
— Hiroshi Shimizu (@simizu706) 2016年4月30日
- 潜在ランク分析モデル
- GW中に勉強会とかまじ死ねと思ってた自分が死ね
- 連休中のせいか各地の著名人の発表が聞けて非常に有意義な会でした。ありがとうございました。
- 会場、懇親会費用を提供して頂いたVOYAGEグループ様ありがとうございました。
- あれ?そういえば次回は?