第59回R勉強会@東京に参加してきた
前回は補欠で参加できなかったけど今回は参加できたのでメモしとく。
初心者セッション
10分で分かるR言語入門
@yutannihilation あ、データセットですがグルーポンじゃなくてポンパレでした..すみませんー。 https://t.co/FfJLD2p22i
— akiaki5516 (@doradora09) 2017年3月19日
Coupon Purchase Prediction | Kaggle
データ・マエショリスト入門 データの読み込みから{dplyr}の基本まで
本日の初心者セッションのスライドをアップしました。https://t.co/QQlFEKKVoA
— Yuya MATSUMURA (@y__mattu) 2017年3月18日
- data.table::freed()はencoding周りでハマるらしいのでreadrパッケージがオススメとのこと
脱!初心者セッション
- テキストファイルはRに読み込む前にencodingを確認しましょう
応用セッション
目指せ地理空間データマスター
- 地理空間情報を取り扱う座標系には次の2つがある
- 地理座標系
- 緯度、経度
- 投影座標系
- 地球は立体なので2次元で表現すると歪みが生じる
- 局所的な分析では投影座標系の方が歪みが小さい
- 地理座標系
- sfパッケージ
- jpndistrictパッケージ
- 国土数値情報の行政区域を取得するパッケージ
- crosstalkパッケージ
- shinyでインタラクティブなフィルタリングが可能
- 解釈間違っているかも。後で試す
- shinyでインタラクティブなフィルタリングが可能
ウェブAPIのためのRパッケージ作成の勘所
- 作者: 石田基広,市川太祐,瓜生真也,湯谷啓明
- 出版社/メーカー: シーアンドアール研究所
- 発売日: 2017/03/27
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (2件) を見る
- APIを利用するパッケージを開発する際は以下が参考になる
- レスポンスデータをそのままバイナリとして保存しておくとあとあと便利
- saveRDS
- レスポンスをheaderなど含めて丸ごと保存
- dput
- Rのバイナリ形式?
- http::content()
- レスポンスbodyのみ
- saveRDS
- JSONなどネストしたデータをtidyなデータに変換する必要がある
- ステータスコード200なのにレスポンスを見ると認証エラーとなっている場合があるので中身は必ず確認しましょう
- 認証エラーは401を返して欲しいな。。。
- httpbin
- OAuthは{httr}のdemoが参考になる
- API Keyやsecretはコンソールから入力しない
Rによるスパースモデリング
- 作者: 岩波データサイエンス刊行委員会
- 出版社/メーカー: 岩波書店
- 発売日: 2017/02/16
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (3件) を見る
購買データなどmatrixの値がほとんど0(疎行列)なデータのモデリングの話かと思いきやL1正則化(lasso)もスパースモデリングと呼ぶとのこと。 以前、@teramonagi氏が発表されていた5分でわかるかもしれないglmnetでは罰則化を付けるイメージが強かったけど変数の自動選択などにも使えるとのこと。
LT
tidyquantとExploratoryで始める0からのファイナンス計量分析
TokyoRで発表しました!資料はこちら
— Yosuke Yasuda (@yasu_919) 2017年3月18日
「tidyquantとExploratoryで始める0からのファイナンス計量分析」#TokyoRhttps://t.co/lUjDOgYjCh
- tidyquant:: tq_get()
- Quandl Financial and Economic Dataから株価などを取得
- @yokkuns謹製の{RFinanceYJ}いらなくなるかも
- tidyquant::tq_mutate()
mlrパッケージによる機械学習実践入門
mlrパッケージ
- Machine Learning in R
- モデル構築、予測、精度評価などの機能を統一的なインタフェースとして提供しているパッケージ
- caretやscikit-learnみたいなもの
詳しくは以下の書籍11章参照。
データサイエンティスト養成読本 登竜門編 (Software Design plus)
- 作者: 高橋淳一,野村嗣,西村隆宏,水上ひろき,林田賢二,森清貴,越水直人,露崎博之,早川敦士,牧允皓,黒柳敬一
- 出版社/メーカー: 技術評論社
- 発売日: 2017/03/25
- メディア: 大型本
- この商品を含むブログを見る
- @sfchaos氏も軽く紹介されていたので参考までに。
メタアナリシスで階層ベイズ
昨日のLTスライド公開しました! https://t.co/qwfhEaWp7Q #TokyoR
— fuuuumin (@fuuuumin314) 2017年3月18日
- 作者: 岩波データサイエンス刊行委員会
- 出版社/メーカー: 岩波書店
- 発売日: 2017/02/16
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (3件) を見る
スパースモデリングだけでなくメタアナリシスも参考になるとのこと。 stan、復習しないと。。。
KPIと分析と現場
- セオリー1
- ボリュームゾーンから攻める
- 部署で予算を持っている中で、一番売れている製品を狙う
- 数が多いチャネルを狙う
- ボリュームゾーンから攻める
- セオリー2
- 対象を絞ってからKPIを決める
- セオリー3
- 購入率が高い人はどのような人なのか?
- 毎日、試用版にアクセスしている人ほど買う
- 旧製品を使っていた人も買う
- 購入率が高い人はどのような人なのか?
- セオリー4
- 1習慣以内の再ログイン率をあげる
アクションに繋がらないデータ分析は意味がない。
データ分析で解決したい課題を明確にし、目標を立てて、分析し、アクションにつなげる
当たり前なんだけど出来ていない。。。見習わないといけないな。
fukuoka.R#07のお知らせと福岡在住2ヶ月のdoradora…
- 福岡は駅前のスタバに入れる
パッケージを作った(仮)
5分でできる範囲で確率分布入門のための確率入門
- stanなどによる統計モデリングを理解するには確率分布を実感する必要がある
- 作者: A. N.コルモゴロフ,坂本實
- 出版社/メーカー: 筑摩書房
- 発売日: 2010/07/07
- メディア: 文庫
- 購入: 6人 クリック: 40回
- この商品を含むブログ (13件) を見る
対応分析入門
昨日の勉強会で飛び入りLTさせていただきました。対応分析の話で、リッカート尺度のことに触れました。あの本のサポートページ https://t.co/x8JRllBrpT の関連読書案内の西里文献をご覧ください。 #TokyoR
— 藤本一男 (@419kfj) 2017年3月19日
対応分析入門 原理から応用まで 解説◆Rで検算しながら理解する
- 作者: Sten-Erik Clausen,藤本一男
- 出版社/メーカー: オーム社
- 発売日: 2015/12/01
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (1件) を見る
Applied Correspondence Analysis (Quantitative Applications in the Social Sciences)
- 作者: Clausen
- 出版社/メーカー: Sage Publications, Inc
- 発売日: 1998/08/01
- メディア: ペーパーバック
- 購入: 8人 クリック: 57回
- この商品を含むブログ (5件) を見る
以下参考。
質問紙(リッカート尺度)のデータってふつうに分析して大丈夫なのか - StatsBeginner: 初学者の統計学習ノート
KHcoderで対応分析することがあるのだけれどブラックボックス状態なので上記書籍で勉強したい
factorと和解せよ
- {forcats}でfactorが簡単に扱えるとのこと。
- 以下が参考になるとのと。