第38回R勉強会@東京に参加してきた
以下メモ
前半セッション
導入セッション
- applyよりaggregateがオススメ
- Rのチートシートがある
- plyrとdplyrはggplot2とは別
パッケージの作り方
- パッケージは実は非常に簡単に作成できる
- ひな形を作ってビルドするだけ
- パッケージ公開するのが大変じゃない?
- 大変なのはCRANへの登録
- CRANへの公開はヘルプファイルや名前空間など色々めんどくさい
- Bioconductorはもっと厳しい
- CRAN以外(githubなど)に公開するのは簡単
- 大変なのはCRANへの登録
- パッケージ作っても使われないんじゃね?
- はい、使われません
- 最悪、@dichika氏が使ってくれる
- はい、使われません
後半セッション
100人のための統計解析 – 和食レストラン編
- 重回帰の前には可視化するべき
- はじめは散布図行列で確認する
- corrplot
- paris
- ggpairs
- 総利用金額を目的変数としているが来店回数、利用金額で統計モデリングするべき
- 夜間に来店する確率=1-θと仮定する
- 同一のθで来店回数、利用金額でモデリングする
- Rでは無理。Stan使う
- パラメータが収束しない場合、どうすれば良いか?
- サンプル・パラメータを減らしてシンプルなモデルからスタートする
- モデルの評価はどのように行っているか?
- RMSE
- 新しいデータで予測してどれだけ合っているか?
機械学習を用いた予測モデル構築・評価
- tuneGridにハイパーパラメータの集合を与えると最適なパラメータを選択してくれる
- trControlでクロスバリデーションの設定ができる
- rfeで属性選択ができる
- 不均衡データのクラス分類は以下を参照
状態空間モデルの考え方・使い方
- 状態遷移モデル = 時系列 + 線形モデル
- 状態遷移モデルはdlmパッケージで作成できる
R で学ぶ関数型プログラミング
- mapplyとReduceが使えれば関数型プログラミングできる
- F#とか使うのはどういうとき?
- 速度が求められるとき
- Rで関数型プログラミングするのは難しくないがRのReduceが遅い
LT
Shinyを自由に使ってみる
Shinyを自由に使ってみる from m tkn
- shinyにwebsocketを送ると色々できる
swirl パッケージでインタラクティブ学習
- 統計と英語、同時に勉強できて便利そう
某データ分析コンペサイトの話
- Rの次はExcelがよく使われているw
アンケート分析で、AICを自力でstepより改善してみた
Rで野球のデータ解析がしたい (データが欲しい)
- RでOpenGLスゴい!
今回もすごく参考になった!!次回は5/31、忘れずに参加したい。