第43回R勉強会@東京に参加してきた&発表してきた
以下メモ
前半セッション
導入セッション 1
導入セッションの資料upしましたー / 10分で分かるR言語入門 ver2.9 http://t.co/kPRjBBTSTO #TokyoR
— akiaki5516 (@doradora09) 2014, 9月 20
- CRAN Task Viewのトップページが日本語化されている
http://t.co/7ILdSjYuaW このページですね。CRAN Task Viewの日本語ページ #TokyoR
— Minoda Takashi (@aad34210) 2014, 9月 20
導入セッション2 前処理入門
- caret
- findLinearCombos()やpreProcess()は反応が良かった!
- nearZeroVar()はググると@yokkunsが昔使ってた
- findLinearCombos()がremoveに挙げる仕様については調べてみる
- tidyr
- @rossleedhamに聞いたところ「たいでぃーあーる」と読むらしい
- 大仏様も同じ意見だった
- @rossleedhamに聞いたところ「たいでぃーあーる」と読むらしい
- 大御所お二人からフィードバック頂けたので発表して良かった!
Rで学ぶ傾向スコア解析入門
- 傾向スコア解析の結果は理解してもらえる?
- だいたい理解してもらえない
- ちゃんとテキスト買って読み直す
後半セッション
Rネイティブのbayesian inferenceである、LaplacesDemonの紹介
今日のLaplacesDemonの資料アップします。よろしくおねがいします。#tokyor My latest upload : Tokyo r #43 on @slideshare http://t.co/qtPm41bNpx @SlideShareさんから
— siero (@siero5335) 2014, 9月 20
- みどりぼん で紹介されたLaplasesDemonの紹介
- JAGS,Stanと比較すると遅い
- 初期値をランダムに設定するGIV関数が容易されている
- Demon Suggestion
- 悪魔のささやき
- 収束したかを診断してくれる
- 収束していない場合、アドバイスをくれる
- 828,000サンプルで約9分
- Stanでは同サンプルで約6分
- Stanではサンプル数10,000でもRhat < 1.1になった
- そのときの処理時間は57秒
- Stanではサンプル数10,000でもRhat < 1.1になった
- Stanでは同サンプルで約6分
- LaplasesDemonを並列処理できる仕組みはあるが8コアで実行するとかえって遅くなったorz...
Getting Started with Shiny
- e-mail client percentageを見るアプリをShinyで作った
- メールの開封率、クリック率、CTRなどを確認できる
- Shinyは単一ページのWEBアプリしか作れないと思ってたけどShiny Builderなど使えばもっと色々できるっぽい
ykmeansパッケージ
- クラスタリングは主観が入る
- 単位が違うと正しい分類ができない
- 標準化する
- k-meansは初期値によってクラスタリング結果が変わることがある
- モデルベースのクラスタリングを使えば良いのでは?
- 混合分布モデルの仮定を満たしているか確認するのが面倒なので使っていない
- 最適なクラスタ数(k)はどうやって決めている?
- 多数決でも決まらない場合があるのでは?(ファジーな場合)
- 距離尺度を変えると良いかも
- ユークリッド距離で計算されているのでコサイン類似度などにすれば良いかも
- 距離尺度を変えると良いかも
LT
Reactive Programming with R
先ほどの発表資料です。 Reactive Programming with R http://t.co/SGJiybMssB #TokyoR
— kos59125 (@kos59125) 2014, 9月 20
- Reactive Programmingの説明が新しすぎるw
- shinySignalsパッケージが最近公開された
- %~>%
- 普通の関数をReactive Programming Worldにリフトさせる
32bit Windows で頑張るRandom Forest
- ntreeを増やすと精度向上が期待されるがメモリが足りなくなる
- 32bit Windowsではメモリ2GBの壁もある
- maxnodes
- 木の終端ノード数の上限を設定するパラメータ
- 本来は過学習を防ぐためのパラメータと思われる
- デフォルトではnull
- 適切に設定することでメモリ節約が可能
- rfmodel$forest$nodestatusで-1となっているのが終端ノード
- ntreeを小さめに設定して終端ノードをカウントしてmaxnodesに設定する
- ntreeが小さいとOOBエラーが高いがmaxnodesを設定してntreeを増やすとOOBエラーが低くなった
- ntreeを小さめに設定して終端ノードをカウントしてmaxnodesに設定する
pipeRの使い方
本日のLT資料3番目です「pipeRの使い方」 http://t.co/FKeB38st8B #tokyor
— hoxo_m (@hoxo_m) 2014, 9月 20
- 蓮君、字違うんだ・・・
- 翻訳の経緯、面白すぎるw
- 自分の無茶ぶりにも迅速に対応して頂いてありがとうございましたm( )m
Japan.R
- 今年のJapan.Rは12/6(土)
- 14:00 〜 19:00
- 場所はFreak Out
- 以下の方々がセッションに登壇される
- @TJO_datasci
- @AriLamstein
- @shsaix
- @yanaoki
- 分析言語セッションも開催される
- LTしたい人は以下のURLから応募
- japan.R LT
- スライドの下の方は見えにくくなるので発表する人は注意
- 参加人数は150~200人
- Ustの中継も予定
- 睡眠不足で挑んだけど普通に懇親会まで頑張れた
- 英語もっと頑張らないと。。。
- 次回は11/1(土)