第43回R勉強会@東京に参加してきた&発表してきた

以下メモ

前半セッション

導入セッション 1

導入セッションの資料upしましたー / 10分で分かるR言語入門 ver2.9 http://t.co/kPRjBBTSTO #TokyoR
— akiaki5516 (@doradora09) 2014, 9月 20

CRAN Task Viewのトップページが日本語化されている
http://t.co/7ILdSjYuaW このページですね。CRAN Task Viewの日本語ページ #TokyoR
— Minoda Takashi (@aad34210) 2014, 9月 20

導入セッション2 前処理入門

20140920 tokyo r43 from Takashi Kitano

caret
- findLinearCombos()やpreProcess()は反応が良かった!
- nearZeroVar()はググると@yokkunsが昔使ってた
  - YjdnJlpとcaretを使ってテキスト分類 - その1 - yokkunsの日記
- findLinearCombos()がremoveに挙げる仕様については調べてみる
tidyr
- @rossleedhamに聞いたところ「たいでぃーあーる」と読むらしい
  - 大仏様も同じ意見だった
大御所お二人からフィードバック頂けたので発表して良かった！

Rで学ぶ傾向スコア解析入門

傾向スコア解析の結果は理解してもらえる？
- だいたい理解してもらえない
ちゃんとテキスト買って読み直す

後半セッション

Rネイティブのbayesian inferenceである、LaplacesDemonの紹介

今日のLaplacesDemonの資料アップします。よろしくおねがいします。#tokyor My latest upload : Tokyo r #43 on @slideshare http://t.co/qtPm41bNpx @SlideShareさんから
— siero (@siero5335) 2014, 9月 20

みどりぼんで紹介されたLaplasesDemonの紹介
JAGS,Stanと比較すると遅い
初期値をランダムに設定するGIV関数が容易されている
Demon Suggestion
- 悪魔のささやき
- 収束したかを診断してくれる
- 収束していない場合、アドバイスをくれる
828,000サンプルで約9分
- Stanでは同サンプルで約6分
  - Stanではサンプル数10,000でもRhat < 1.1になった
    - そのときの処理時間は57秒
LaplasesDemonを並列処理できる仕組みはあるが8コアで実行するとかえって遅くなったorz...

Getting Started with Shiny

e-mail client percentageを見るアプリをShinyで作った
- メールの開封率、クリック率、CTRなどを確認できる
Shinyは単一ページのWEBアプリしか作れないと思ってたけどShiny Builderなど使えばもっと色々できるっぽい

ykmeansパッケージ

クラスタリングは主観が入る
- 大きさに注目したクラスタリング
  - WEBページのアクセス回数など
- 形に注目したクラスタリング
  - 各ページのアクセス比率など
単位が違うと正しい分類ができない
- 標準化する
k-meansは初期値によってクラスタリング結果が変わることがある
- k-meansを複数回実行して所属するクラスタを多数決で決定するようにする
  - k-meansのクラスタ番号はランダムなので注意する必要がある
モデルベースのクラスタリングを使えば良いのでは？
- 混合分布モデルの仮定を満たしているか確認するのが面倒なので使っていない
最適なクラスタ数(k)はどうやって決めている？
- 各クラスタ内のターゲット変数の分散が最小になるように決めている
- クラスタ間の分散は考慮していない
多数決でも決まらない場合があるのでは？（ファジーな場合）
- 距離尺度を変えると良いかも
  - ユークリッド距離で計算されているのでコサイン類似度などにすれば良いかも

LT

Reactive Programming with R

先ほどの発表資料です。 Reactive Programming with R http://t.co/SGJiybMssB #TokyoR
— kos59125 (@kos59125) 2014, 9月 20

Reactive Programmingの説明が新しすぎるw
shinySignalsパッケージが最近公開された
%~>%
- 普通の関数をReactive Programming Worldにリフトさせる

32bit Windows で頑張るRandom Forest

ntreeを増やすと精度向上が期待されるがメモリが足りなくなる
- 32bit Windowsではメモリ2GBの壁もある
maxnodes
- 木の終端ノード数の上限を設定するパラメータ
- 本来は過学習を防ぐためのパラメータと思われる
- デフォルトではnull
- 適切に設定することでメモリ節約が可能
rfmodel$forest$nodestatusで-1となっているのが終端ノード
- ntreeを小さめに設定して終端ノードをカウントしてmaxnodesに設定する
  - ntreeが小さいとOOBエラーが高いがmaxnodesを設定してntreeを増やすとOOBエラーが低くなった

pipeRの使い方

本日のLT資料3番目です「pipeRの使い方」 http://t.co/FKeB38st8B #tokyor
— hoxo_m (@hoxo_m) 2014, 9月 20

蓮君、字違うんだ・・・
翻訳の経緯、面白すぎるw
自分の無茶ぶりにも迅速に対応して頂いてありがとうございましたm( )m

Japan.R

今年のJapan.Rは12/6(土)
- 14:00 〜 19:00
- 場所はFreak Out
以下の方々がセッションに登壇される
- @TJO_datasci
- @AriLamstein
- @shsaix
- @yanaoki
分析言語セッションも開催される
- R ・・・ @yokkuns
- Python, Hadoop ・・・ @showyou
- Excel ・・・交渉中
- Julia ・・・ @sorami
- SAS ・・・ @sanoche16
LTしたい人は以下のURLから応募
- japan.R LT
- スライドの下の方は見えにくくなるので発表する人は注意
参加人数は150~200人
Ustの中継も予定

睡眠不足で挑んだけど普通に懇親会まで頑張れた
英語もっと頑張らないと。。。
次回は11/1(土)

INPUTしたらOUTPUT!

忘れっぽいんでメモっとく

第43回R勉強会@東京に参加してきた&発表してきた

前半セッション

導入セッション 1

導入セッション2 前処理入門

Rで学ぶ傾向スコア解析入門

後半セッション

Rネイティブのbayesian inferenceである、LaplacesDemonの紹介

Getting Started with Shiny

ykmeansパッケージ

LT

Reactive Programming with R

32bit Windows で頑張るRandom Forest

pipeRの使い方

Japan.R