INPUTしたらOUTPUT!

忘れっぽいんでメモっとく

第43回R勉強会@東京に参加してきた&発表してきた

以下メモ


前半セッション

導入セッション 1


導入セッション2 前処理入門

  • caret
  • tidyr
    • @rossleedhamに聞いたところ「たいでぃーあーる」と読むらしい
      • 大仏様も同じ意見だった
  • 大御所お二人からフィードバック頂けたので発表して良かった!


Rで学ぶ傾向スコア解析入門

  • 傾向スコア解析の結果は理解してもらえる?
    • だいたい理解してもらえない
  • ちゃんとテキスト買って読み直す


後半セッション

Rネイティブのbayesian inferenceである、LaplacesDemonの紹介

  • みどりぼん で紹介されたLaplasesDemonの紹介
  • JAGS,Stanと比較すると遅い
  • 初期値をランダムに設定するGIV関数が容易されている
  • Demon Suggestion
    • 悪魔のささやき
    • 収束したかを診断してくれる
    • 収束していない場合、アドバイスをくれる
  • 828,000サンプルで約9分
    • Stanでは同サンプルで約6分
      • Stanではサンプル数10,000でもRhat < 1.1になった
        • そのときの処理時間は57秒
  • LaplasesDemonを並列処理できる仕組みはあるが8コアで実行するとかえって遅くなったorz...


Getting Started with Shiny

  • e-mail client percentageを見るアプリをShinyで作った
    • メールの開封率、クリック率、CTRなどを確認できる
  • Shinyは単一ページのWEBアプリしか作れないと思ってたけどShiny Builderなど使えばもっと色々できるっぽい


ykmeansパッケージ

  • クラスタリングは主観が入る
  • 単位が違うと正しい分類ができない
    • 標準化する
  • k-meansは初期値によってクラスタリング結果が変わることがある
    • k-meansを複数回実行して所属するクラスタを多数決で決定するようにする
      • k-meansのクラスタ番号はランダムなので注意する必要がある
  • モデルベースのクラスタリングを使えば良いのでは?
    • 混合分布モデルの仮定を満たしているか確認するのが面倒なので使っていない
  • 最適なクラスタ数(k)はどうやって決めている?
    • クラスタ内のターゲット変数の分散が最小になるように決めている
    • クラスタ間の分散は考慮していない
  • 多数決でも決まらない場合があるのでは?(ファジーな場合)
    • 距離尺度を変えると良いかも
      • ユークリッド距離で計算されているのでコサイン類似度などにすれば良いかも


LT

Reactive Programming with R

  • Reactive Programmingの説明が新しすぎるw
  • shinySignalsパッケージが最近公開された
  • %~>%
    • 普通の関数をReactive Programming Worldにリフトさせる


32bit Windows で頑張るRandom Forest

  • ntreeを増やすと精度向上が期待されるがメモリが足りなくなる
    • 32bit Windowsではメモリ2GBの壁もある
  • maxnodes
    • 木の終端ノード数の上限を設定するパラメータ
    • 本来は過学習を防ぐためのパラメータと思われる
    • デフォルトではnull
    • 適切に設定することでメモリ節約が可能
  • rfmodel$forest$nodestatusで-1となっているのが終端ノード
    • ntreeを小さめに設定して終端ノードをカウントしてmaxnodesに設定する
      • ntreeが小さいとOOBエラーが高いがmaxnodesを設定してntreeを増やすとOOBエラーが低くなった


pipeRの使い方

  • 蓮君、字違うんだ・・・
  • 翻訳の経緯、面白すぎるw
  • 自分の無茶ぶりにも迅速に対応して頂いてありがとうございましたm( )m


Japan.R

  • 今年のJapan.Rは12/6(土)
  • 以下の方々がセッションに登壇される
    • @TJO_datasci
    • @AriLamstein
    • @shsaix
    • @yanaoki
  • 分析言語セッションも開催される
    • R ・・・ @yokkuns
    • Python, Hadoop ・・・ @showyou
    • Excel ・・・ 交渉中
    • Julia ・・・ @sorami
    • SAS ・・・ @sanoche16
  • LTしたい人は以下のURLから応募
    • japan.R LT
    • スライドの下の方は見えにくくなるので発表する人は注意
  • 参加人数は150~200人
  • Ustの中継も予定

  • 睡眠不足で挑んだけど普通に懇親会まで頑張れた
  • 英語もっと頑張らないと。。。
  • 次回は11/1(土)