読者です 読者をやめる 読者になる 読者になる

INPUTしたらOUTPUT!

忘れっぽいんでメモっとく

第41回R勉強会@東京に参加してきた

R 統計

以下メモ


前半セッション

10分で分かるr言語入門ver2.8

  • 体内年齢 < 実年齢
    • 自分もちょうど昨日、健康体力測定受けた
    • 体年齢は実年齢相当だったけど心肺機能年齢が+15歳くらいでかなりショックうけてる…


初めてのがR 〜R使いへの道

Rによるデータサイエンス - データ解析の基礎から最新手法まで

Rによるデータサイエンス - データ解析の基礎から最新手法まで


Rで学ぶデータマイニングⅠ 第17章

  • 欠損になったので@kaz_yos氏にEmacs愛について語って頂くことにw
  • RcmdrやEZR、Deducer使うとGUIで分析できる
  • Emacsには以下のプラグイン?を追加する
    • ESS
    • magit
      • git
  • Rには以下のパッケージをインストールする
    • devtools
    • roxygen2
    • testthat
    • knitr
  • その他git, github, make, Makefileなど


後半セッション

Rパッケージ作成 ハドリー風

  • CRANは色々めんどくさい
    • 1週間以内にアップデートするとテストの時点で警告がでる
    • 半年に7回以上アップデートするとメールで釘をさされる
  • Emacs使い憧れる


I/Oについて

  • 直近1週間分のPVから翌日ログインする時間を予測
    • 今回の例では直近よりも1週間前のデータの方が正解率が高かった(曜日の要素が強い)
  • どのような特徴量を使っている?
    • ノイズを切っただけで6PV以下だと0、7PV以上だと1
    • 7日x24hの0,1データ
  • ランダムフォレストを使うとメモリが足りなくなることがあるが落ちない?
    • 良いサーバーだったので落ちなかった
  • 新規ユーザーはどのように処理している?
    • ソーシャルゲームは新規ユーザーは1,2日でやめる
    • 7日分のログがある時点で新規ユーザーはほぼいない
  • 手法の選択方法は精度で選ぶ?偉い人にはどのように説明した?
    • caretで全部試した
    • 「今よりかは良くなるから」と言って信じてもらった
  • 推定手法を決める際に負荷は気にしていた?
    • 1回回すのに6時間くらいかかった


サポートベクターマシン入門

  • 画像を素性ベクトルに変換するのにbiOpsライブラリを使ってる
  • 学習データが少ない場合にSVMは向いている
  • 男女の判別はできる?
    • 顔の形が異なるので服装などを素性に入れる


とあるソーシャルゲームで行われた継続に関する分析

  • どういったクラスタが離脱しやすいか分析した
    • "協力"を初日から行っているユーザーは離脱しやすい
  • 依頼を受けてどのくらいの期間で分析した?
    • 1週間から2週間
  • 決定木は各クラスの数が均等でないとうまくいかないと思うがどのようにしている?
    • 事前に数を確認している
    • ログイン密度を目的変数にしているので決定木だが回帰(cart?)


LT

Rでギャンブル Road To Ferrari

  • FXのHigh&Low(1分後に上がるか下がるか)を20分間のデータを元に予測
  • アソシエーション分析した結果,6ルール検出されたが使えないルールだった
    • 支持度・・・0.1%?(うろ覚え) 滅多に発生しない
    • 確信度・・・55%(うろ覚え) 正解率55%
  • ランダムで予測しても50%なので意味ない


Stanで決める人類最強の男

  • 収束しなかったので誰か教えてください。。。


Yokohama.Rはじめますた

  • Githubのissues、wikiでナレッジ蓄積・共有するのは良い試みだと思う
  • 横浜はちょっと遠くて参加難しいな・・・


Rから通知をとばす

  • YoのAPI叩くパッケージをCRANに申請したら拒否されたw


RでMコマンドを実行させる

  • 約8000万行の加工が約5分で終わる
    • 一度試してみたい


The R User Conference 2014 @ UCLA

  • 勉強会のことをMeetupという
  • 女子会のことをheRという
    • これはRだけ?
  • h2o, plot.ly, domino, knitrがアツいらしい



今回はビジネスよりの話題がいつもより多く非常に参考になった。以下の本はうちのチーム全員に読ませたい。

ビジネス活用事例で学ぶ データサイエンス入門

ビジネス活用事例で学ぶ データサイエンス入門

自分は今回持ってくるの忘れたので次回持参してサインもらいたい。

f:id:tak95:20140712233514j:plain