INPUTしたらOUTPUT!

忘れっぽいんでメモっとく

Japan.R 2015に参加してきた

以下メモ

LTが多く長くなったので資料に記載されていることは極力メモらない。

(2015.12.15 公開資料追加)


CET (Capture EveryThing)プロジェクトにおける機械学習データマイニング最前線

  • CETプロジェクト
    • リクルートライフスタイル全サービス横断でリアルタイムにデータ(システムログ、ユーザの行動、在庫※変動)を収集・分析するための基盤を構築するプロジェクト
    • AWSからGoogleCloudに移行が進んでいる

※ ホテルの空室や美容師の予約枠など

  • 分析例

    • コールセンターのログをリアルタイムにモニタリング
    • Spark Streamingを使用してWindow集計を実施
      • 処理時間が特定の閾値を超えるログの件数をURL毎に集計し、サービス運用者へ通知
    • Leafletで直近の閲覧状況をリアルタイムに可視化
  • 使用しているツールなど

    • AWS S3, elastic search, treasure data, redshift
    • Amazon EC2にjupyter, rstudio
    • spark notebook
    • rundeck … バッチ管理ツール
    • cloud bigtable
      • APIが整備されておりBigtableに書込むとフロントエンジニアがAPI経由でデータを取得できる
  • データの取得

    • coldデータ
      • 数億件のレコードをredshift, treasure dataで捌いて特徴量抽出・生成
      • リアルタイムでないデータ
    • hotデータ
      • CETのelasticsearchから取得
      • リアルタムなデータ
  • 機械学習/データマイニングの実行
    • 1000万件程度のレコードに対して実施
  • 分析環境
    • 基本的にはr3.2xlargeを複数人で使用
    • 計算パワーがたりないときはインスタンスのグレードを上げる(お金で解決)
  • DB接続、IDマスキング、AUC計算などのよくある処理をパッケージとして共通化している

  • Rによる分析例

    • 顧客のクラスタリング
    • XXを予約しそうなユーザの判定
      • ユーザの行動に応じて画面選択の省略やデフォルト値の変更を行なう
      • 多値クラス分類問題を解いてデフォルトの選択肢を用意する
      • ranger(ランダムフォレストのC++実装)オススメ
    • 人気上昇ランキング
      • じゃらんの全宿泊施設の予約速度を計算し、スコアリング
      • 人気度に応じた文言を表示
        • 「今がチャンス!この宿のご予約が増えています」など
      • rcpproleで移動平均?を計算
  • 今後対応を検討していること

    • 在庫売り切れ予測
      • あと何分経つと満席になるなど
    • 予約が急激に入り始める時点の予測
    • 多腕バンディットアルゴリズムを活用した配信
    • リアルタイム異常検知
  • 機械学習データマイニングエンジニアのスキルアップ施策

    • 手を動かして学ぶ機械学習
    • 社内kaggle
    • 論文輪読会


leafletではじめるRによる地図プロット

以下質疑応答

  • 同時にプロットできる数は?
    • あまり多い数は試していない
  • 面のプロットはできる?
    • できる。コロプレスマップなども可能

leafletめっちゃ便利そう。試してみる
がproxy環境で地図が表示できるか心配。。。


{purrr}による非tabularデータ処理編

以下質疑応答

  • lambdar ※は?
    • 良いパッケージだと思う
  • subplotは流行?
    • 流行り廃りは分からないが比較に便利なのでよく使う

R にラムダ式を導入するパッケージ lambdaR を作った - ほくそ笑む


部屋とYシャツと私(2015年ver)

www.slideshare.net

  • 部屋 → Shiny
  • Yシャツ → rApache
  • 私 → DeployR

  • rApacheまだ生きてたのか

    • と思って休憩時間に聞いたら死んでるとのこと

以下質疑応答

  • 発表内容は業務で使用している?
    • 使用していない。Shinyはレポートのサンプルで使っている。
  • Shinyの複数同時アクセス問題は@mtknnktm氏の方法※で避けられる?
    • ShinyServerのリリースでつぶされた【悲報】
  • OpenCPUは?
    • 試していない

Shiny-Serverをたった1行の変更でマルチプロセス化する方法 - Swarm of Trials参照


LT大会

みんな何使ってんの?

3位 : Java 2位 : Python

4位 : Ruby, SQL 6位 : C++, JavaScript 8位 : Peal, SAS 10位 : PHP

1位 : R

あれ!? Excelがない??


Tokyo.R行ったら人生変わったwww

  • R使うと7億稼げる


gepuro task views


最新Julia事情 2015


全ての確率はコイン投げに通ず


Rで最強の数学者を推定した結果


Estimating the effect of advertisement by Varian's approach with R


アメフトで次のプレーを予測する

RPubs - Rでアメフトの次のプレーを予測する

  • NFLのデータをロジスティック回帰、決定木で分析

スポーツ観戦にはあまり興味はなかったけど以下の本を読んで自分もやってみようと思っていた矢先だったので非常に参考になった!

スポーツを10倍楽しむ統計学 (DOJIN選書)

スポーツを10倍楽しむ統計学 (DOJIN選書)


Rで名前を付けてやる(仮)

  • スライド非公開


私にとっての可視化

  • 良い可視化は相手次第
  • Spotfire便利
    • 時間を買う、進捗を買う


rstanで個人のパラメーターを推定した話

  • 個人の購買データと時系列データと属性データで階層ベイズモデル作った
    • 目的変数
      • ブラインドスイッチ
  • 結局SASでやった


Azure MLでなんかやる

docs.com

  • GLRM : 主成分分析を一般化したもの
  • H2OがGLRMをサポート


Rで数理モデルシミュレーション 〜ワクチン接種と感染症伝播〜

  • ワクチン接種率が高い状態だとワクチン接種してなくても感染しない
  • ワクチン接種率が低い状態だとワクチン接種した人も感染する

毎年ワクチン接種してなくてもインフルエンザに罹ったことなかったけど周りの人が接種してくれていたおかげなのか・・・来年からはちゃんと接種しよう。。。


SparkR and Parquet


  • 10GB(3000万件 x 80カラム)のデータが300MB程度になる

統ぷぎゃ会2015年活動報告

  • 10人 → 四天王 → 三銃士
  • 自分もドロップアウト組なのですが週一で赤本1章は無理でした。。。


Rと形態素解析

  • 転職おめでとうございます1
  • mecab以外の形態素解析
    • KyTea
    • Kuromoji
    • TinySegmenter
      • rTinySegmenter


このIRのグラフがすごい!上場企業2015

  • ダメなIRグラフ鑑賞会
    • why are you using 3d pie chart?
    • 詳細な値が見えないグラフ
    • EPS(1株当たりの純利益)も、配当性向も、あるんだよ
    • 凡例の違いが見えない


気になるあの娘とクリスマスデート 2015


闇と向き合う

  • 闇 = CRAN
  • CRANに上げるには
    • R CMD check XX.tar.gz --as-cran
    • Error, Warning, Noteを全部つぶす


SeekR Annual Search Trends Report 2015


R で API を作る



今年も非常に参考になった。 来年もよろしくお願いします。