INPUTしたらOUTPUT!

忘れっぽいんでメモっとく

Japan.R 2014に参加してきた

以下メモ

f:id:tak95:20141206145603j:plain


choroplethrパッケージでコロプレスマップを簡単作成

  • choropleth = 色塗りマップ
  • USの以下の3種類の色塗りマップを作成できる
    • 郵便番号(choropleth mapではなく散布図)
  • デフォルトは7段階で色塗り
  • カスタマイズ

    • title … グラフタイトル
    • legend ... 凡例
    • zoom ... 特定の州(or 郡?)に拡大表示
    • bucket ... スケール。2だと中央値で分割。1だとグラデーション
  • インストールはgithubから?

    • 巨大になりすぎて2つに分けた
      • choroplethr ... CRANから
      • choroplethrMaps ... 来週あたり最新版をGithubからインストールできるようになる
  • 自分のデータを使うことは出来る?
  • インタラクティブにする予定はある?
    • ggplot2に依存していて今はできない
    • 将来的にはグラフィックスライブラリ(ggviz, rCharts, rMap)を切り替えたい


データサイエンスエコシステム:オプトデータサイエンスラボの取り組み

  • 計算が現実を変える
  • コンペの傾向

    • R, Pythonが多い
    • RandomForest, ロジスティック回帰、SVMが多い
    • 手法を切り替えるよりもパラメータチューニングでスコアを上げる人が多い
    • AUCは0.75程度に収束していく
      • これは普段モデルを作成する際の基準にできそう
  • コンペをどうマネタイズする?

    • ビジネスとして成り立たないことは分かっていた
    • 分析やってますでは差別化できないので始めた
    • 業界を盛り上げられればいいかな
  • データシミュレーションの展望
    • 気象データはちゃんと使わないとダメじゃないの?


Deep Learningと他の分類器をRで比べてみよう

  • Deep Learningは元々実装する人向け
  • 過学習を抑え、特徴表現を強化した多層Neural Network
  • 層が深い方が、必要なパラメータ数が少なくて済むという理論
  • 汎化を支える技術
    • pre-training
    • dropout
      • 昨年のKDDで理論化の試み
    • ConvNet
      • 今の花形
  • Deep Learningの実装
    • フルスクラッチ
    • Python
      • Theano, PyLearn2, etc...
      • 今でも人気ある
    • Caffe
      • ConvNetが実装されていて、最近では最も評価の高い実装
      • GPU対応
    • H2O
      • Rパッケージがある
      • GPU未対応
  • MNISTで試してみた

  • 時間はどれくらい?

    • 8core,64bit, 32GB
    • Kaggle本番 200回繰り返し 6時間
      • 繰り返し数、次元数、隠れ層、ユニット数次第
  • 実際にDeep Learningを使う予定はある?
    • アドテクで使う検討はしている
    • バッチでしか回らない課題がある


Machine Learning @ FreakOut (仮)

  • 2400億/月のリクエスト
  • 数百台規模のHadoopクラスタをオンプレミス(一部AWS)で運用
  • フリークアウトにおけるデータサイエンスの取組

    • 広告システムには最適化指標がたくさんある
      • サイト訪問数
      • 勝率
      • クリック率
      • CV率
    • 数千万高次元ベクトルをhivemallのロジスティック回帰で実装
      • 最適化手法はSGD
    • 複数の手法でABテストを実施
  • 意思決定を早く回すための工夫は?

    • 全ての人が分析からエンジニアリングに理解があることが重要
  • hivemallを本番で使ってみての感想は?
    • freakoutのデータセットでは厳しい
      • 処理時間的に厳しい
      • データが大きすぎてhashingで衝突している
  • ABテストのスパン、例
    • 多いのは1週間分を流して比較する
    • 1つのアルゴリズムで3%から5%のデータを使う
  • ハッシュ化などハードで解決する予定はある?
    • 今後検討したい
  • 一度宿泊したホテルが何度も表示されてしまう
    • 購入した商品をレコメンドから外すことは当然できる
    • 旅行では予約した旅館はレコメンドから外すが周辺のホテルはレコメンドされるロジックかも
  • freakoutのシェア
    • 検索結果とYahoo!以外はリーチできている
  • スマートフォンの割合は?
    • 3割くらい
  • クロスデバイス(PCで閲覧した人とモバイルで閲覧した人の紐付け)はやっている?
    • 一部やっている
    • 広告主からログイン情報を預かる
    • 推定でマッチングする


言語ディスカッション

  • PowerPointVBAを使っている人が1人w
  • rvest勉強しなきゃ
  • Excelのバージョンで結構苦労している
    • 2010/2013からのPowerPivot/BIはバージョンによって使えなくなることはない
    • Juliaの方がバージョン違いで苦労する
  • ソースコード管理はどのように?
    • Python,R,Juliaは問題ない
    • SASguiのものはバージョン管理と相性が良くない
  • この先生き残るには何を使うべき?

    • sparkなどのHadoopエコシステム
  • バージョン管理はsubversionやgitで問題ないと思うけどチームでの作業はどのようにしているんだろう?


LT大会

@Azure MLの中の人

  • Azure ML、クラウド上で分散して処理されるらしいけどRの分散して動作するのかな?
  • 第44回でもAzure MLの発表あったけど資料がアップされないな。。。


SparkRを使ってみた

  • SparkRはspark1.3くらいで正式にサポートらしい


R書籍

  • ふさふさになってた!!
  • 全部立ち読みw
  • 自分はまだ上級者とは言えないけど今年購入したR本では"Rによるハイパフォーマンスコンピューティング"が一番役立っている

Rによるハイパフォーマンスコンピューティング

Rによるハイパフォーマンスコンピューティング

  • クリスマスプレゼント


AKB18


地方でデータと課題とRユーザーを集める

  • Kobe.Rはじめました
  • 分析相談会みたいにしたら人とデータが集まるようになった


mecab.jlを作った

  • RMeCabはCだったw


Rで高次元データの可視化

  • スイスロールデータを可視化
  • 主成分分析や自己組織化マップなどではうまくいかない
  • isomap, lle, diffusion map, gtm


絶対に作ってはいけないグラフ


声に出したいR語録

  • why are you using sjis?w


ハイレゾの話

  • 先日、Xperia Z3に機種変したけどハイレゾの恩恵まだ受けていないや。。。
  • 変数間の相関が酷いのでPSL GLMでCD買う価値があるか判別するモデルを作成した
    • 買う価値があるか判定するには結局CD買ってモデルに当てはめないといけないのかな?
    • m?からダウンロードするとかしないとか


RFinanceJ始めました


  • 今年も非常に参考になった!
  • 最近パネルディスカッションて流行ってるの?
  • 家庭の事情で懇親会に参加できず残念。。。