INPUTしたらOUTPUT!

忘れっぽいんでメモっとく

第47回R勉強会@東京で発表してきた

もうすぐ春ですね → 春といえばキャッシュバック合戦 → キャッシュバックのTweet見える化したい → Twitter Streaming API + fluentd + InfluxDB + Rで発表したかったけど間に合わなかった。。。
参加者の中でTwitter分析やテキストマイニングしてる方が多かったのでなお無念。自分の生産性上げないと。。。
てなわけで以下メモ


前半セッション

10分で分かるR言語入門


続はじめてのR


レベル2を目指す人のためのランダムフォレストまとめ



後半セッション

ベイジアンモデルによるマーケティングサイエンティスト入門

www.slideshare.net

  • StanをAll Languageでググると日本語しか出て来ない
  • ggmcmc
    • rstanの結果をggplot2で綺麗に表示してくれるパッケージ
  • 状態空間モデル
    • 時点の変化に伴う影響
      • 週末になったので来客数が増加した
      • 夏になったので来客数が増加した
    • 特定時点での要因による影響
      • 割引を実施したので来客数が増加した
      • たまたま雨が降ったので来客数が増加した
  • 時間によらないキャンペーン効果の方がしりたい
  • どのパラメータをレポーティングしたら良いかで悩んでいる。どういうレポーティングをしている?パラメータ?予測結果?
    • 実務ではまだまだバリバリ使えてはいない
    • 以前は予測に使用されることが多かったがマーケティング業界ではパラメータ推計での使い方が増えていきそう


匿名集団的知性・ホクソエム――その傾向と対策 - Technically, technophobic.


UpliftモデルによるDM最適化

  • Uplift Model
  • 従来手法のレスポンスモデル
    • DMがなくても購入した人とDMが来た購入した人の違いが見えない
    • 購入しやすいセグメントはDMがあってもなくても同じくらい購入している
  • Uplift Modelのパッケージ作ってCRANに登録したけど知らない間に消えていた
  • ROIは大きくなるけど母数が少なくなることもある
  • 最初にランダム同士の比較ができないと使えない


形態素解析MeCab の新語・固有表現辞書 mecab-ipadic-neologd のご紹介とその応用例に関するデモ

  • mecab-ipadic-NEologd
    • IPADICを拡張したmecabのシステム辞書
    • 新語・固有表現などを読み仮名・原型付きで168万組を採録
    • 最低月2回アップデート
  • SimWord API
    • word2vecの類似キーワード検索
      • 「xxでMacBookを予約してきた」「ミッキーはいつみてもxx」のxxを推定
    • 人手のフィルタリングが必要
  • 使用上の注意
    • 解析結果の応用先に応じて使い分けが必要
      • 機械学習の特徴量作成に使いたい
        • ipadicとNEologd両方 or ORで使った方が良い
      • 素朴な検索indexを1つだけ持ちたい
        • mecab-ipadicだけの方がよさそう 
  • 辞書のシードは大量のwebからのクローリングしているがどのようなアルゴリズムで処理している?
    • IPA辞書で正しく読みがつかられない単語?
    • Apacheライセンスに抵触しないリソース
  • 品詞の付与の仕方は?
    • 現状は品詞の推定をしない方針
      • 品詞が間違っていると形態素解析の結果を応用する際に問題が発生するため
      • 人名だけど名詞、一般などに分類されている


LT

線形モデルによる文京区の賃貸物件価格の解釈

  • 2.5万〜15万で物件を探す人はいない
    • 総当たりで内覧した方が速いw


ElasticsearchとKibanaと少しだけR

  • 1月ににelasticsearchにRから接続できるパッケージが公開されたみたい
  • Rからelasticsearchに繋げるの面倒くさそうだったのでInfluxDB+Grafana構築してみたけどelastic searchに乗り換えようかな


xgboost!

  • gbmより10倍はやい
  • 会社内とかプロキシ環境の場合、githubからのインストールってどうするんだろ?
    • CRANだとソースのtar.gzからインストールできるんだけどなー


OracleとR


  • プレゼン、めりはりつけないといけないことを思い知った
  • 初心者セッションってどの程度までがOKなんだろ
  • 次回は未定