第47回R勉強会@東京で発表してきた

もうすぐ春ですね → 春といえばキャッシュバック合戦 → キャッシュバックのTweetを見える化したい → Twitter Streaming API + fluentd + InfluxDB + Rで発表したかったけど間に合わなかった。。。
参加者の中でTwitter分析やテキストマイニングしてる方が多かったのでなお無念。自分の生産性上げないと。。。
てなわけで以下メモ

前半セッション

10分で分かるR言語入門

#TokyoR RT @doradora09: 先ほどの初心者セッションの資料ですー / 10分で分かるr言語入門ver2 upload用 http://t.co/wfEqXLshkc
— akiaki5516 (@doradora09) 2015, 3月 28

続はじめてのR

Tokyo.R 初心者セッション続初めてのR #TokyoR #tokyorbeginner http://t.co/q1nyOKN4YD @SlideShareさんから
— Minoda Takashi (@aad34210) 2015, 3月 28

レベル2を目指す人のためのランダムフォレストまとめ

20150329 tokyo r47 from Takashi Kitano

前日の21時点で初心者セッション2つが未定状態だったので発表させてもらいました。
- 完全に他人のふんどしな内容ですいません。。。
資料内のブログなどは無断で掲載してしまいました。申し訳ございません。問題があるようでしたら削除しますので申し付け下さい。
以下、今回の発表の参考元
- ランダムフォレストそのもの
  - 「はじめてでもわかる RandomForest 入門－集団学習による分類・予測－」－第７回データマイニング+WEB勉強会＠東京
- 不均衡データの対応
- パラメータチューニング
  - 実務でRandomForestを使ったときに聞かれたこと - shakezoの日記
  - Rで機械学習するならチューニングもグリッドサーチ関数orオプションでお手軽に - 銀座で働くデータサイエンティストのブログ
- 重要な説明変数の確認
  - randomForestで重要な説明変数を見つける - tkawachi Blog
- 処理の並列化
  - Amazon.co.jp： Rによるハイパフォーマンスコンピューティング: 福島真太朗: 本
  - 2014-12-22 - ほくそ笑む

後半セッション

ベイジアンモデルによるマーケティングサイエンティスト入門

ベイジアンモデリングによるマーケティングサイエンス〜状態空間モデルを用いたモデリング from 宏喜佐野

www.slideshare.net

StanをAll Languageでググると日本語しか出て来ない
ggmcmc
- rstanの結果をggplot2で綺麗に表示してくれるパッケージ
状態空間モデル
- 時点の変化に伴う影響
  - 週末になったので来客数が増加した
  - 夏になったので来客数が増加した
- 特定時点での要因による影響
  - 割引を実施したので来客数が増加した
  - たまたま雨が降ったので来客数が増加した
時間によらないキャンペーン効果の方がしりたい
どのパラメータをレポーティングしたら良いかで悩んでいる。どういうレポーティングをしている？パラメータ？予測結果？
- 実務ではまだまだバリバリ使えてはいない
- 以前は予測に使用されることが多かったがマーケティング業界ではパラメータ推計での使い方が増えていきそう

ホクソエムとは一体……　#TokyoR
— MATSUSHIMA Nanigashi (@carbonphilia) 2015, 3月 28

→ 匿名集団的知性・ホクソエム――その傾向と対策 - Technically, technophobic.

UpliftモデルによるDM最適化

Uplift Model
- ROIの最大化を目的としたデータマイニング手法
従来手法のレスポンスモデル
- DMがなくても購入した人とDMが来た購入した人の違いが見えない
- 購入しやすいセグメントはDMがあってもなくても同じくらい購入している
Uplift Modelのパッケージ作ってCRANに登録したけど知らない間に消えていた
- 別の人が作って登録されていた
  - CRAN - Package uplift
ROIは大きくなるけど母数が少なくなることもある
最初にランダム同士の比較ができないと使えない

形態素解析器 MeCab の新語・固有表現辞書 mecab-ipadic-neologd のご紹介とその応用例に関するデモ

先日のTokyoRにおけるmecab-ipadic-neologdに関する発表資料に、質疑応答や懇親会で聞かれたことを足してアップロードしました。 #neologd #TokyoR http://t.co/pIfExeWzGe
— Toshinori Sato (@overlast) 2015, 3月 31

mecab-ipadic-NEologd
- IPADICを拡張したmecabのシステム辞書
- 新語・固有表現などを読み仮名・原型付きで168万組を採録
- 最低月2回アップデート
SimWord API
- word2vecの類似キーワード検索
  - 「xxでMacBookを予約してきた」「ミッキーはいつみてもxx」のxxを推定
- 人手のフィルタリングが必要
使用上の注意
- 解析結果の応用先に応じて使い分けが必要
  - 機械学習の特徴量作成に使いたい
    - ipadicとNEologd両方 or ORで使った方が良い
  - 素朴な検索indexを1つだけ持ちたい
    - mecab-ipadicだけの方がよさそう　
辞書のシードは大量のwebからのクローリングしているがどのようなアルゴリズムで処理している?
- IPA辞書で正しく読みがつかられない単語？
- Apacheライセンスに抵触しないリソース
品詞の付与の仕方は？
- 現状は品詞の推定をしない方針
  - 品詞が間違っていると形態素解析の結果を応用する際に問題が発生するため
  - 人名だけど名詞、一般などに分類されている

LT

線形モデルによる文京区の賃貸物件価格の解釈

本日発表したスライドをアップロードしました。　「線形モデルによる文京区の賃貸物件価格の解釈（『最高の借家』は統計解析で見つかるか？）」　http://t.co/QQYOAGVmp2　#TokyoR
— ぼたもち (@windfall_j) 2015, 3月 28

2.5万〜15万で物件を探す人はいない
- 総当たりで内覧した方が速いw

ElasticsearchとKibanaと少しだけR

1月ににelasticsearchにRから接続できるパッケージが公開されたみたい
- elastic - Elasticsearch from R · Recology, R/etc.
Rからelasticsearchに繋げるの面倒くさそうだったのでInfluxDB+Grafana構築してみたけどelastic searchに乗り換えようかな

xgboost!

おくれましたが今日の資料上げました。ZZガンダムは抜いてます。 http://t.co/36KroaMal7
— shota yasui (@housecat442) 2015, 3月 28

gbmより10倍はやい
会社内とかプロキシ環境の場合、githubからのインストールってどうするんだろ？
- CRANだとソースのtar.gzからインストールできるんだけどなー

OracleとR

本日の #TokyoR の発表資料です。 http://t.co/tgNWLhgg56
— kos59125 (@kos59125) 2015, 3月 28

Oracle R EnterpriseはOracle Database Enterprise Editionでしか使えない
????
- ?コマンドのイースターエッグ的な隠し機能
- ポアソン分布に従った待ち時間の後に表示されるw

プレゼン、めりはりつけないといけないことを思い知った
初心者セッションってどの程度までがOKなんだろ
次回は未定

INPUTしたらOUTPUT!

忘れっぽいんでメモっとく