第47回R勉強会@東京で発表してきた
もうすぐ春ですね → 春といえばキャッシュバック合戦 → キャッシュバックのTweetを見える化したい → Twitter Streaming API + fluentd + InfluxDB + Rで発表したかったけど間に合わなかった。。。
参加者の中でTwitter分析やテキストマイニングしてる方が多かったのでなお無念。自分の生産性上げないと。。。
てなわけで以下メモ
前半セッション
10分で分かるR言語入門
#TokyoR RT @doradora09: 先ほどの初心者セッションの資料ですー / 10分で分かるr言語入門ver2 upload用 http://t.co/wfEqXLshkc
— akiaki5516 (@doradora09) 2015, 3月 28
続はじめてのR
Tokyo.R 初心者セッション 続初めてのR #TokyoR #tokyorbeginner http://t.co/q1nyOKN4YD @SlideShareさんから
— Minoda Takashi (@aad34210) 2015, 3月 28
レベル2を目指す人のためのランダムフォレストまとめ
- 前日の21時点で初心者セッション2つが未定状態だったので発表させてもらいました。
- 完全に他人のふんどしな内容ですいません。。。
- 資料内のブログなどは無断で掲載してしまいました。申し訳ございません。問題があるようでしたら削除しますので申し付け下さい。
- 以下、今回の発表の参考元
- ランダムフォレストそのもの
- 不均衡データの対応
- パラメータチューニング
- 重要な説明変数の確認
- 処理の並列化
後半セッション
ベイジアンモデルによるマーケティングサイエンティスト入門
www.slideshare.net
- StanをAll Languageでググると日本語しか出て来ない
- ggmcmc
- rstanの結果をggplot2で綺麗に表示してくれるパッケージ
- 状態空間モデル
- 時点の変化に伴う影響
- 週末になったので来客数が増加した
- 夏になったので来客数が増加した
- 特定時点での要因による影響
- 割引を実施したので来客数が増加した
- たまたま雨が降ったので来客数が増加した
- 時点の変化に伴う影響
- 時間によらないキャンペーン効果の方がしりたい
- どのパラメータをレポーティングしたら良いかで悩んでいる。どういうレポーティングをしている?パラメータ?予測結果?
- 実務ではまだまだバリバリ使えてはいない
- 以前は予測に使用されることが多かったがマーケティング業界ではパラメータ推計での使い方が増えていきそう
ホクソエムとは一体…… #TokyoR
— MATSUSHIMA Nanigashi (@carbonphilia) 2015, 3月 28
→ 匿名集団的知性・ホクソエム――その傾向と対策 - Technically, technophobic.
UpliftモデルによるDM最適化
- Uplift Model
- ROIの最大化を目的としたデータマイニング手法
- 従来手法のレスポンスモデル
- DMがなくても購入した人とDMが来た購入した人の違いが見えない
- 購入しやすいセグメントはDMがあってもなくても同じくらい購入している
- Uplift Modelのパッケージ作ってCRANに登録したけど知らない間に消えていた
- 別の人が作って登録されていた
- ROIは大きくなるけど母数が少なくなることもある
- 最初にランダム同士の比較ができないと使えない
形態素解析器 MeCab の新語・固有表現辞書 mecab-ipadic-neologd のご紹介とその応用例に関するデモ
先日のTokyoRにおけるmecab-ipadic-neologdに関する発表資料に、質疑応答や懇親会で聞かれたことを足してアップロードしました。 #neologd #TokyoR http://t.co/pIfExeWzGe
— Toshinori Sato (@overlast) 2015, 3月 31
- mecab-ipadic-NEologd
- SimWord API
- word2vecの類似キーワード検索
- 「xxでMacBookを予約してきた」「ミッキーはいつみてもxx」のxxを推定
- 人手のフィルタリングが必要
- word2vecの類似キーワード検索
- 使用上の注意
- 辞書のシードは大量のwebからのクローリングしているがどのようなアルゴリズムで処理している?
- 品詞の付与の仕方は?
- 現状は品詞の推定をしない方針
- 品詞が間違っていると形態素解析の結果を応用する際に問題が発生するため
- 人名だけど名詞、一般などに分類されている
- 現状は品詞の推定をしない方針
LT
線形モデルによる文京区の賃貸物件価格の解釈
本日発表したスライドをアップロードしました。 「線形モデルによる文京区の賃貸物件価格の解釈(『最高の借家』は統計解析で見つかるか?)」 http://t.co/QQYOAGVmp2 #TokyoR
— ぼたもち (@windfall_j) 2015, 3月 28
- 2.5万〜15万で物件を探す人はいない
- 総当たりで内覧した方が速いw
ElasticsearchとKibanaと少しだけR
- 1月ににelasticsearchにRから接続できるパッケージが公開されたみたい
- Rからelasticsearchに繋げるの面倒くさそうだったのでInfluxDB+Grafana構築してみたけどelastic searchに乗り換えようかな
xgboost!
おくれましたが今日の資料上げました。ZZガンダムは抜いてます。
http://t.co/36KroaMal7
— shota yasui (@housecat442) 2015, 3月 28
OracleとR
本日の #TokyoR の発表資料です。 http://t.co/tgNWLhgg56
— kos59125 (@kos59125) 2015, 3月 28
- プレゼン、めりはりつけないといけないことを思い知った
- 初心者セッションってどの程度までがOKなんだろ
- 次回は未定