第4回Japan.R Ust視聴した - INPUTしたらOUTPUT!

以下メモ

※ 資料追加(12/12)

Yahoo!ビッグデータからの景気動向指数の推測について（仮）

Yahoo!JAPANのビッグデータレポート → http://docs.yahoo.co.jp/info/bigdata/
5名/レポート
普段の仕事の合間に作っている
インフルエンザの検索数と厚労省が発表しているインフルエンザの患者数には強い相関がある
景気動向指数には3つある
- 先行指数
- 一致指数
- 遅行指数
今の景気が良いか悪いか判断するには一致指数を用いる
内閣府が発表する景気動向指数は11の指標からなる（大口電気使用量など）
前月との増減比で計算するのでベースラインが３ヶ月に一度変わる（指数も過去に遡って変わる）
内閣府の発表は2ヶ月遅れなので現時点の景気を知りたい人の役に立つ
2012年に一度でも検索された言葉(75億語)のうち毎日一定数以上検索される約60万語の月間検索数を使用する
分析は重回帰
ステップワイズで変数を減らして15単語程度
収束パラメータを変えてオーバーフィテッティングしていないモデルをいくつか抽出
最大15ヶ月間先までを安定して推測できるモデルを採用
予測の精度は初回+0.3、2回目+0.6、3回目-0.4、4回目-1.6
誤差の範囲は±2が目標だがもう少し精度を上げたい
ビッグデータレポート、「いいね」してください

以下QA

PVの他に使えるデータはあるか？
- 景気動向指数の予測は検索ログのみ。参議院選議席予測にはTweetデータも使用している
重回帰を選んだ理由は？
- 分かりやすくするため最初は単回帰だった。単回帰の次は自然に重回帰になった。
モデルの評価はどのように行っている？
- 実績との残差や標準偏差。決定係数などは見ていない。
実体経済との乖離は検証している？
- Ustの広告のため聞き取れず

実ビジネスデータへのRの活用とその限界

Japan.r 2013 「実ビジネスデータへのrの活用とその限界」 from Tetsuro Ito

* 株式会社Albertは分析の読み物が充実している → http://www.albert2005.co.jp/technology/index.html * 以下製品紹介 * ADreco ・・・ロングテールのテール部分に特化したリコメンドエンジン（従来のリコメンドは人気商品に偏る問題がある） * i-Effect ・・・広告配信ネットワーク。コンジョイント分析を応用して最も効果の高い広告を配信する（従来はABテストの結果で配信する広告を決定する） * smarticA ・・・DMP。CRMやコンタクトログからマーケティング用のデータを管理する * Rはアドホック分析（単発の分析依頼）で使用している * 決定木を綺麗に可視化するパッケージ教えて欲しい

決定木は partykit がけっこう気に入っている #japanr
— hoxo_m (@hoxo_m) 2013, 12月 7

@masaha03 @tetsuroito ちょっときれいな決定木で rpart.plot パッケージがあります。 http://t.co/LJsf08BVzY #japanr
— hiratake55 (@hiratake55) 2013, 12月 7

自分も決定木はpartykit派 #japanr
— 里　洋平 (@yokkuns) 2013, 12月 7

決定係数0.85が実用に耐えうる最低レベル
Rのデメリット
- オンメモリ
- 遅い
- バッチ処理ができない

R でバッチ処理をやっている人がいますね。。。 #JapanR
— Hidekazu Tanaka (@holidayworking) 2013, 12月 7

Rでバッチ処理してる人はいますね #JapanR
— TAKAHASHI Masaki (@tarhashi) 2013, 12月 7

バッチ処理いっぱいしてるw #japanr
— 里　洋平 (@yokkuns) 2013, 12月 7

前処理の比率が非常に高い（以下のスライド参照）

ビジネスにおけるデータ
- アンケートデータ
- ECサイトの購買データ
  - ユーザーと商品データのクロスマトリクス
  - ほとんどの顧客は1,2点しか買わないのでスパース（欠損？）が非常に多い
- Apacheの生ログ、広告配信の生ログ
  - 非正規化、大量、TB/週
前処理に適材適所の言語の選択が重要
なんでもかんでもRでやりたい人が多い
データ分析あるある
- とりあえずパッケージに放り込む
- SVM,RFでいいんじゃない？
↑ だめ！絶対！！
データ分析３か条
1. 分析する対象について理解する
  - ドメイン知識（業務知識）はあるか？
  - なぜ分析が必要か？
  - 正しい現状認識はできているか？
  - データの意味や背景を理解しているか？
  - 問題はなにか？
2. 分析手法を適切に理解する
  - データは適切に前処理されているか？（異常値、外れ値、欠損は除く）
  - 問題を解決するのに適した手法か？
  - パラメータ調整などは適切か？
  - アウトプットを理解できるか？（偏回帰係数や決定係数など）
  - 正しく可視化できているか？
3. 分析結果に対して適切なアクションを行う
  - 仮説は正しく検証されましたか？
  - 適切なPDCAサイクルを構築できますか？
  - データドリブンな意思決定はできますか？
  - 組織やビジネスを変えることはできますか？
人を動かす3か条 by デールカーネギー
1. 盗人にも五分の理を認める
  - 非難や批判は益なしなのでやめよう
2. 重要感を持たせる
  - 相手を尊重しよう
3. 人の立場に身を置く
  - 相手の視点で考えよう

人を動かす　新装版

作者: デールカーネギー,Dale Carnegie,山口博
出版社/メーカー: 創元社
発売日: 1999/10/31
メディア: 単行本
購入: 174人クリック: 3,319回
この商品を含むブログ (630件) を見る

オンライン広告における大規模データの活用事例

ネット広告のプレイヤー
- パブリッシャー（メディア）
- 広告主
- ユーザー
相半するプレイヤーの欲求をうまく満たす必要がある
- パブリッシャーは広告をたくさん掲載して稼ぎたい
- 広告主は広告費を抑えたい
- ユーザーは余計な広告を見たくない
ネット広告の広告表示回数の予測モデルを作成して上記の問題解決を図る
広告配信のロジック
1. ユーザーに配信可能な広告に絞る
2. 期待収益が最も高い広告を表示する
  - 期待収益 = クリックされる確率 x クリック時の課金額
広告主の課題
- 入稿した広告がどれくらい表示されるか？
- 目標の獲得数を達成するのにどれくらいの入札金額を設定すればよいか？
- どれくらいの予算を積めばよいか？
事前にどの程度広告が表示されるか予測したい
使用するデータ
- ターゲティング情報（性別、年齢、...）
- 広告主の業種（金融、小売、... ）
- 入札金額
Rのglmnetライブラリを用いてリッジ回帰
数十万件のサンプルで学習・予測
一般的にはCTR予測モデルではロジスティック回帰モデルが用いられることが多い
- Click Through Rate:クリック率
過学習を避けるために正則化項としてノルムの項を加え最適化問題を解く

以下QA ・クリエイティブや季節要因などをどのように排除しているか？ * 今は何もしていない。モデルの更新を早くすることで対応している。

2013年のTokyo.R

20131206 japan r from Yohei Sato

@yokkuns厳選の発表

「plyrパッケージで君も前処理スタ☆」改め「plyrパッケージ徹底入門」 from tera monagi

実践で学ぶネットワーク分析 from Mitsunori Sato

アクションマイニングを用いた最適なアクションの導出 from sfchaos

はじめてのShiny from Kazuya Wada

可視化周辺の進化がヤヴァイ～rChartsを中心として～ from tera monagi

以下LT

今更聞けないRPresentation

LT「今更聞けないRPresentation」のRpresファイル。このファイルと画像ファイルだけでWebスライドを自動生成できた。https://t.co/DUDLnWoBFY #japanr
— nezuQ (@nezuq) 2013, 12月 7

顧客が本当に知りたいもの
- 事実・予測
なぜ事実・予測を知りたいの？
- 正しい判断をするため
顧客が知りたいのは正しいのは正しい判断
事実を伝えるためにはRの機能は十分
正しい判断を伝えるには十分？
- そこでRPresentation
RMarkdownからWebスライドを自動生成
でも残念なお知らせ
- R Presentationはプレビュー版でのみサポート

オレオレR-GUIを作りたい(@masaha03)

オレオレR-GUIを作りたい from Masahiro Hayashi

* 自己紹介で終わってもた...

タイトル不明（@ito_yan）

コインのイカサマに関する検定
1標本ラン検定
Runは連という意味
同じ値のつながりの数に着目する手法
tseriesのruns.test関数を利用
表表表表表裏裏裏裏裏は表裏の確率それぞれ1/2だけどイカサマコインではないか？

タイトル不明（@Sato_Uchi）

Lean Analytics: Use Data to Build a Better Startup Faster (Lean Series)

作者: Alistair Croll,Benjamin Yoskovitz
出版社/メーカー: O'Reilly Media
発売日: 2013/03/08
メディア: Kindle版
この商品を含むブログ (1件) を見る

Lean Analytics
事前の分析にコストをかけすぎない
アクションと並行した効果検証をしっかりやる

タイトル不明（@gepuro）

人の書いたRコードは読みにくい
特に前処理
@gepuro氏は以下のようにしている
- データ取得時はファイル名やテーブル名と同じ変数名にする
- サブセット加工する時は[元の変数名.抽出条件]にする
- マージする時は変数名をアンダーバーでつなぐ
- 長くなったらイケテル名前に変更する
- データの形が変わったら変数名も変える
R Advent Calendarに改めて書く
スライドなし発表でさらに時間ぴったり！すごい！！

RでWAIC（@motivic_）

RでWAIC from motivic

Sumio Watanabe氏はHidetoshi Nakataと同じくらい有名らしい
AICやBICなどの情報量基準は正則モデル用
特異モデルには2009年には情報量基準はなかった
2009年にWAIC、2013年にWBICが発表された
渡部先生のHPにはMATLABのコードしかない
Rに翻訳したWAICの計算コードはR Advent Calendarに掲載予定
WAICの前はDICがあったけど理論的にはWAICが正しい
普通のRだと遅いのでRStanで計算中

タイトル不明(下野寿久氏？)

乱数N個の最大値はどんな分布だろうか？
N個の乱数から最大値を取り出すことを繰り返すとどのような分布になるか？
1回だと1シグマ、10回で1.5シグマ、30回で2シグマ
ここでいきなりUstが次の発表にタイムジャンプしたorz...

タイトル不明（発表者不明）

秋田美人をSVMで判定
PUX APIを使う
顔に県民性は見られない
http://bijin.kamaku.la 美人診断

(@wdkz)

先週より少し資料が増えた
nginxに認証機能を持たせられる
Shiny-server proの価格が発表された ** 10万円？

@sanoche16

Rを用いたバッチ処理
- 標準入力・標準出力を利用する
- RScript
  - Rscript [～.R] *引数も受け取れる
R -vanillaでバッチ処理してたので今度RScript試す

@Med_KU

20131207 Japan.R#4 LT from Med_KU

* 速すぎてよく分からんかった...

Rの話題は少なかったけど今回もいろいろ参考になった。
結局次回Tokyo.Rはいつなんだろ。。。