INPUTしたらOUTPUT!

忘れっぽいんでメモっとく

第4回Japan.R Ust視聴した

以下メモ

※ 資料追加(12/12)


Yahoo!ビッグデータからの景気動向指数の推測について(仮)

  • Yahoo!JAPANのビッグデータレポート → http://docs.yahoo.co.jp/info/bigdata/
  • 5名/レポート
  • 普段の仕事の合間に作っている
  • インフルエンザの検索数と厚労省が発表しているインフルエンザの患者数には強い相関がある
  • 景気動向指数には3つある
    • 先行指数
    • 一致指数
    • 遅行指数
  • 今の景気が良いか悪いか判断するには一致指数を用いる
  • 内閣府が発表する景気動向指数は11の指標からなる(大口電気使用量など)
  • 前月との増減比で計算するのでベースラインが3ヶ月に一度変わる(指数も過去に遡って変わる)
  • 内閣府の発表は2ヶ月遅れなので現時点の景気を知りたい人の役に立つ
  • 2012年に一度でも検索された言葉(75億語)のうち毎日一定数以上検索される約60万語の月間検索数を使用する
  • 分析は重回帰
  • ステップワイズで変数を減らして15単語程度
  • 収束パラメータを変えてオーバーフィテッティングしていないモデルをいくつか抽出
  • 最大15ヶ月間先までを安定して推測できるモデルを採用
  • 予測の精度は初回+0.3、2回目+0.6、3回目-0.4、4回目-1.6
  • 誤差の範囲は±2が目標だがもう少し精度を上げたい
  • ビッグデータレポート、「いいね」してください

以下QA

  • PVの他に使えるデータはあるか?
    • 景気動向指数の予測は検索ログのみ。参議院選議席予測にはTweetデータも使用している
  • 重回帰を選んだ理由は?
    • 分かりやすくするため最初は単回帰だった。単回帰の次は自然に重回帰になった。
  • モデルの評価はどのように行っている?
    • 実績との残差や標準偏差。決定係数などは見ていない。
  • 実体経済との乖離は検証している?
    • Ustの広告のため聞き取れず

実ビジネスデータへのRの活用とその限界

* 株式会社Albertは分析の読み物が充実している → http://www.albert2005.co.jp/technology/index.html * 以下製品紹介 * ADreco ・・・ロングテールのテール部分に特化したリコメンドエンジン(従来のリコメンドは人気商品に偏る問題がある) * i-Effect ・・・広告配信ネットワーク。コンジョイント分析を応用して最も効果の高い広告を配信する(従来はABテストの結果で配信する広告を決定する) * smarticA ・・・DMP。CRMやコンタクトログからマーケティング用のデータを管理する * Rはアドホック分析(単発の分析依頼)で使用している * 決定木を綺麗に可視化するパッケージ教えて欲しい

  • 決定係数0.85が実用に耐えうる最低レベル
  • Rのデメリット
    • オンメモリ
    • 遅い
    • バッチ処理ができない
  • 前処理の比率が非常に高い(以下のスライド参照)
  • ビジネスにおけるデータ
    • アンケートデータ
    • ECサイトの購買データ
      • ユーザーと商品データのクロスマトリクス
      • ほとんどの顧客は1,2点しか買わないのでスパース(欠損?)が非常に多い
    • Apacheの生ログ、広告配信の生ログ
      • 非正規化、大量、TB/週
  • 前処理に適材適所の言語の選択が重要
  • なんでもかんでもRでやりたい人が多い
  • データ分析あるある
    • とりあえずパッケージに放り込む
    • SVM,RFでいいんじゃない?
  • ↑ だめ!絶対!!
  • データ分析3か条
    1. 分析する対象について理解する
      • ドメイン知識(業務知識)はあるか?
      • なぜ分析が必要か?
      • 正しい現状認識はできているか?
      • データの意味や背景を理解しているか?
      • 問題はなにか?
    2. 分析手法を適切に理解する
      • データは適切に前処理されているか?(異常値、外れ値、欠損は除く)
      • 問題を解決するのに適した手法か?
      • パラメータ調整などは適切か?
      • アウトプットを理解できるか?(偏回帰係数や決定係数など)
      • 正しく可視化できているか?
    3. 分析結果に対して適切なアクションを行う
      • 仮説は正しく検証されましたか?
      • 適切なPDCAサイクルを構築できますか?
      • データドリブンな意思決定はできますか?
      • 組織やビジネスを変えることはできますか?
  • 人を動かす3か条 by デールカーネギー
    1. 盗人にも五分の理を認める
      • 非難や批判は益なしなのでやめよう
    2. 重要感を持たせる
      • 相手を尊重しよう
    3. 人の立場に身を置く
      • 相手の視点で考えよう

人を動かす 新装版

人を動かす 新装版


オンライン広告における大規模データの活用事例

  • ネット広告のプレイヤー
    • パブリッシャー(メディア)
    • 広告主
    • ユーザー
  • 相半するプレイヤーの欲求をうまく満たす必要がある
    • パブリッシャーは広告をたくさん掲載して稼ぎたい
    • 広告主は広告費を抑えたい
    • ユーザーは余計な広告を見たくない
  • ネット広告の広告表示回数の予測モデルを作成して上記の問題解決を図る
  • 広告配信のロジック
    1. ユーザーに配信可能な広告に絞る
    2. 期待収益が最も高い広告を表示する
      • 期待収益 = クリックされる確率 x クリック時の課金額
  • 広告主の課題
    • 入稿した広告がどれくらい表示されるか?
    • 目標の獲得数を達成するのにどれくらいの入札金額を設定すればよいか?
    • どれくらいの予算を積めばよいか?
  • 事前にどの程度広告が表示されるか予測したい
  • 使用するデータ
    • ターゲティング情報(性別、年齢、...)
    • 広告主の業種(金融、小売、... )
    • 入札金額
  • Rのglmnetライブラリを用いてリッジ回帰
  • 数十万件のサンプルで学習・予測
  • 一般的にはCTR予測モデルではロジスティック回帰モデルが用いられることが多い
    • Click Through Rate:クリック率
  • 過学習を避けるために正則化項としてノルムの項を加え最適化問題を解く

以下QA ・クリエイティブや季節要因などをどのように排除しているか? * 今は何もしていない。モデルの更新を早くすることで対応している。


2013年のTokyo.R

  • @yokkuns厳選の発表


以下LT

今更聞けないRPresentation

  • 顧客が本当に知りたいもの
    • 事実・予測
  • なぜ事実・予測を知りたいの?
    • 正しい判断をするため
  • 顧客が知りたいのは正しいのは正しい判断
  • 事実を伝えるためにはRの機能は十分
  • 正しい判断を伝えるには十分?
    • そこでRPresentation
  • RMarkdownからWebスライドを自動生成
  • でも残念なお知らせ
    • R Presentationはプレビュー版でのみサポート

オレオレR-GUIを作りたい(@masaha03)

* 自己紹介で終わってもた...


タイトル不明(@ito_yan)

  • コインのイカサマに関する検定
  • 1標本ラン検定
  • Runは連という意味
  • 同じ値のつながりの数に着目する手法
  • tseriesのruns.test関数を利用

  • 表表表表表裏裏裏裏裏は表裏の確率それぞれ1/2だけどイカサマコインではないか?


タイトル不明(@Sato_Uchi)

Lean Analytics: Use Data to Build a Better Startup Faster (Lean Series)

Lean Analytics: Use Data to Build a Better Startup Faster (Lean Series)

  • Lean Analytics
  • 事前の分析にコストをかけすぎない
  • アクションと並行した効果検証をしっかりやる

タイトル不明(@gepuro)

  • 人の書いたRコードは読みにくい
  • 特に前処理
  • @gepuro氏は以下のようにしている
    • データ取得時はファイル名やテーブル名と同じ変数名にする
    • サブセット加工する時は[元の変数名.抽出条件]にする
    • マージする時は変数名をアンダーバーでつなぐ
    • 長くなったらイケテル名前に変更する
    • データの形が変わったら変数名も変える
  • R Advent Calendarに改めて書く

  • スライドなし発表でさらに時間ぴったり!すごい!!


RでWAIC(@motivic_)

  • Sumio Watanabe氏はHidetoshi Nakataと同じくらい有名らしい
  • AICやBICなどの情報量基準は正則モデル用
  • 特異モデルには2009年には情報量基準はなかった
  • 2009年にWAIC、2013年にWBICが発表された
  • 渡部先生のHPにはMATLABのコードしかない
  • Rに翻訳したWAICの計算コードはR Advent Calendarに掲載予定
  • WAICの前はDICがあったけど理論的にはWAICが正しい
  • 普通のRだと遅いのでRStanで計算中

タイトル不明(下野寿久氏?)

  • 乱数N個の最大値はどんな分布だろうか?
  • N個の乱数から最大値を取り出すことを繰り返すとどのような分布になるか?
  • 1回だと1シグマ、10回で1.5シグマ、30回で2シグマ
  • ここでいきなりUstが次の発表にタイムジャンプしたorz...

タイトル不明(発表者不明)


(@wdkz)

  • 先週より少し資料が増えた
  • nginxに認証機能を持たせられる
  • Shiny-server proの価格が発表された ** 10万円?

@sanoche16

  • Rを用いたバッチ処理
    • 標準入力・標準出力を利用する
    • RScript
      • Rscript [~.R] *引数も受け取れる
  • R -vanillaでバッチ処理してたので今度RScript試す

@Med_KU

* 速すぎてよく分からんかった...


  • Rの話題は少なかったけど今回もいろいろ参考になった。
  • 結局次回Tokyo.Rはいつなんだろ。。。