INPUTしたらOUTPUT!

忘れっぽいんでメモっとく

第44回R勉強会@東京に参加してきた

みどりぼん最終回のアウトプットができてないけど取り急ぎメモしとく。


前半セッション

導入セッション


  • 今回も初心者ほとんどいなかった
  • でも前回の傾向スコアは難しすぎるとのツイートがあった
  • 中間の落としどころが難しい。。。


テキスト:セグメンテーション



  • 年齢性別などの属性系でセグメンテーションする意味はまずない
    • マジで!?めっちゃC層とかF2層とかでセグメント分けてたorz
  • STP
    • Segmentation Basis:消費者の需要を示す変数
    • Segmentation Descriptors : 各セグメント市場の属性(性別、年齢など)
    • 市場を分割する軸がSegmentation Basis
    • マーケティングには需要を直接とらえるSementation Basisが有用
  • caretパッケージ
    • findCorrelation
      • 左にある変数が削除される
      • 残したい変数が先にある場合は注意
    • findLinearCombo
      • 変数が50以上あると無理。自作する必要がある


後半セッション

マーケティングサイエンス徹底入門と実践Part2

  • STP分析 : マーケティング戦略の立案
  • 4P : マーケティング戦術の実行
  • 離散選択モデル
    • 多項ロジットモデル
    • 入れ子ロジットモデル
    • プロビットモデル
    • 混合ロジットモデル
  • McFadden決定係数が0.21から0.23に向上、どう見たら良い?
    • 回帰と同じように見て良い
    • 実務上では0.2近くでも良い
    • tetsuroito氏だったら出さない
  • ハロウィンじゃなかったら?
  • mlogit.data()のopposite、符号をひっくり返すだけでは?
    • データセットのマイナスの項目を指定している


Jubatusつかってみたよ


  • Jubatasでカラオケのレコメンド作った
  • 確率的勾配降下法を使っているのでオンラインで処理できる
  • Rのライブラリがまだない
    • Msgpack+RPCをRで実装
    • C++ライブラリをRcpp
    • RESTapiをRubyなどで作成、Rcurlで呼び出す
  • Jubatasを選んだ理由
    • メモリが少なくてすむ
    • AWSの最安運用で済ませたかった
    • Sparkは選択肢に挙がったが使いこなせそうだった
  • コールドスタート問題
    • クローリングしている
    • 懇親会LT、見逃したので共有されないかな。。。
  • 学習の取り消しは出来る?
    • 取り消しはない
    • レコード単位のデータ削除はできる
  • ノードは何台くらい?
    • 実は分散していない
  • Rのドライバはいつ?
    • 年内には作りたい


Cox Proportional Hazard Model on Azure ML

  • データの取得はmamlパッケージを使う
  • データの取得はML WorkshopにアップロードしたCSVやAzure SQL Database, Azure Storageなどが指定できる
  • Azure ML Models
    • Classification
    • Clustering
    • Regression
  • Example Data
    • kidney
  • HDInsightを使うと集計のパフォーマンスを改善できる
  • Azure MLはデータ加工については多くはない
    • Rを読込めるのでR Script内で処理する
  • Rのスケーラビリティは出ている?
    • でている
  • クラウドだけどどうやってアクセスする?
    • ブラウザ経由
    • APIもあってHTTPプロトコルにある
    • ML Studioがブラウザ?
      • Yes
  • Azureの料金体系は?
    • 1時間まわして数百円

シリーズ前処理2014 次元削減

  • 戦略的データサイエンス入門にCRISP-DMは詳しく書かれている
  • KDDプロセス
    • 狭義のデータ分析プロセス
    • KKD(勘・経験・度胸)ではない
  • 次元削減の目的と処理
    • テーブル形式or より高次元のデータに対して元々の特徴量から低次元の新たな特徴量を作成
    • 代表的な用途は予測モデルやクラスタリングの前処理
  • 次元削減の主な手法
  • 主成分分析
    • 次元削減の代表的な手法
  • 多様体学習
    • Isomap
    • RDRToolboxライブラリ
    • カーネル多変量解析
  • テンソル因子化法
    • rTensorライブラリ
  • テンソル因子化法やったらRぶっとんだけどやっぱりPython?
    • yes
  • テンソルとして持つデータの利点は?
    • スパースなデータは利点はない
    • スパース名データはlongで持った方がよい

LT

TokyoRの話

  • NLP勉強会参加したいけど家庭内決裁ががが
  • 参加者ネットワーク
    • 主催者が以外とネットワークから外れてるw

引用回数Top100にランクインした10の統計論文

  • 11位 カプランマイヤー法
    • 病気の生存率だけではなく機械の故障率の比較などにも使われる
  • 24位 Cox比例ハザードもデル
    • 多変量回帰モデル
  • 29位 Statistical methods for assessing agreement between two methods of clinical measurement
  • 57位 EMアルゴリズム
    • Rubin神
  • 58位 メトロポリス
  • 59位 False discovery rate
    • 多重比較法、変数が多いときに使われる
  • 64位 ダンカンの多重比較検定


これからのRとデータの話をしよう


Rユーザーのためのmコマンド

  • 前処理畜(ショチク)
    • 自分もこれからショチクと名乗ることにする
  • 中間生成物に気をつける必要がある
    • パイプで繋げると中間生成物がぽこぽこできる
  • csv限定のためtsvやtxtはcsvに変換しなければならない
  • サンプルコードの再現が面倒


近況報告


RColorBrewerとcolorRampPalette()で地図描画

  • dropboxがrから読めなくなった
  • FOSS4G 2014 Osaka/Tokyo行きたかった。。。
  • colorRampPaletteで透過がうまくいかない
  • ウツボ vs イカ


この1年間を振り返って


ガチで理系な方に、その相関は間違ってます、と言われたマーケ女子の話

  • ピアソンの相関係数は連続値の正規分布を仮定している
  • ポリコリック相関係数
    • 順序尺度用の相関係数
    • 元のデータが連続的で正規分布を仮定している



  • 11/29(土)に2014年度統計数理研究所共同研究集会「データ解析環境Rの整備と利用」が開催される
  • 今回は懇親会参加者も多かった
  • JubatasとかSparkとか分析環境の話も需要ありそう