第44回R勉強会@東京に参加してきた

みどりぼん最終回のアウトプットができてないけど取り急ぎメモしとく。

前半セッション

導入セッション

導入セッションupしましたー！ / 10分で分かるR言語入門 ver2.10 http://t.co/jC5EjrzqBX #TokyoR
— akiaki5516 (@doradora09) 2014, 11月 1

今回も初心者ほとんどいなかった
でも前回の傾向スコアは難しすぎるとのツイートがあった
中間の落としどころが難しい。。。

テキスト：セグメンテーション

次の発表資料になります。『セグメンテーションの考え方・使い方』 http://t.co/Ti6IBnYMSv #TokyoR
— horihorio@新米パパ奮闘中？ (@horihorio) 2014, 11月 1

年齢性別などの属性系でセグメンテーションする意味はまずない
- マジで！？めっちゃC層とかF2層とかでセグメント分けてたorz
STP
- Segmentation Basis:消費者の需要を示す変数
- Segmentation Descriptors : 各セグメント市場の属性（性別、年齢など）
- 市場を分割する軸がSegmentation Basis
- マーケティングには需要を直接とらえるSementation Basisが有用
caretパッケージ
- findCorrelation
  - 左にある変数が削除される
  - 残したい変数が先にある場合は注意
- findLinearCombo
  - 変数が50以上あると無理。自作する必要がある

後半セッション

マーケティングサイエンス徹底入門と実践Part2

マーケティングサイエンス徹底入門と実践Part2 from Hiroki Sano

STP分析 : マーケティング戦略の立案
4P : マーケティング戦術の実行
離散選択モデル
- 多項ロジットモデル
- 入れ子ロジットモデル
- プロビットモデル
- 混合ロジットモデル
McFadden決定係数が0.21から0.23に向上、どう見たら良い？
- 回帰と同じように見て良い
- 実務上では0.2近くでも良い
- tetsuroito氏だったら出さない
ハロウィンじゃなかったら？
- ハドリーが前処理の全体を説明した論文がある
  - http://vita.had.co.nz/papers/tidy-data.pdf
- 読んでみたらあまり内容がなかった
mlogit.data()のopposite、符号をひっくり返すだけでは？
- データセットのマイナスの項目を指定している

Jubatusつかってみたよ

さっきの発表資料公開しました。http://t.co/Ge8vX0aU8t #TokyoR ついでに宣伝 http://t.co/tkRboQADhM
— Tohru Kobayashi (@soultoru) 2014, 11月 1

Jubatasでカラオケのレコメンド作った
- http://karaoke.pink
確率的勾配降下法を使っているのでオンラインで処理できる
Rのライブラリがまだない
- Msgpack+RPCをRで実装
- C++ライブラリをRcpp
- RESTapiをRubyなどで作成、Rcurlで呼び出す
Jubatasを選んだ理由
- メモリが少なくてすむ
- AWSの最安運用で済ませたかった
- Sparkは選択肢に挙がったが使いこなせそうだった
コールドスタート問題
- クローリングしている
- 懇親会LT、見逃したので共有されないかな。。。
学習の取り消しは出来る？
- 取り消しはない
- レコード単位のデータ削除はできる
ノードは何台くらい？
- 実は分散していない
Rのドライバはいつ？
- 年内には作りたい

Cox Proportional Hazard Model on Azure ML

データの取得はmamlパッケージを使う
データの取得はML WorkshopにアップロードしたCSVやAzure SQL Database, Azure Storageなどが指定できる
Azure ML Models
- Classification
- Clustering
- Regression
Example Data
- kidney
HDInsightを使うと集計のパフォーマンスを改善できる
Azure MLはデータ加工については多くはない
- Rを読込めるのでR Script内で処理する
Rのスケーラビリティは出ている？
- でている
クラウドだけどどうやってアクセスする？
- ブラウザ経由
- APIもあってHTTPプロトコルにある
- ML Studioがブラウザ？
  - Yes
Azureの料金体系は？
- 1時間まわして数百円

シリーズ前処理2014 次元削減

戦略的データサイエンス入門にCRISP-DMは詳しく書かれている
KDDプロセス
- 狭義のデータ分析プロセス
- KKD(勘・経験・度胸）ではない
次元削減の目的と処理
- テーブル形式or より高次元のデータに対して元々の特徴量から低次元の新たな特徴量を作成
- 代表的な用途は予測モデルやクラスタリングの前処理
次元削減の主な手法
- 線形
  - 主成分分析
- 非線形
  - 局所的な性質を保存
    - 再構成の重み
      - 局所線形埋め込み
  - 大局的な性質を保存
    - カーネル法に基づく手法
      - 局所線形埋め込み
    - ニューラルネットワーク
    - Unfolding
主成分分析
- 次元削減の代表的な手法
多様体学習
- Isomap
- RDRToolboxライブラリ
- カーネル多変量解析
テンソル因子化法
- rTensorライブラリ
テンソル因子化法やったらRぶっとんだけどやっぱりPython?
- yes
テンソルとして持つデータの利点は？
- スパースなデータは利点はない
- スパース名データはlongで持った方がよい

LT

TokyoRの話

先ほどのLTの資料です（まとめが話せなかった）。 #TokyoR https://t.co/BoUzNNJagt
— NLP勉強会はじめました (@yamano357) 2014, 11月 1

NLP勉強会参加したいけど家庭内決裁ががが
参加者ネットワーク
- 主催者が以外とネットワークから外れてるw

引用回数Top100にランクインした10の統計論文

先ほどのLT資料です。 Tokyo.r #44 lt.pptx #statistics #tokyor http://t.co/wHOfu8yYZd @SlideShareさんから
— siero_悪魔の囁き (@siero5335) 2014, 11月 1

11位カプランマイヤー法
- 病気の生存率だけではなく機械の故障率の比較などにも使われる
24位 Cox比例ハザードもデル
- 多変量回帰モデル
29位 Statistical methods for assessing agreement between two methods of clinical measurement
57位 EMアルゴリズム
- Rubin神
58位メトロポリス法
59位 False discovery rate
- 多重比較法、変数が多いときに使われる
64位ダンカンの多重比較検定

これからのRとデータの話をしよう

昨日のLT資料ハッシュタグ漏れてました‥ /20141101 TokyoR LT これからのRとデータの話をしよう #TokyoR http://t.co/TI5oZSyEKY
— 社食・それは夢と希望と現実 (@tetsuroito) 2014, 11月 1

ガートナーハイプサイクル2014
- ビッグデータは幻滅期に突入
- ガートナー | プレス・リリース |ガートナー、「日本におけるテクノロジのハイプ・サイクル：2014年」を発表
価値の高いデータ
- 情報量が多い/1レコード
- アクセスログ < 購買データ

Rユーザーのためのmコマンド

LT資料に致命的な誤字を発見したため再アップロードしました。申し訳ありません。修正前の資料は後ほど消去します。 http://t.co/z8JXHADRvl #TokyoR
— weda_654 (@weda_654) 2014, 11月 1

前処理畜(ショチク）
- 自分もこれからショチクと名乗ることにする
中間生成物に気をつける必要がある
- パイプで繋げると中間生成物がぽこぽこできる
csv限定のためtsvやtxtはcsvに変換しなければならない
サンプルコードの再現が面倒

近況報告

起業された
- DATUM STUDIO 株式会社
本出し過ぎや...

RColorBrewerとcolorRampPalette()で地図描画

LTスライドUPしました. 脱rainbow() http://t.co/kOcoX1Jwo7 #TokyoR
— Yamakita@lab (@Yamakita_lab) 2014, 11月 1

dropboxがrから読めなくなった
FOSS4G 2014 Osaka/Tokyo行きたかった。。。
colorRampPaletteで透過がうまくいかない
ウツボ vs イカ

この１年間を振り返って

（代理）所沢さんのLT資料です http://t.co/anSOEGo5ou #TokyoR
— DJchikada (@dichika) 2014, 11月 1

Japan.Rの登録は既に開始している
- Japan.R 2014 : ATND
今年もR Advent Calendarある
- R Advent Calendar 2014 : ATND
クリスマスには好きな子のブログをスクレイピング
- 元ネタは以下で合ってるのかな？
  - クリスマス声優監視2013 Twitter結果 - 驚異のアニヲタ社会復帰への道

ガチで理系な方に、その相関は間違ってます、と言われたマーケ女子の話

ピアソンの相関係数は連続値の正規分布を仮定している
ポリコリック相関係数
- 順序尺度用の相関係数
- 元のデータが連続的で正規分布を仮定している

11/29（土）に2014年度統計数理研究所共同研究集会「データ解析環境Rの整備と利用」が開催される
今回は懇親会参加者も多かった
JubatasとかSparkとか分析環境の話も需要ありそう

INPUTしたらOUTPUT!

忘れっぽいんでメモっとく

第44回R勉強会@東京に参加してきた

前半セッション

導入セッション

テキスト：セグメンテーション

後半セッション

マーケティングサイエンス徹底入門と実践Part2

Jubatusつかってみたよ

Cox Proportional Hazard Model on Azure ML

シリーズ前処理2014 次元削減

LT

TokyoRの話

引用回数Top100にランクインした10の統計論文

これからのRとデータの話をしよう

Rユーザーのためのmコマンド

近況報告

RColorBrewerとcolorRampPalette()で地図描画

この１年間を振り返って

ガチで理系な方に、その相関は間違ってます、と言われたマーケ女子の話