第44回R勉強会@東京に参加してきた
みどりぼん最終回のアウトプットができてないけど取り急ぎメモしとく。
前半セッション
導入セッション
導入セッションupしましたー! / 10分で分かるR言語入門 ver2.10 http://t.co/jC5EjrzqBX #TokyoR
— akiaki5516 (@doradora09) 2014, 11月 1
- 今回も初心者ほとんどいなかった
- でも前回の傾向スコアは難しすぎるとのツイートがあった
- 中間の落としどころが難しい。。。
テキスト:セグメンテーション
次の発表資料になります。『セグメンテーションの 考え方・使い方』 http://t.co/Ti6IBnYMSv #TokyoR
— horihorio@新米パパ奮闘中? (@horihorio) 2014, 11月 1
- 年齢性別などの属性系でセグメンテーションする意味はまずない
- マジで!?めっちゃC層とかF2層とかでセグメント分けてたorz
- STP
- Segmentation Basis:消費者の需要を示す変数
- Segmentation Descriptors : 各セグメント市場の属性(性別、年齢など)
- 市場を分割する軸がSegmentation Basis
- マーケティングには需要を直接とらえるSementation Basisが有用
- caretパッケージ
- findCorrelation
- 左にある変数が削除される
- 残したい変数が先にある場合は注意
- findLinearCombo
- 変数が50以上あると無理。自作する必要がある
- findCorrelation
後半セッション
マーケティングサイエンス徹底入門と実践Part2
- STP分析 : マーケティング戦略の立案
- 4P : マーケティング戦術の実行
- 離散選択モデル
- 多項ロジットモデル
- 入れ子ロジットモデル
- プロビットモデル
- 混合ロジットモデル
- McFadden決定係数が0.21から0.23に向上、どう見たら良い?
- 回帰と同じように見て良い
- 実務上では0.2近くでも良い
- tetsuroito氏だったら出さない
- ハロウィンじゃなかったら?
- ハドリーが前処理の全体を説明した論文がある
- 読んでみたらあまり内容がなかった
- mlogit.data()のopposite、符号をひっくり返すだけでは?
- データセットのマイナスの項目を指定している
Jubatusつかってみたよ
さっきの発表資料公開しました。http://t.co/Ge8vX0aU8t #TokyoR ついでに宣伝 http://t.co/tkRboQADhM
— Tohru Kobayashi (@soultoru) 2014, 11月 1
- Jubatasでカラオケのレコメンド作った
- 確率的勾配降下法を使っているのでオンラインで処理できる
- Rのライブラリがまだない
- Jubatasを選んだ理由
- メモリが少なくてすむ
- AWSの最安運用で済ませたかった
- Sparkは選択肢に挙がったが使いこなせそうだった
- コールドスタート問題
- クローリングしている
- 懇親会LT、見逃したので共有されないかな。。。
- 学習の取り消しは出来る?
- 取り消しはない
- レコード単位のデータ削除はできる
- ノードは何台くらい?
- 実は分散していない
- Rのドライバはいつ?
- 年内には作りたい
Cox Proportional Hazard Model on Azure ML
- データの取得はmamlパッケージを使う
- データの取得はML WorkshopにアップロードしたCSVやAzure SQL Database, Azure Storageなどが指定できる
- Azure ML Models
- Classification
- Clustering
- Regression
- Example Data
- kidney
- HDInsightを使うと集計のパフォーマンスを改善できる
- Azure MLはデータ加工については多くはない
- Rを読込めるのでR Script内で処理する
- Rのスケーラビリティは出ている?
- でている
- クラウドだけどどうやってアクセスする?
- Azureの料金体系は?
- 1時間まわして数百円
シリーズ前処理2014 次元削減
- 戦略的データサイエンス入門にCRISP-DMは詳しく書かれている
- KDDプロセス
- 狭義のデータ分析プロセス
- KKD(勘・経験・度胸)ではない
- 次元削減の目的と処理
- テーブル形式or より高次元のデータに対して元々の特徴量から低次元の新たな特徴量を作成
- 代表的な用途は予測モデルやクラスタリングの前処理
- 次元削減の主な手法
- 線形
- 主成分分析
- 非線形
- 局所的な性質を保存
- 再構成の重み
- 局所線形埋め込み
- 再構成の重み
- 大局的な性質を保存
- カーネル法に基づく手法
- 局所線形埋め込み
- ニューラルネットワーク
- Unfolding
- カーネル法に基づく手法
- 局所的な性質を保存
- 線形
- 主成分分析
- 次元削減の代表的な手法
- 多様体学習
- Isomap
- RDRToolboxライブラリ
- カーネル多変量解析
- テンソル因子化法
- rTensorライブラリ
- テンソル因子化法やったらRぶっとんだけどやっぱりPython?
- yes
- テンソルとして持つデータの利点は?
- スパースなデータは利点はない
- スパース名データはlongで持った方がよい
LT
TokyoRの話
先ほどのLTの資料です(まとめが話せなかった)。
#TokyoR
https://t.co/BoUzNNJagt
— NLP勉強会はじめました (@yamano357) 2014, 11月 1
- NLP勉強会参加したいけど家庭内決裁ががが
- 参加者ネットワーク
- 主催者が以外とネットワークから外れてるw
引用回数Top100にランクインした10の統計論文
先ほどのLT資料です。
Tokyo.r #44 lt.pptx #statistics #tokyor http://t.co/wHOfu8yYZd @SlideShareさんから
— siero_悪魔の囁き (@siero5335) 2014, 11月 1
- 11位 カプランマイヤー法
- 病気の生存率だけではなく機械の故障率の比較などにも使われる
- 24位 Cox比例ハザードもデル
- 多変量回帰モデル
- 29位 Statistical methods for assessing agreement between two methods of clinical measurement
- 57位 EMアルゴリズム
- Rubin神
- 58位 メトロポリス法
- 59位 False discovery rate
- 多重比較法、変数が多いときに使われる
- 64位 ダンカンの多重比較検定
これからのRとデータの話をしよう
昨日のLT資料ハッシュタグ漏れてました‥ /20141101 TokyoR LT これからのRとデータの話をしよう #TokyoR http://t.co/TI5oZSyEKY
— 社食・それは夢と希望と現実 (@tetsuroito) 2014, 11月 1
- ガートナー ハイプサイクル2014
- 価値の高いデータ
- 情報量が多い/1レコード
- アクセスログ < 購買データ
Rユーザーのためのmコマンド
LT資料に致命的な誤字を発見したため再アップロードしました。申し訳ありません。修正前の資料は後ほど消去します。
http://t.co/z8JXHADRvl
#TokyoR
— weda_654 (@weda_654) 2014, 11月 1
- 前処理畜(ショチク)
- 自分もこれからショチクと名乗ることにする
- 中間生成物に気をつける必要がある
- パイプで繋げると中間生成物がぽこぽこできる
- csv限定のためtsvやtxtはcsvに変換しなければならない
- サンプルコードの再現が面倒
近況報告
- 起業された
- 本出し過ぎや...
RColorBrewerとcolorRampPalette()で地図描画
LTスライドUPしました. 脱rainbow() http://t.co/kOcoX1Jwo7 #TokyoR
— Yamakita@lab (@Yamakita_lab) 2014, 11月 1
この1年間を振り返って
(代理)所沢さんのLT資料です http://t.co/anSOEGo5ou #TokyoR
— DJchikada (@dichika) 2014, 11月 1
- Japan.Rの登録は既に開始している
- 今年もR Advent Calendarある
- クリスマスには好きな子のブログをスクレイピング
- 元ネタは以下で合ってるのかな?
ガチで理系な方に、その相関は間違ってます、と言われたマーケ女子の話
- 11/29(土)に2014年度統計数理研究所共同研究集会「データ解析環境Rの整備と利用」が開催される
- 今回は懇親会参加者も多かった
- JubatasとかSparkとか分析環境の話も需要ありそう