INPUTしたらOUTPUT!

忘れっぽいんでメモっとく

第37回R勉強会@東京に参加してきた

以下資料メモ

3/31(月)資料追加
4/2(水)資料追加


前半セッション

導入セッション


@doradora氏が開発されたアプリ⬇
通販サーチ - Google Play の Android アプリ
まだまだDL、評価少ないのでコメント欲しいとのこと

  • C++使う理由は?
    • Googleの人ではないので分からないが高速化と思われ
  • メモリの制限があるの?
    • Rは基本オンメモリ。ビッグデータを扱う場合は別途パッケージを使用する必要がある。Rで試してみてHadoopで回すみたいな使い方。


テキスト

テキストは以下

Rで学ぶデータマイニング〈1〉データ解析編

Rで学ぶデータマイニング〈1〉データ解析編

ベクトルのように複数の値が入った変数を比較するときに&&や||を使うと先頭の値のみを比較した結果しか返ってこないので要注意

知らなかった。。。

  • 小数の桁を指定する場合は?
    • digits()で指定できる
  • 作業の履歴を確認したい場合は?
    • history()がある


後半セッション

Rによる特徴選択

特徴選択には3種類ある

  • フィルター法
    • 目的変数と説明変数の相関を見て相関の低い特徴を除外する
  • ラッパー法
    • 現象を説明する際のモデル
    • 遺伝的アルゴリズムとANN(Additionao Neulal Network?)
    • 過剰適合が起こってもおかしくない
  • 組み込み法
    • 過剰適合が起こりにくい


以下のブログが分かりやすいらしい
Random Forestで計算できる特徴量の重要度 - なにメモ(なにかしらのメモ帳)

  • randomForestだとカテゴリ数が多い変数が重要と判断されてしまう
  • partyの重要度計算の方が遅いけど正確
  • CORElearnには40個以上の特徴選択のアルゴリズムが実装されている
  • penalizedSVMは収束しないことが多いが特徴量のインパクトの大きさと方向を出せるところが魅力的
  • FSelectorとCORElearnパッケージはアンサンブル形式で特徴選択してくれる
  • 連続変数の離散化はパッケージに任せず自分でやった方が良い

  • これらの変数から重要な変数が分かると思うが、実際にアクションをするにはどうしたら良いか?

    • penalizedSVMで正負を見るか回帰分析してみるか


Rで学ぶ離散選択モデル(リベンジ)

  • 多項ロジットは非観測要因の商品間の関係は考慮されていない。
    • 車とバスと電車のどれかを選ぶ場合、車がない場合は電車を選ぶといったケースは考慮されない
  • Rで多項ロジットモデルを作るにはmlogitパッケージを使用する
    • mlogitパッケージにはwide型とlong型がある
  • 離散選択モデルよりも階層ベイズの方が流行っている

  • 説明変数が多い場合は?

    • stepwiseを使用するとAICを見ながら選択してくれる
    • ベイズよりも二項ロジット・多項ロジットの方が示唆が得られやすい


Rでお部屋探し


LT

Rで分位点回帰

  • 分位点回帰だと分布を考慮した回帰直線が引ける。
  • Rだとquantregパッケージで分位点回帰できる
    • rq(formula, tau, data)


暮らしの中のデータマイニング その1 〜初対面の人に会うとき〜

  • 初対面の人に対して精神的に優位に立つためにfirstdateパッケージ作った
  • ATNDのTwitterアカウントからつぶやきを取得できる
    • 鍵付きのアカウントもTwilogに残っていれば取得できる
  • ワードクラウドも作れる
  • Macだったらつぶやきを読み上げてくれる


カーネルSVN

  • 2次元で区分できないものもカーネル法を使って高次元に飛ばすと分類可能になる
  • kernlabパッケージ内のksvm()

ちょうどカーネル主成分分析を教わったところなので試してみる


ちょっと詳しいmissing dataのはなし

  • Rubin's RuleいいよRubin's Rule

今まで欠損値は0埋めか平均値で埋めていたので以下の資料を見て勉強する


Rで3次元嫁を作る方法

  • Lintを使うとコーディング規約に従わないコードを検知できる

Google's R Style GuideでLTした自分としては試さないと!


生物成長曲線予測の事例


rchartsによるインタラクティブな可視化表現

  • HighchartsとNvD3がオススメ
    • Highchartsの方が安定している
    • NvD3はRから渡したデータを全て保持している



久しぶりにR勉強会に参加したけどSIerからの参加者が増えているように感じた。
次回は4/19。大仏様もLTされるとのことなので出席しないと!!