第37回R勉強会@東京に参加してきた
以下資料メモ
3/31(月)資料追加
4/2(水)資料追加
前半セッション
導入セッション
@doradora氏が開発されたアプリ⬇
通販サーチ - Google Play の Android アプリ
まだまだDL、評価少ないのでコメント欲しいとのこと
テキスト
テキストは以下

- 作者: 熊谷悦生,舟尾暢男
- 出版社/メーカー: オーム社
- 発売日: 2008/12
- メディア: 単行本
- 購入: 1人 クリック: 3回
- この商品を含むブログ (8件) を見る
ベクトルのように複数の値が入った変数を比較するときに&&や||を使うと先頭の値のみを比較した結果しか返ってこないので要注意
知らなかった。。。
- 小数の桁を指定する場合は?
- digits()で指定できる
- 作業の履歴を確認したい場合は?
- history()がある
後半セッション
Rによる特徴選択
特徴選択には3種類ある
- フィルター法
- 目的変数と説明変数の相関を見て相関の低い特徴を除外する
- ラッパー法
- 現象を説明する際のモデル
- 遺伝的アルゴリズムとANN(Additionao Neulal Network?)
- 過剰適合が起こってもおかしくない
- 組み込み法
- 過剰適合が起こりにくい
以下のブログが分かりやすいらしい
Random Forestで計算できる特徴量の重要度 - なにメモ(なにかしらのメモ帳)
- randomForestだとカテゴリ数が多い変数が重要と判断されてしまう
- partyの重要度計算の方が遅いけど正確
- CORElearnには40個以上の特徴選択のアルゴリズムが実装されている
- penalizedSVMは収束しないことが多いが特徴量のインパクトの大きさと方向を出せるところが魅力的
- FSelectorとCORElearnパッケージはアンサンブル形式で特徴選択してくれる
連続変数の離散化はパッケージに任せず自分でやった方が良い
- 連続変数の離散化は@sfchaos氏に以下の記事が分かりやすい
これらの変数から重要な変数が分かると思うが、実際にアクションをするにはどうしたら良いか?
- penalizedSVMで正負を見るか回帰分析してみるか
Rで学ぶ離散選択モデル(リベンジ)
Rで学ぶ離散選択モデル from Hiroki Sano
- 多項ロジットは非観測要因の商品間の関係は考慮されていない。
- 車とバスと電車のどれかを選ぶ場合、車がない場合は電車を選ぶといったケースは考慮されない
- Rで多項ロジットモデルを作るにはmlogitパッケージを使用する
- mlogitパッケージにはwide型とlong型がある
離散選択モデルよりも階層ベイズの方が流行っている
説明変数が多い場合は?
Rでお部屋探し
- おとり物件の対応は?重複物件は?
- してない
- 説明変数に距離は入れていない?
- 住所を取得するのが難しかったので入れていない(丁目までしかない)
- 物件個別のページまで行くと取得できるがアクセスが増えて怒られそうなのでやっていない
- 宅配ボックスと温水洗浄トイレの係数が負の理由が不明
- 築年数と多重共線性があるのでは?
- 西はキラキラ女子が多いので東にしたとのことw
LT
Rで分位点回帰
- 分位点回帰だと分布を考慮した回帰直線が引ける。
- Rだとquantregパッケージで分位点回帰できる
- rq(formula, tau, data)
暮らしの中のデータマイニング その1 〜初対面の人に会うとき〜
- 初対面の人に対して精神的に優位に立つためにfirstdateパッケージ作った
- ATNDのTwitterアカウントからつぶやきを取得できる
- 鍵付きのアカウントもTwilogに残っていれば取得できる
- ワードクラウドも作れる
- Macだったらつぶやきを読み上げてくれる
カーネルとSVN
- 2次元で区分できないものもカーネル法を使って高次元に飛ばすと分類可能になる
- kernlabパッケージ内のksvm()
ちょうどカーネル主成分分析を教わったところなので試してみる
ちょっと詳しいmissing dataのはなし
- Rubin's RuleいいよRubin's Rule
今まで欠損値は0埋めか平均値で埋めていたので以下の資料を見て勉強する
Maeshori missing from dichika
Rで3次元嫁を作る方法
- Lintを使うとコーディング規約に従わないコードを検知できる
Google's R Style GuideでLTした自分としては試さないと!
生物成長曲線予測の事例
生物成長曲線予測の事例 from yoshi_flt
rchartsによるインタラクティブな可視化表現
- HighchartsとNvD3がオススメ
- Highchartsの方が安定している
- NvD3はRから渡したデータを全て保持している
久しぶりにR勉強会に参加したけどSIerからの参加者が増えているように感じた。
次回は4/19。大仏様もLTされるとのことなので出席しないと!!