INPUTしたらOUTPUT!

忘れっぽいんでメモっとく

第49回R勉強会@東京に参加してきた

以下メモ


初心者セッション

はじめてのR

  • R歴半年以上が約半分
  • 『みんなのR』、重版決定 & 電子版配信予定(7月)
    • 紙版買って一瞬後悔したけど、電子書籍だとサインもらえない


データハンドリング

  • transform()

    • 一度に複数の列を追加できる
    • 2年間、R使ってて初めて知った orz...
  • dplyrに慣れるとreshape2よりtidyrの方が使いやすいかと


Rで確認しながら解く統計検定2級

  • 統計ファンダメンタリスト = 統計原理主義
  • 参加者の統計検定受験経験(2級以上)、3割くらい

  • 幹葉図

    • 比較的小規模で一番したの桁がそろっているデータに対して使われる
    • 外れ値や最頻値の探索に有効
    • 大まかな分布の形状が把握できる
    • 大規模なデータには適用しない
    • プロットはstem()
  • ローレンツ曲線
  • ポアソン分布
    • 適合度検定
      • 観測されたデータがある分布に従っていると仮定して、本当にその仮定に従っているか検定
      • 検定統計量は x^2=\sum \frac{\left(O-E\right)^2}{E}で与えられる
  • 平均への回帰
    • 極端なことが観測されると、次はよくあることが起こることが期待されるという現象
    • 結果の分布が正規分布のように中央に集まっていることに対して起こる

統計検定2級、復習しなきゃ


応用セッション

こんどこそ pforeach

t.co

t.co

  • iteratorsパッケージ
    • 並列化したとき、必要なデータだけクラスタノードに渡すことができる
  • foreachはある程度自動で変数をexportしてくれるが、うまくいかないときの切り分けが面倒
  • foreachは乱数のseed設定が面倒
  • 並列化のバックエンドはparallelがベスト

    • 今までマルチコアで実行する際はdoMCを使ってたけどparallelに替えようかな
  • バックエンドは指定できる?

    • 指定できない
    • 分散並列化はrhpcの方が良い
  • pforeach = parallel foreach

@hoxo_m氏がLT職人化してた。非常に良かった。見倣いたい。


Rで始める☆文字列処理

  • 基本的にstringrで事足りる
  • NAの扱い方や引数名が統一されていて使いやすい
  • str_c
    • NAをNAとして扱う
    • paste(NA)だと文字列としてNAが返ってくる
> is.na(paste0(NA))
[1] FALSE

これ知らんかった。。。

  • Rで文字列処理するデータ量の目安は?
    • デカいデータは複数ファイルに分割すればできないことはない


以下の記事でも参考にした"Data Manipulation with R"にもstringrは言及されていて今回は飛ばされたstr_length(), str_dup(), str_trim(), str_pad()についても記載されていた。

estrellita.hatenablog.com

文字列の長さはbase::nchar()でも取得できるがpaste()と同じくNAの挙動が不自然なので要注意。

> nchar(c("x","y",NA))
[1] 1 1 2
> str_length(c("x","y",NA))
[1]  1  1 NA


LT

Japan.R開催のお知らせとRでワンライナー

  • 今年もJapan.Rを開催予定
    • 運営手伝い人は@gepuro氏に連絡
  • シェル芸でRを実行できる


Deep Learningでかんたん和式便所探し

  • トイレの画像を手動で収集&タグ付け
  • H2OパッケージでDeep Learning
  • 86%分類できた
  • 誤分類は洗面台が多い


Juliaで前処理

  • JuliaBoxで簡単にJuliaを試せる
  • JuliaでもDataFramesMetaパッケージでdplyrっぽく処理できる


目指せ R脳!


f:id:tak95:20150719070051j:plain

『みんなのR』、サイン頂きました!ありがとうございました。