INPUTしたらOUTPUT!

忘れっぽいんでメモっとく

第42回R勉強会@東京に参加してきた

以下メモ

(9/1 資料追加) (9/2 資料追加)


前半セッション

導入セッション 1

  • 今年のJapan.Rは12/6にフリークアウトで開催予定
    • R, Python, Julia, Excelなどの分析ツールのパネルディスカッションが行われる
  • ファイル読込みはdata.tableパッケージのfreadが高速
  • 特技:花火打ち上げ
    • どのような花火?
      • 花火大会で見るようなもの
        • 1尺くらい?
          • 4号くらい。直径70m


導入セッション 2 データの可視化(ggplot2)

  • 日本語フォントを使用する時はtheme_bw(base_family="Osaka")などのようにする
  • reshape2のmeltをかけてggplot2に突っ込むということをよくやっている
  • Excel使いにRを使わせるには?
    • 横で「Rいいですよぉ」とつぶやき続けて洗脳する
  • 棒グラフで1つの棒だけ色を変えたい場合はどうする?


Rで学ぶデータマイニングⅠ 第18章


はじめようテキスト自動要約

  • 自動要約
    • 与えられた文書に記述された情報から簡潔にまとめた短い文書を自動的に出力すること
  • 現在の研究だと文単位が限界 *「書類が多すぎて全部読んでられないから、要約システム作ってなんとかまとめられない?」
    • 秘書雇った方が安い
  • アンケートのテキスト分析には何を使用したら良い?


パッケージ作成法(RStudio編)

  • Vimによるパッケージ作成法
  • 神=ハドリーをプロットする関数があるw
  • test thatの書き方分かりやすかった!
  • 継続的インテグレーションtravisでできる
    • Githubにコミットすると自動でテストされる
  • 第38回のシリアルパッケージクリエーター所沢氏の資料、密かにアップされてた


データハンドリング系の何か


LT

Rで代数統計

  • ABテストでカイ二乗検定ではダメなケースがある
    • 分割表がスパースな場合
    • 行和や列和が均等でない場合(偏りがある場合)
  • FISHER'S EXACT TESTでもダメなケースがある
    • サンプル数が多い場合
    • 分割表のサイズが大きい場合
  • algstatパッケージを使用すると3次元以上の分割表をMCMCで計算できる
  • がalgstatパッケージは8/30現在CRANから削除されたorz...


Bokete Player の裏側

  • InternetWatchとGIGAZINEに紹介されたのすごい!
  • ShinyにGoogleAnalyticsを仕込める
    • 今度試す


M-1グランプリ 〜前処理の頂点は誰だ!?〜

  • nysol速っ!!


dummiesパッケージ

  • dummiesパッケージ使うと簡単にダミー変数を作成できる
    • caretのdummyVarsより便利そう

  • 初心者セッションがdplyr、ggplot2の紹介となりより実践的になったかも
  • 諸事情により懇親会参加できなかった...
    • 献本争奪戦参加できず残念(>_<)
  • 次回は9/20(土)