第42回R勉強会@東京に参加してきた
以下メモ
- 第42回R勉強会@東京(#TokyoR) : ATND
- 第42回R勉強会@東京まとめ - Togetterまとめ
- Ustream.tv: ユーザー tokyor_ust: tokyor_ust part1, tokyor_ust part1 . その他
(9/1 資料追加) (9/2 資料追加)
前半セッション
導入セッション 1
R入門(dplyrでデータ加工)-TokyoR42 #r http://t.co/qxczpZk1gm
— 無気力gepuro (@gepuro) 2014, 8月 30
- 今年のJapan.Rは12/6にフリークアウトで開催予定
- ファイル読込みはdata.tableパッケージのfreadが高速
- 特技:花火打ち上げ
- どのような花火?
- 花火大会で見るようなもの
- 1尺くらい?
- 4号くらい。直径70m
- 1尺くらい?
- 花火大会で見るようなもの
- どのような花火?
導入セッション 2 データの可視化(ggplot2)
本日の1つめの発表資料です。ggplot2によるデータ可視化 http://t.co/WwLOOjJupm #TokyoR
— 里 洋平 (@yokkuns) 2014, 8月 30
- 日本語フォントを使用する時はtheme_bw(base_family="Osaka")などのようにする
- reshape2のmeltをかけてggplot2に突っ込むということをよくやっている
- Excel使いにRを使わせるには?
- 横で「Rいいですよぉ」とつぶやき続けて洗脳する
- 棒グラフで1つの棒だけ色を変えたい場合はどうする?
今乃質問、色指定用のダミー列を作ればいいと思います。例えばハイライトしたいやつだけ1にして他を0とするようなダミー列。 #TokyoR
— DJ豚 (@dichika) 2014, 8月 30
- ググったらリンク先のような例もあった
Rで学ぶデータマイニングⅠ 第18章
先ほどの発表資料です。 スクリーンだと折れ線グラフが見えにくかったらしいので、ちょっと工夫すれば良かった http://t.co/QQYBd6v1Xx #TokyoR
— 里 洋平 (@yokkuns) 2014, 8月 30
- 棒グラフの原点は0であるべき
- 全体に対するインパクトを確認する
- 自分もだけどデータがあるとつい全体を忘れてしまう。。。
- 持っているデータが全体のどれだけを占めているか意識しないと…
はじめようテキスト自動要約
#TokyoR
今日の発表用資料です。
http://t.co/1TfcrA0DSN
— yamano357 (@yamano357) 2014, 8月 30
- 自動要約
- 与えられた文書に記述された情報から簡潔にまとめた短い文書を自動的に出力すること
- 現在の研究だと文単位が限界
*「書類が多すぎて全部読んでられないから、要約システム作ってなんとかまとめられない?」
- 秘書雇った方が安い
- アンケートのテキスト分析には何を使用したら良い?
- MeCabなどで形態素解析してワードクラウドなどで見せる
- KH Coder Index Pageだと共起ネットワークやデンドログラムが簡単に作れて便利
- MeCabなどで形態素解析してワードクラウドなどで見せる
パッケージ作成法(RStudio編)
本日の資料です。 RT 東京R非公式おじさんが教える本当に気持ちいいパッケージ作成法 on @slideshare http://t.co/zBp02rLrnN @SlideShareさんから #TokyoR
— テラウナギぃ (@teramonagi) 2014, 8月 30
Vimによるパッケージ作成法- 神=ハドリーをプロットする関数があるw
- test thatの書き方分かりやすかった!
- 継続的インテグレーションはtravisでできる
- Githubにコミットすると自動でテストされる
- 第38回のシリアルパッケージクリエーター所沢氏の資料、密かにアップされてた
データハンドリング系の何か
代理で昨日の所沢さんの発表資料をアップします http://t.co/WRLiGIocd4 #TokyoR
— DJ豚 (@dichika) 2014, 8月 31
- %>%
- Linuxのpipe(|)みたいに繋げて処理できる
- %T>%
- チェインの処理結果を変数にも格納する
- http://d.hatena.ne.jp/dichika/20140731
- :=
- Compound assignment operator
- http://d.hatena.ne.jp/dichika/20140730
- pipeRパッケージの%>>%
- %>%より速い
- 上記の3つが全部できる
- でもあまり話題になっていない
- renkun君ガンバレ!
LT
Rで代数統計
本日のLTです。Rで代数統計 #TokyoR http://t.co/RLBuwIhcLO
— motivic (@motivic_) 2014, 8月 30
- ABテストでカイ二乗検定ではダメなケースがある
- 分割表がスパースな場合
- 行和や列和が均等でない場合(偏りがある場合)
- FISHER'S EXACT TESTでもダメなケースがある
- サンプル数が多い場合
- 分割表のサイズが大きい場合
- algstatパッケージを使用すると3次元以上の分割表をMCMCで計算できる
- がalgstatパッケージは8/30現在CRANから削除されたorz...
Bokete Player の裏側
本日3番目の LT の資料です #TokyoR http://t.co/eJTScyS8YE
— hoxo_m (@hoxo_m) 2014, 8月 30
- InternetWatchとGIGAZINEに紹介されたのすごい!
- ShinyにGoogleAnalyticsを仕込める
- 今度試す
M-1グランプリ 〜前処理の頂点は誰だ!?〜
代理投稿。資料をUPしました!
データサイエンティスト必見!
M-1グランプリ
〜前処理の頂点は誰だ!?〜 #tokyoR
http://t.co/5NsO65sm34
— Teruo Kawasaki (@teruu) 2014, 8月 30
- nysol速っ!!
- 速いとは聞いていたけどベンチマークは貴重な気がする
dummiesパッケージ
先日のLTをアップロードさせていただきます。 #TokyoR http://t.co/IUlNFgthdW
— weda.654 (@weda_654) 2014, 9月 1
- dummiesパッケージ使うと簡単にダミー変数を作成できる
- caretのdummyVarsより便利そう
- 初心者セッションがdplyr、ggplot2の紹介となりより実践的になったかも
- 諸事情により懇親会参加できなかった...
- 献本争奪戦参加できず残念(>_<)
- 次回は9/20(土)