第54回R勉強会@東京に参加してきた
以下メモ
初心者セッション
10分で分かるR言語入門 ver.2.19
- パッケージを手動で入れるには?
- 社内サーバーなどインターネットにつながっていない場合、ソースを持ち込んでパッケージをインストールする必要がある
- R 3.2.3でcaret入れようとするとnloptrが入らなくて困ってる。。。
- 社内サーバーなどインターネットにつながっていない場合、ソースを持ち込んでパッケージをインストールする必要がある
- 初心者におすすめのサイトは?
- r-wakalang
- Rで処理の進捗が分からない
- dplyrを使うとプログレスバーを表示する機能がある
続 はじめてのR
- loopするモチベーションは?
- 関数のパラメータだけをループで変えて実行する
- SQLにRからクエリパラメータを与えのに効率的に行うには?
- sprintf
- 目的変数が正規分布でない場合、どうすれば良い?
- みどりぼん読め
- 正規分布に近づけるのであればbox-cox変換
2016年上半期版データマエショリスト入門
本日の初心者セッションの発表資料をアップしました。https://t.co/LLdCC9lc51
— Y.Matsumura (@y__mattu) 2016年6月19日
- readr::read_csvはstringAsFactorsの指定が不要
- data.table::freadでdeta.frameとして処理したい場合はdata.table=Falseを指定する
- data.table::freadは文字コードでトラブることが多い
readxl::read_excel
- 爆速、かつ文字コードや日付の処理も完璧にやってくれる
なんで早くなる?
- Rの特徴としてわかりやすくかけるが遅い
- dplyr等はC++で処理しているので速い
- 100テーブルくらいのJOINは可能?
- メモリの制限で落ちるかも
応用セッション
Datascience for me(仮)
- ggrepelパッケージ
- テキストラベルを配置する際に重なりをいい感じで配置してくれる
- githubinstallパッケージ
- パッケージ名だけでgithubからパッケージをインストールできる
- 質の高い睡眠
- 入眠後180分以内の深い睡眠において成長ホルモンが分泌される
- 成長ホルモンは成人の場合、体の修復に関わっている
- 今回は入眠180分居ないの深い睡眠の割合を睡眠の質の指標と定義する
- 寝る直前に筋トレすると交感神経が活発になり、浅い睡眠になる
- 睡眠の質の因子
- 寝る前のブルーライト
- 飲酒
- 運動
- 部屋の明るさ
- 食事のタイミング
- 運動パターンについて1時間単位の歩数データをLDAで5群にクラスタリング
- LDAにはtopicmodelsパッケージのLDA関数を用いる
- 運動パターンと他の因子を併せてrpartパッケージで決定木
- openairパッケージ
- カレンダープロット
BLは制限したほうが良い
- 今後の展望は?
- 新しいツールが出たら試す
- ボットAPI
Rで(当たらない)競馬予想をやってみた
「Rで(当たらない)競馬予想をやってみた」のスライドを公開しました。(SlideShareでは日本語がヌケてしまうので…) https://t.co/XBVlXmYN7m #TokyoR これからは「実況できるデータアナリスト」を目指します。
— data_sciesotist (@data_sciesotist) 2016年6月19日
- トータライザー
- 主観の入らないデータだけの競馬新聞
- 決定木
- 近走で賞金を稼いでいる馬が強い
- 退廃続きからの大逆転というのは滅多にない
- 競馬実況の安定感はんぱない
LT
懇親会LTの資料準備のため資料リンクのみ
Splatoon界での壮絶な戦い & Japan.Rの宣伝
🍣
SpeakerDeckに鞍替えした。#TokyoR LT Sushi https://t.co/hZkS0FYZGr
— 機械の体を手に入れるのよ鉄郎 (@tetsuroito) 2016年6月19日
SeekR Search Trend Report
こちらが資料になります。 SeekR Search Trend Report by @hiratake55 #rseekrtokyor https://t.co/IYmJlL5sYM #TokyoR
— hiratake55 (@hiratake55) 2016年6月19日
よいモデルを選びたい
計算が間に合ったので、本日のLTでLasso関連の話題を提供します。https://t.co/1C1kJO2Cv5 #TokyoR
— kato.kohaku.0 (@kato_kohaku) 2016年6月19日
Rによる単変量データのプロット
www.slideshare.net
- 外れ値検出の目安として使用する散らばりの指標には平均やSDを使ってはいけない
- 外れ値に関しては以前のTokyo.Rにも発表がある
- 外れ値
- 上記の内容は書籍にも整理されている
- 外れ値に関しては以前のTokyo.Rにも発表がある
healthplanetパッケージで体組成データを手に入れて健康な体も手に入れる
www.slideshare.net
- 自己紹介を聞いているとデジタルマーケティングの人が多かった気がする。また層が変わったのかな
- ネタ切れなので飛び込み発表用のネタ作っておかねば
- 筋トレ。。。