第60回R勉強会@東京に参加してきた
以下メモ
初心者セッション
Rによるデータサイエンス 第1部 Rとデータマイニングの基礎
本日の資料です。
— 里 洋平 (@yokkuns) 2017年4月22日
オープンニング:https://t.co/HhPAiMAOd2
初心者セッション1:https://t.co/l4cmAoAslV#TokyoR
- データマイニングとは
- 膨大なデータから宝(情報・知識)を掘り出す技術
- データマイニングの事例
- 商品陳列の最適化
- 不正利用の検知
- 解約の阻止
- R言語の基本
- 1行1式が原則
- 論理演算子
- &と&&、|と||は挙動が異なるので注意
> c(TRUE, TRUE) & c(TRUE, FALSE) [1] TRUE FALSE > c(TRUE, TRUE) && c(TRUE, FALSE) [1] TRUE > TRUE && TRUE [1] TRUE > TRUE && FALSE [1] FALSE
初心者セッション 3 俺、俺。Rだよ
- 都道府県別の犯罪件数を主成分分析しバイプロット
- 東京、大阪、福岡などの大都市が表示される
- 単純に人口が多いから
- 東京、大阪、福岡などの大都市が表示される
- からだが赤く輝くとき、未知のものに立ち向かう勇気と情熱がわいている
- 慌てず 必ず カクニンダー
初心者セッション 2
応用セッション
dplyr再入門
さっきの発表スライドです(再掲)。 #TokyoR
— Hiroaki Yutani (@yutannihilation) 2017年4月22日
基本編(発表してないやつ): https://t.co/NNXwOTe8He
Colwise: https://t.co/AHFSMAXZru
Tidyeval: https://t.co/jzhIIQ4elh
- xxx_each()はdeprecated
- funs()と.で任意の関数が作れる
SE版の関数もdeprecated(select_()など)
lazyevalもdeprecated予定?
- その予定。rlangに移行予定
Rでendogenous stratification
分析課題
- 少人数クラスは学習に効果があるのか
- その効果は元々の学力でどう異なるのか?
以下の書籍の2章を参照

「ほとんど無害」な計量経済学―応用経済学のための実証分析ガイド
- 作者: ヨシュア・アングリスト,ヨーン・シュテファン・ピスケ,大森義明,田中隆一,野口晴子,小原美紀
- 出版社/メーカー: エヌティティ出版
- 発売日: 2013/05/31
- メディア: 単行本
- この商品を含むブログ (1件) を見る
Sampling biasに注意
- 学力が低い学生は意図的に小規模学級に集められる傾向がある
データセット
実務でどのように使用している?
- 広告効果がもともとの購買意欲でどう異なるのかを調べている
ガンマ分布の最尤推定法について
本日の発表資料です。
— N(σ x σ, μ) (@hoxo_m) 2017年4月22日
高速なガンマ分布の最尤推定法についてhttps://t.co/Ct6ubido8X#tokyor
公開スライドはだいぶ端折られているので全編見たい方は会場まで是非!
LT
DockerでRStudio Server + MeCab + tidyverse(+ 日本語)
本日のLT資料はGitHubに置いてあります。初xaringan。https://t.co/tLKu4JhrD5#TokyoR
— Yuya MATSUMURA (@y__mattu) 2017年4月22日
- RStudio Serverの認証はデフォルトOSアカウント&パスワードだと思うんだけどどうしてるんだろ?
rPrefパッケージでパレート非優越ソートとデータ抽出
本日の発表資料です。https://t.co/xTiDYTmKb8 #tokyor
— kato.kohaku.0 (@kato_kohaku) 2017年4月22日
- プライベートでの分析で役に立ちそう
男心をくすぐる女の戦略.R
遅くなりすみません、第60回Tokyo.RでのLT資料です。『遅延価値観数と階層ベイズを用いた男心をくすぐる女の戦略.R』 https://t.co/Jrr0trrpji @SlideShareさんから
— Mr.Unadon (@MrUnadon) 2017年4月23日
- 今日のキスより3日後のキス
- ワクワク感が加算されるため
発表面白すぎてメモとれてなかった。。。資料公開されないかなー
Rによる感情分析
Rによる感情分析 - langstat blog https://t.co/SzagO6P7HH 今日の #TokyoR でLT発表した内容です。
— Yuichiro Kobayashi (@langstat) 2017年4月22日
- 感情分析するためのRパッケージ
- {ditytext}
- {SentimentAnalysis}
クラスター分析におけるクラスタ数の決め方
明日のLT資料ができた。クラスタ数の決め方(Tokyo.r#60) #tokyor https://t.co/DTLPAAxGYd
— データポエマー (@bob3bob3) 2017年4月21日
- クラスタの数は分析者が意思を持って決めるべき
- 上記パッケージの指標は参考に止めること
- 上記の指標でもGIGO(Gabage In Gabage Out: いくら綺麗に分析してもデータが汚かったら分析結果もゴミ)は変わらない
Prophetでお手軽未来予測
- dplyrの文法からビジネス課題の解決など今回も非常に参考になった!
- 次回は5/20 or 5/27
- 絶賛会場募集中