第60回R勉強会@東京に参加してきた

以下メモ

初心者セッション

Rによるデータサイエンス第1部 Rとデータマイニングの基礎

本日の資料です。
オープンニング：https://t.co/HhPAiMAOd2
初心者セッション１：https://t.co/l4cmAoAslV #TokyoR
— 里　洋平 (@yokkuns) 2017年4月22日

データマイニングとは
- 膨大なデータから宝(情報・知識）を掘り出す技術
データマイニングの事例
- 商品陳列の最適化
- 不正利用の検知
- 解約の阻止
R言語の基本
- 1行1式が原則
論理演算子
- &と&&、|と||は挙動が異なるので注意

> c(TRUE, TRUE) & c(TRUE, FALSE)
[1]  TRUE FALSE
> c(TRUE, TRUE) && c(TRUE, FALSE)
[1] TRUE
> TRUE && TRUE
[1] TRUE
> TRUE && FALSE
[1] FALSE

初心者セッション 3 俺、俺。Rだよ

都道府県別の犯罪件数を主成分分析しバイプロット
- 東京、大阪、福岡などの大都市が表示される
  - 単純に人口が多いから
からだが赤く輝くとき、未知のものに立ち向かう勇気と情熱がわいている
慌てず必ずカクニンダー

初心者セッション 2

応用セッション

dplyr再入門

さっきの発表スライドです（再掲）。 #TokyoR

基本編（発表してないやつ）： https://t.co/NNXwOTe8He
Colwise: https://t.co/AHFSMAXZru
Tidyeval: https://t.co/jzhIIQ4elh
— Hiroaki Yutani (@yutannihilation) 2017年4月22日

xxx_each()はdeprecated
funs()と.で任意の関数が作れる
SE版の関数もdeprecated(select_()など)
lazyevalもdeprecated予定?
- その予定。rlangに移行予定

Rでendogenous stratification

分析課題
- 少人数クラスは学習に効果があるのか
- その効果は元々の学力でどう異なるのか？
以下の書籍の2章を参照

「ほとんど無害」な計量経済学―応用経済学のための実証分析ガイド

作者: ヨシュア・アングリスト,ヨーン・シュテファン・ピスケ,大森義明,田中隆一,野口晴子,小原美紀
出版社/メーカー: エヌティティ出版
発売日: 2013/05/31
メディア: 単行本
この商品を含むブログ (1件) を見る

Endogenouse stratification in randomized experimentsの分析例
Sampling biasに注意
- 学力が低い学生は意図的に小規模学級に集められる傾向がある
データセット
- https://ideas.repec.org/p/boc/bocins/webstar.html
実務でどのように使用している？
- 広告効果がもともとの購買意欲でどう異なるのかを調べている

ガンマ分布の最尤推定法について

本日の発表資料です。
高速なガンマ分布の最尤推定法についてhttps://t.co/Ct6ubido8X #tokyor
— N(σ x σ, μ) (@hoxo_m) 2017年4月22日

混合ガンマ分布
- ガンマ分布が混じった状態
混合ガンマ分布のパラメータ推定
- MCMCだと遅い
- EMアルゴリズムを使用する
  - PRML 9章参照

公開スライドはだいぶ端折られているので全編見たい方は会場まで是非！

LT

DockerでRStudio Server + MeCab + tidyverse(+ 日本語)

本日のLT資料はGitHubに置いてあります。初xaringan。https://t.co/tLKu4JhrD5 #TokyoR
— Yuya MATSUMURA (@y__mattu) 2017年4月22日

RStudio Serverの認証はデフォルトOSアカウント＆パスワードだと思うんだけどどうしてるんだろ？

rPrefパッケージでパレート非優越ソートとデータ抽出

本日の発表資料です。https://t.co/xTiDYTmKb8　 #tokyor
— kato.kohaku.0 (@kato_kohaku) 2017年4月22日

プライベートでの分析で役に立ちそう

男心をくすぐる女の戦略.R

遅くなりすみません、第60回Tokyo.RでのLT資料です。『遅延価値観数と階層ベイズを用いた男心をくすぐる女の戦略.R』 https://t.co/Jrr0trrpji @SlideShareさんから
— Mr.Unadon (@MrUnadon) 2017年4月23日

今日のキスより3日後のキス
- ワクワク感が加算されるため

発表面白すぎてメモとれてなかった。。。資料公開されないかなー

Rによる感情分析

Rによる感情分析 - langstat blog https://t.co/SzagO6P7HH 今日の #TokyoR でLT発表した内容です。
— Yuichiro Kobayashi (@langstat) 2017年4月22日

感情分析するためのRパッケージ
- {ditytext}
- {SentimentAnalysis}

クラスター分析におけるクラスタ数の決め方

明日のLT資料ができた。クラスタ数の決め方(Tokyo.r#60) #tokyor https://t.co/DTLPAAxGYd
— データポエマー (@bob3bob3) 2017年4月21日

クラスタの数は分析者が意思を持って決めるべき
- 上記パッケージの指標は参考に止めること
上記の指標でもGIGO(Gabage In Gabage Out: いくら綺麗に分析してもデータが汚かったら分析結果もゴミ）は変わらない

Prophetでお手軽未来予測

Prophet
- facebookが開発した時系列予測のOSS
exploratoryにProphetを組み込み

dplyrの文法からビジネス課題の解決など今回も非常に参考になった！
次回は5/20 or 5/27
- 絶賛会場募集中

INPUTしたらOUTPUT!

忘れっぽいんでメモっとく

第60回R勉強会@東京に参加してきた

初心者セッション

Rによるデータサイエンス第1部 Rとデータマイニングの基礎

初心者セッション 3 俺、俺。Rだよ

初心者セッション 2

応用セッション

dplyr再入門

Rでendogenous stratification

ガンマ分布の最尤推定法について

LT

DockerでRStudio Server + MeCab + tidyverse(+ 日本語)

rPrefパッケージでパレート非優越ソートとデータ抽出

男心をくすぐる女の戦略.R

Rによる感情分析

クラスター分析におけるクラスタ数の決め方

Prophetでお手軽未来予測

初心者セッション

Rによるデータサイエンス 第1部 Rとデータマイニングの基礎

初心者セッション 3 俺、俺。Rだよ

初心者セッション 2

応用セッション

dplyr再入門

Rでendogenous stratification

ガンマ分布の最尤推定法について

LT

DockerでRStudio Server + MeCab + tidyverse(+ 日本語)

rPrefパッケージでパレート非優越ソートとデータ抽出

男心をくすぐる女の戦略.R

Rによる感情分析

クラスター分析におけるクラスタ数の決め方

Prophetでお手軽未来予測

Rによるデータサイエンス第1部 Rとデータマイニングの基礎