Japan.R 2014に参加してきた
以下メモ
choroplethrパッケージでコロプレスマップを簡単作成
アリさんの資料です。 http://t.co/VvytqbjCBN #japanr
— オールユーニードイズダイエットテラモナギ (@teramonagi) 2014, 12月 6
- choropleth = 色塗りマップ
- USの以下の3種類の色塗りマップを作成できる
- 州
- 郡
- 郵便番号(choropleth mapではなく散布図)
- デフォルトは7段階で色塗り
カスタマイズ
- title … グラフタイトル
- legend ... 凡例
- zoom ... 特定の州(or 郡?)に拡大表示
- bucket ... スケール。2だと中央値で分割。1だとグラデーション
インストールはgithubから?
- 巨大になりすぎて2つに分けた
- choroplethr ... CRANから
- choroplethrMaps ... 来週あたり最新版をGithubからインストールできるようになる
- 巨大になりすぎて2つに分けた
- 自分のデータを使うことは出来る?
- Creating Your Own Maps参照
- townレベルのシェイプファイルをRでplotするのは難しい
- Creating Your Own Maps参照
- インタラクティブにする予定はある?
- ggplot2に依存していて今はできない
- 将来的にはグラフィックスライブラリ(ggviz, rCharts, rMap)を切り替えたい
データサイエンスエコシステム:オプトデータサイエンスラボの取り組み
- 計算が現実を変える
- タキサン系抗がん剤の耐性克服薬の発見
- ハウス・オブ・カード 野望の階段 - オフィシャルサイト
- 自分も社会を変えるような計算・分析をしたい → できるようにならなきゃ
コンペの傾向
コンペをどうマネタイズする?
- ビジネスとして成り立たないことは分かっていた
- 分析やってますでは差別化できないので始めた
- 業界を盛り上げられればいいかな
- データシミュレーションの展望
- 気象データはちゃんと使わないとダメじゃないの?
Deep Learningと他の分類器をRで比べてみよう
本日のスライドupしました / Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014 #datasci #machinelearning #japanr http://t.co/3S7Gah0bu2
— TJO (@TJO_datasci) 2014, 12月 6
- Deep Learningは元々実装する人向け
- 過学習を抑え、特徴表現を強化した多層Neural Network
- 層が深い方が、必要なパラメータ数が少なくて済むという理論
- 汎化を支える技術
- pre-training
- dropout
- 昨年のKDDで理論化の試み
- ConvNet
- 今の花形
- Deep Learningの実装
MNISTで試してみた
- Rでplotするコードはstackoverflowに転がっている
- 精度を上げるにはConvNetを使うしかない
時間はどれくらい?
- 8core,64bit, 32GB
- Kaggle本番 200回繰り返し 6時間
- 繰り返し数、次元数、隠れ層、ユニット数次第
- 実際にDeep Learningを使う予定はある?
- アドテクで使う検討はしている
- バッチでしか回らない課題がある
Machine Learning @ FreakOut (仮)
- 2400億/月のリクエスト
- 数百台規模のHadoopクラスタをオンプレミス(一部AWS)で運用
フリークアウトにおけるデータサイエンスの取組
意思決定を早く回すための工夫は?
- 全ての人が分析からエンジニアリングに理解があることが重要
- hivemallを本番で使ってみての感想は?
- freakoutのデータセットでは厳しい
- 処理時間的に厳しい
- データが大きすぎてhashingで衝突している
- freakoutのデータセットでは厳しい
- ABテストのスパン、例
- 多いのは1週間分を流して比較する
- 1つのアルゴリズムで3%から5%のデータを使う
- ハッシュ化などハードで解決する予定はある?
- 今後検討したい
- 一度宿泊したホテルが何度も表示されてしまう
- 購入した商品をレコメンドから外すことは当然できる
- 旅行では予約した旅館はレコメンドから外すが周辺のホテルはレコメンドされるロジックかも
- freakoutのシェア
- 検索結果とYahoo!以外はリーチできている
- スマートフォンの割合は?
- 3割くらい
- クロスデバイス(PCで閲覧した人とモバイルで閲覧した人の紐付け)はやっている?
- 一部やっている
- 広告主からログイン情報を預かる
- 推定でマッチングする
言語ディスカッション
- PowerPointVBAを使っている人が1人w
- rvest勉強しなきゃ
- Excelのバージョンで結構苦労している
- 2010/2013からのPowerPivot/BIはバージョンによって使えなくなることはない
- Juliaの方がバージョン違いで苦労する
- ソースコード管理はどのように?
この先生き残るには何を使うべき?
- sparkなどのHadoopエコシステム
バージョン管理はsubversionやgitで問題ないと思うけどチームでの作業はどのようにしているんだろう?
LT大会
@Azure MLの中の人
- Azure ML、クラウド上で分散して処理されるらしいけどRの分散して動作するのかな?
- 第44回でもAzure MLの発表あったけど資料がアップされないな。。。
SparkRを使ってみた
昨日のLTでの発表資料をupしました
http://t.co/2k3AgAWwn7
#japanr
— じょんすみす (@__john_smith__) 2014, 12月 6
- SparkRはspark1.3くらいで正式にサポートらしい
R書籍
- ふさふさになってた!!
- 全部立ち読みw
- 自分はまだ上級者とは言えないけど今年購入したR本では"Rによるハイパフォーマンスコンピューティング"が一番役立っている
- 作者: 福島真太朗
- 出版社/メーカー: ソシム
- 発売日: 2014/09/24
- メディア: 単行本
- この商品を含むブログを見る
- クリスマスプレゼント
LTでのクリスマスプレゼントです。
http://t.co/xEkrL5EbVA
— YF@28(日)東テ29a (@Med_KU) 2014, 12月 6
AKB18
- 「Jubatus使ってみたよ」
- Rで実装してしまって後に入ったSEに怒られるw
地方でデータと課題とRユーザーを集める
- Kobe.Rはじめました
- 分析相談会みたいにしたら人とデータが集まるようになった
mecab.jlを作った
先ほどのLT資料です #JapanR #julia #julialang http://t.co/l3E9dfobR2
— chezou (@chezou) 2014, 12月 6
- RMeCabはCだったw
Rで高次元データの可視化
- スイスロールデータを可視化
- 主成分分析や自己組織化マップなどではうまくいかない
- isomap, lle, diffusion map, gtm
絶対に作ってはいけないグラフ
皆様お疲れ様でした。絶対に描いてはいけないグラフ入りスライド24枚(LTで使ってないフルバージョン)については、頂いたコメントをフィードバックしたいということもあるので、修正の上アップロードする予定です。多分(いろんな組織がバンバン出てくるので結構躊躇している)。 #japanr
— いとーちゃん (@ito_yan) 2014, 12月 7
- 3D円グラフ
- 分割しすぎた円グラフ
- 割合を書かないドーナツグラフ
- 複数カテゴリのある3d棒グラフ
- 意図的によく見せようとするグラフ
- 正確な数値が読めないグラフ
- そもそも数値とグラフが一致しない
声に出したいR語録
- why are you using sjis?w
ハイレゾの話
- 先日、Xperia Z3に機種変したけどハイレゾの恩恵まだ受けていないや。。。
- 変数間の相関が酷いのでPSL GLMでCD買う価値があるか判別するモデルを作成した
- 買う価値があるか判定するには結局CD買ってモデルに当てはめないといけないのかな?
- m?からダウンロードするとかしないとか
RFinanceJ始めました
さきほどの資料です RT RFinanceJ はじめました by @teramonagi http://t.co/Wifrkpudcs @SlideShareさんから #japanr
— オールユーニードイズダイエットテラモナギ (@teramonagi) 2014, 12月 6
- RFinanceYJは動かない
- quandlパッケージ使うべし
- 提供データ | 本システムについて | 次世代統計利用システム使ってみたいけどデータリスト取ってくるだけで重くてちゃんと試せてない。。。
- 今年も非常に参考になった!
- 最近パネルディスカッションて流行ってるの?
- 家庭の事情で懇親会に参加できず残念。。。