第52回R勉強会@東京で受付&発表してきた
以下メモ
初心者セッション
10分で分かるR入門
はじめてのR
- CRANのパッケージが7,500超えてた。
- 昨年6月時点では約5,700だったので毎月約90パッケージも増えてるのか・・・
- githubのパッケージも合わせるとどのくらいの頻度で増えてるんだろ
Rによるデータ分析
発表枠が急遽空いたので昨年社内でR啓蒙活動したときの資料で発表させて頂きました。著作権、肖像権などの事情により公開版は自主規制しています。。。
www.slideshare.net
まったくの初心者(自分も勉強中の身ですが)向けの資料なので重回帰では正規分布の仮定や多重共線性の問題などには触れていません。 社内でのRの啓蒙活動の参考になれば幸いです。(結局社内では全くRは普及していませんが・・・)
作成したデータ、Rのコードは以下からどうぞ。
応用セッション
AZURE ML WITH R UPDATES AND TIPS
- アカウントは3種類ある
- ゲスト
- IDの登録すら不要
- 数時間で消える
- 無償アカウント
- データは10GBまで
- 処理時間などに制限がある
- 有償
- ゲスト
- Distributed Machine Learning
- MITライセンス
- Azure Machine Learning Algorithm Cheat Sheet
- クラスタリングはk-meansくらいしかない
- Customizing Neural Network by Net#
- Azure ML上のニューラルネットワークはNET#というDSLでカスタマイズできる
- Using Several Packages on Azure ML
- Rのパッケージを全て網羅されているわけではない
- パッケージの依存関係がやっかい
RからSORACOM APIをあやつる
本日の #TokyoR 発表資料です。
R から #soracom API をあやつる https://t.co/50FVRrcR2G
— kos59125 (@kos59125) 2015, 11月 28
- SORACOM Air
- ユーザー側でコントロール可能なSIM(1枚580円)
- amazonから買うと1枚888円
- 公式サイトで買うと10枚5,800円
- SORACOM Beam
- CPUが貧弱な端末にとって暗号化などがCPU負荷になる
- クラウドにオフロードできる
- CPUが貧弱な端末にとって暗号化などがCPU負荷になる
- SORACOMを使って何をしようとしている?
- 秘密w
- SORACOMにどのようにデータが貯まるか・アクセスできるかなど模索している状態
TVCM、WEBなどメディアミックスの広告最適化事例
- 課題
- TVCM、WEB広告、DMなど様々な広告を間隔で出稿しているため、どの広告がどれくらい効いていたのかが分からない
- 契約者数の推移が周期的に振動しており、広告の出稿量との関係性が分かりにくい
- やったこと
- 契約者数の平滑化
- 曜日の影響を除去するため、7日間の累積値を使用する
- 広告の残存効果
- 広告はその日だけでなく効果が何日か残ると考えられる
- 何日後まで影響があるのか、どのように減衰していくのかをモデルに組み込む
- 契約者数の平滑化
- 複数の原因と結果の因果関係のモデルには、一般的には重回帰を使用する
- 重回帰モデルは説明変数同士が独立であると仮定された手法
- マルチコが発生した場合、一般的には、その変数を外してから再度モデルを作る
- 実際に出稿した広告を除外したモデルにはビジネス的な価値がない
- マルチコを発生させずに重回帰を行なうDATUM STUDIO独自モデルを作った
- 実際に出稿した広告を除外したモデルにはビジネス的な価値がない
- 結果
- 期間を通して自然流入、リスティング広告の効果が高く、TVCMはほとんど寄与していない
- 自然流入はTVCMによって作られたブランド力として丸めた
- 期間を通して自然流入、リスティング広告の効果が高く、TVCMはほとんど寄与していない
以下質疑応答
- バナー広告の効果があがるのはTVCMの効果で、そもそもリスティング広告は加入しやすいユーザーに出稿しているので寄与率が高いのは当たり前みたいな議論にはならないか?
- なる、結局採用には至らなかった
- 説明変数のデータはなに?
- TVCMはGRP、WEB系はコスト
- データの正規化はやっている?
- データによってはやっている
- 正規化するときの指針はある?
- するときはしない、するときは全部する
- 正規化するときの指針はある?
- データによってはやっている
- 元々はTwitterのつぶやきや株価なども検討していた
- つぶやきのキーワードはマルチコしまくって結局1個しか残らなかった
AIDMA - WikipediaやパーチェスファネルにあるようにActionに至るには認知段階、感情段階があり TVCMのようなマス広告は認知してもらうのが目的だと思う。認知してもらって、興味をもって検索して、検索結果に表示されたリスティング広告に反応して購入するという流れとすると、TVCMの効果は小さくてバナー広告の効果が大きくなるのは当たり前の気がする。マス広告が認知にどの程度貢献しているかはどのように計測すれば良いのかな。。。
LT
WACODE@理研和光について
- WACODE::What
- Kashiwa.Rが全身
- WACODEの方針
- 毎回テーマをやや抽象的に提示
- でかくて困ってるデータ解析
- そのままでは使いづらいデータの解析
- 多次元データの解釈
- 毎回テーマをやや抽象的に提示
- 4回目は2016年2月、テーマはData Visualization
カレーなるネットワーク解析
- カレーのアンケート調査をigraphで可視化
ネットワーク分析でこういう見せ方もあるのか。。。非常に参考になった。
反復関数系でフラクタル
フラクタルが成長していく様子をアニメーションさせると面白そう。
「イベントアナウンス:ソフトウェアジャパン2016」と「Rを用いたスパコンの検証実験」
大仏様、トーク使い回し疑惑w
「RからRustの関数をつかう → はやい」と言おうとしたらめっちゃ時間がかかった話
LTの資料です。マサカリお待ちしています。 「RからRustの関数をつかう → はやい」と言おうとしたらめっちゃ時間がかかった話 https://t.co/BLsusCMYLb #TokyoR
— Hiroaki Yutani (@yutannihilation) 2015, 11月 28
- 来週12/5(土)はJapan.R
- 統計数理研究所のデータ解析環境Rの整備と利用 - 2015年度 データ解析環境Rの整備と利用も12/5(土)
- 次回は未定