INPUTしたらOUTPUT!

忘れっぽいんでメモっとく

第59回R勉強会@東京に参加してきた

前回は補欠で参加できなかったけど今回は参加できたのでメモしとく。


初心者セッション

10分で分かるR言語入門

  • GROUPONのデータセットが公開されているとのこと(探したけど見つからず・・・)

Coupon Purchase Prediction | Kaggle


データ・マエショリスト入門 データの読み込みから{dplyr}の基本まで

  • data.table::freed()はencoding周りでハマるらしいのでreadrパッケージがオススメとのこと


脱!初心者セッション

  • テキストファイルはRに読み込む前にencodingを確認しましょう


応用セッション

目指せ地理空間データマスター

  • 地理空間情報を取り扱う座標系には次の2つがある
    • 地理座標系
      • 緯度、経度
    • 投影座標系
      • 地球は立体なので2次元で表現すると歪みが生じる
      • 局所的な分析では投影座標系の方が歪みが小さい
  • sfパッケージ
    • Simple Feature for R
      • OGCとISOによって定義された地理データの規格
    • ジオメトリ型が扱える
      • point
      • linestring
      • polygon
    • st_read()でShape形式のファイルが読み込める
      • .shp, .ods, .xlsx
      • geojson
      • postgis
    • spパッケージのSpatialDataFrameをsfパッケージのdata.frameに変換することが可能
    • ggplot2でプロットする場合は開発版を使用すること
  • jpndistrictパッケージ
    • 国土数値情報の行政区域を取得するパッケージ
  • crosstalkパッケージ


ウェブAPIのためのRパッケージ作成の勘所

Rによるスクレイピング入門

Rによるスクレイピング入門


Rによるスパースモデリング

岩波データサイエンス Vol.5

岩波データサイエンス Vol.5


購買データなどmatrixの値がほとんど0(疎行列)なデータのモデリングの話かと思いきやL1正則化(lasso)もスパースモデリングと呼ぶとのこと。 以前、@teramonagi氏が発表されていた5分でわかるかもしれないglmnetでは罰則化を付けるイメージが強かったけど変数の自動選択などにも使えるとのこと。


LT

tidyquantとExploratoryで始める0からのファイナンス計量分析

  • tidyquant:: tq_get()
  • tidyquant::tq_mutate()
    • dplyr::mutate()風にデータを加工
    • 今日の終値 - 前日の終値みたいな計算が簡単にできる


mlrパッケージによる機械学習実践入門

  • mlrパッケージ

    • Machine Learning in R
    • モデル構築、予測、精度評価などの機能を統一的なインタフェースとして提供しているパッケージ
      • caretやscikit-learnみたいなもの
  • 詳しくは以下の書籍11章参照。

データサイエンティスト養成読本 登竜門編 (Software Design plus)

データサイエンティスト養成読本 登竜門編 (Software Design plus)


メタアナリシスで階層ベイズ

岩波データサイエンス Vol.5

岩波データサイエンス Vol.5

スパースモデリングだけでなくメタアナリシスも参考になるとのこと。 stan、復習しないと。。。


KPIと分析と現場

  • セオリー1
    • ボリュームゾーンから攻める
      • 部署で予算を持っている中で、一番売れている製品を狙う
      • 数が多いチャネルを狙う
  • セオリー2
    • 対象を絞ってからKPIを決める
  • セオリー3
    • 購入率が高い人はどのような人なのか?
      • 毎日、試用版にアクセスしている人ほど買う
      • 旧製品を使っていた人も買う
  • セオリー4
    • 1習慣以内の再ログイン率をあげる

アクションに繋がらないデータ分析は意味がない。
データ分析で解決したい課題を明確にし、目標を立てて、分析し、アクションにつなげる
当たり前なんだけど出来ていない。。。見習わないといけないな。


fukuoka.R#07のお知らせと福岡在住2ヶ月のdoradora…

  • 福岡は駅前のスタバに入れる


パッケージを作った(仮)

  • {MlBayesOpt}
    • ベイズ最適化によるパラメータチューニングを楽に書くパッケージ
    • svm(rbfカーネル), ランダムフォレスト(ranger), xgboostに対応


5分でできる範囲で確率分布入門のための確率入門

  • stanなどによる統計モデリングを理解するには確率分布を実感する必要がある

確率論の基礎概念 (ちくま学芸文庫)

確率論の基礎概念 (ちくま学芸文庫)


対応分析入門

対応分析入門 原理から応用まで 解説◆Rで検算しながら理解する

対応分析入門 原理から応用まで 解説◆Rで検算しながら理解する

Applied Correspondence Analysis (Quantitative Applications in the Social Sciences)

Applied Correspondence Analysis (Quantitative Applications in the Social Sciences)

の日本語訳。「Rで〜」というタイトルにすると売れるらしい。そのため原著にはないRによる解説が2/3を占めるとのこと。

以下参考。

質問紙(リッカート尺度)のデータってふつうに分析して大丈夫なのか - StatsBeginner: 初学者の統計学習ノート

KHcoderで対応分析することがあるのだけれどブラックボックス状態なので上記書籍で勉強したい


factorと和解せよ



  • 地理空間情報の処理やAPIによるデータ取得など普段の業務に密接に関連するので非常に参考になった。
  • Kaggle Masterの@Keiku氏と色々お話を伺えて良かった!
  • 運営体制を強化するとのことなので我こそはという方は@yokkuns氏にご連絡を