INPUTしたらOUTPUT!

忘れっぽいんでメモっとく

第48回R勉強会@東京に参加してきた

以下メモ

(2015.06.23)資料追加


前半セッション

10分で分かるR言語入門

  • 転職おめでとうございます!
  • これまでは本気でRやっていなかったのか。。。


続はじめてのR

  • Rのロゴがフラットデザインになった
  • 「はじめてのR」のはじめては5年前
    • 最近の傾向に沿って内容を改訂


後半セッション

Rを極めて個人的な意思決定に活かす

  • jaguchiパッケージ
    • APIを統一インタフェースで呼び出しできる
  • 盆栽 ・・・ 凡才 → bonsAI
  • Rの最新情報は「ぞうさん通信」を読めば大体掴める

  • Face++

    • アジア人は若く判定される傾向がある


R のモデルの扱い方

  • DYM(Did you mean:もしかして?)パッケージがCRANに登録された
  • formula(paste(v, collapse="+"))よりreformulate(v)の方が簡単

↑試してみた

> v <- c("Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width")
> formula(paste0("~", paste(v, collapse="+")))
~Sepal.Length + Sepal.Width + Petal.Length + Petal.Width
> reformulate(v)
~Sepal.Length + Sepal.Width + Petal.Length + Petal.Width

reformulate()便利!


  • formulaはパッケージに異なるが今日の説明はRの仕様に沿ったもの?
    • Rのstatsパッケージに沿ったもの


プログラミング言語Roop

  • 150117tokyorの続き
  • Roopのターゲット層
    • Rは遅いがRcppはハードルが高い人向け
    • MCMCとか反復処理したい人
      • JuliaとかSparkとかと比較してどうなんだろ?
  • Rcpp syntax sugar = 構文糖(糖衣構文)


RユーザのためのSpark入門

  • dplyrを読込むと名前の衝突が起きて面倒なことになる
  • summarizeに注意
    • dplyrではsummarise
  • MLLib
    • クロスバリデーションやハイパーパラメータのグリッドサーチもある
  • 現状はあえてSparkRを使う理由はないとのこと



LT

Github PagesでRPubsにサヨナラ!

  • JekyllでGithub Pages更新、環境整えるの難しいのか。。。


R HTMLでドキュメントを作るのは間違っているのだろうか

  • RStudio 0.99でHTMLタグのコード補完が充実


Rによる特徴抽出

  • 特徴抽出が網羅されてて分かりやすい!
  • FeatureHashingパッケージはオンライン学習でも使える
    • Rでオンライン学習するイメージがないけどできたら便利そう
  • Xgboost、時間切れ残念


俺のオジーがそんなにアホなわけがない(仮)

Rでリーダビリティを計算する

  • FKGL
    • 文章の読みやすさを測るための一般的な指標
  • koRpusパッケージ
    • テキスト解析する際に有用なパッケージ
  • 日本語テキストのリーダビリティは別ツールで計算できる


5分でわかるglmnet

  • glmnet = glm + 愛の鞭
    • 愛の鞭 : 正則化
    • Lasso
    • Ridge
    • Elastic-net
  • glmnetではmatrixにする必要がある
  • glmnetは因子型不可


1億5千万円欲しい (ロト6で遊ぶ)

  • 連続した数字の方が当選したときの金額が大きい
    • 有意差検定してみたい
  • 過去のロト6のデータもアップ頂いているので自分も分析してみよ


規約にまつわるエトセトラ

  • .区切り負けたんだ。。。
  • SASにコーディング規約がないことを最近知った。
    • 誰か作ってくれないかなー
  • 過去記事紹介頂きありがとうございましたm( )m

estrellita.hatenablog.com


データの不備を統計的に見抜く(Gelman's Secret Weapon)

  • coefplot()便利そう
    • 係数の信頼区間が0をまたぐ場合とか見やすい
  • 「みんなのR」買わなきゃ

みんなのR ?データ分析と統計解析の新しい教科書?

みんなのR ?データ分析と統計解析の新しい教科書?


代謝解析練習用データUpした

  • 尿のデータを公開するとかどうしてしまったんや。。。
  • 自分もSmartBandつけて半年くらい経つのでデータ公開してみようかな