INPUTしたらOUTPUT!

忘れっぽいんでメモっとく

Japan.R 2015に参加してきた

以下メモ

LTが多く長くなったので資料に記載されていることは極力メモらない。

(2015.12.15 公開資料追加)


続きを読む

『Python Machine Learning』Chapter.3をRでやってみた(後編)

estrellita.hatenablog.com

の続き。

決定境界を可視化する関数ができたので複数アルゴリズムの決定境界を比較してみる。

scikit-learnのモジュールとcaretのメソッドは一致しないので単純に比較はできないが以下の組み合わせで行なった。

アルゴリズム scikit-leanのパッケージ scikit-learnのモジュール caretのmethod
パーセプトロン sklearn.linear_model Perceptron mlp
ロジスティック回帰 sklearn.linear_model LogisticRegression multinom
サポートベクターマシン sklearn.svm SVC(kernel='linear') svmLinear
カーネルSVM sklearn.svm SVC(kernel='rbf') svmRadial
決定木 sklearn.tree DecisionTreeClassifier rpart2
ランダムフォレスト sklearn.ensemble RandomForestClassifier rf
k近傍法 sklearn.neighbors KNeighborsClassifier knn


続きを読む

『Python Machine Learning』Chapter.3をRでやってみた(前編)

@sfchaos氏がデータサイエンティスト養成読本機械学習入門編の振り返りと補足 - sfchaos blogで紹介している以下の本を写経している。

Python Machine Learning

Python Machine Learning


単純パーセプトロンの解説・実装から始まり、scikit-learnによるクラス分類器の紹介、前処理、次元削減、モデル評価、アンサンブル学習と順を追って機械学習の手法が学べるので良書だと思う。Chapter.3のscikit-learnによるクラス分類器の紹介では以下のアルゴリズム毎にIrisのクラス分類の決定境界をmatplotlibで可視化しており直感的で分かりやすい。

Rでもcaretとggplot2を使用して同じことができそうだったのでやってみた。


続きを読む

"次へ"のURLを取得するにはrvest::follow_linkが便利

検索結果などpaginationされたページをクローリングする際、rvestパッケージのfollow_link()を使うと簡単に"次へ"のURLを取得できるのでメモしとく。


以下は10秒毎に"次の20件"のURLを取得するサンプル

rvest::follow_linkサンプル

某グルメサイトで実行した結果↓

> library(rvest)
> 
> page <- 1
> sesh <- html_session('http://**********/tokyo/')
> Sys.sleep(10)
> repeat{
+   sesh <- tryCatch(follow_link(sesh, "次の20件"), error=function(e)(return(NULL)))
+   message(Sys.time(), ' ', sesh$url)
+   page <- page + 1
+   
+   # "次の20件"がない or 10回進んだらループを抜ける
+   if(is.null(sesh) || page == 10) break
+   
+   Sys.sleep(10)
+ }
Navigating to http://**********/tokyo/rstLst/2/
2015-11-11 08:33:40 http://**********/tokyo/rstLst/2/
Navigating to http://**********/tokyo/rstLst/3/
2015-11-11 08:33:51 http://**********/tokyo/rstLst/3/
Navigating to http://**********/tokyo/rstLst/4/
2015-11-11 08:34:02 http://**********/tokyo/rstLst/4/
Navigating to http://**********/tokyo/rstLst/5/
2015-11-11 08:34:13 http://**********/tokyo/rstLst/5/
Navigating to http://**********/tokyo/rstLst/6/
2015-11-11 08:34:23 http://**********/tokyo/rstLst/6/
Navigating to http://**********/tokyo/rstLst/7/
2015-11-11 08:34:34 http://**********/tokyo/rstLst/7/
Navigating to http://**********/tokyo/rstLst/8/
2015-11-11 08:34:44 http://**********/tokyo/rstLst/8/
Navigating to http://**********/tokyo/rstLst/9/
2015-11-11 08:34:55 http://**********/tokyo/rstLst/9/
Navigating to http://**********/tokyo/rstLst/10/
2015-11-11 08:35:05 http://**********/tokyo/rstLst/10/
> 



  • 某グルメサイト、Webからだと60ページまでしか見れないのか・・・

RでMicrosoft Face APIsを実行する(2)

今から約10年前、
「"いつもここから"に似てますよね」
と言われたことがある。

参照 → いつもここから - Yahoo!検索(人物)


ググって写真を見た第一声が「どっち?」だったことを今でも覚えてる。そんな十年来の疑問に対してFace APIsのVerificatoinで解決を試みたい。


というわけで前回の続き


続きを読む