PyData.Tokyo Meetup #8 -「 Python機械学習プログラミング」発売記念 に参加してきた
で写経した『Python Machine Learning』の日本語版発売記念イベントに参加できたのでメモしとく。

Python機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)
- 作者: Sebastian Raschka,株式会社クイープ,福島真太朗
- 出版社/メーカー: インプレス
- 発売日: 2016/06/30
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (2件) を見る
PyData.Tokyoについて
- 今月からは毎月開催する
Python機械学習プログラミング
- いきなり単純パーセプトロンの実装から始まるのでPython、数学が分からないと挫折する
- プラン1: 速習コース
- 3, 4, 5, 6, 7, 2, 12, 13
- プラン2 特訓コース
- 2, 3, 4, 5, 6, 7, 2, 12, 13
- 10, 11
- 8, 9
第3章 分類問題 - 機械学習ライブラリscikit-learnの活用
- 単純なモデル
複雑なモデル
バイアス
- 予測値が真の値からどれくらい離れているか
- バリアンス
- 予測値がどれくらい散らばっているか
バイアス | バリアンス | |
---|---|---|
単純なモデル | 大 | 小 |
複雑なモデル | 小 | 大 |
第4章 データ前処理 - よりよいトレーニングセットの構築
- sklearn.ensemble.RandomForestClassifierクラスのtransformメソッドはscikit-learn 0.19以降に廃止される予定
- sklearn.feature_selection.SelectFromModelクラスの使用を推奨
第6章 モデルの評価とハイパーパラメータのチューニングのベストプラクティス
- 交差検証はしない方が良いという論文もある
- 交差検証の分割数は10をよく見るがどれくらいが適当?
- データ数による。多ければ10、少なければleave-one-out(1つだけ抜き出す)
- シバタアキラ氏曰く5
- scikit-learnのデフォルトは3
第7章 アンサンブル学習 - 異なるモデルの組み合わせ
- 原著では多数決分類器を実装しているがscikit-learn 0.17からはVotingClassifierが提供されている
PyCharm Professional Edition アクティベーションコードじゃんけん大会
幸運にもじゃんけんで勝ち残ることができました!
最近はPythonでAPIを作成しているので早速使わせてもらいます!!ありがとうございますm( )m
LT
- 懇親会に集中しすぎて聞いてませんでした。。。
いきなり単純パーセプトロンを実装するのはハードルが高いかもしれないけれど以下の記事にもあるように機械学習初学者は単純パーセプトロンから学ぶのが良いらしい。
- 機械学習超入門III 〜機械学習の基礎、パーセプトロンを30分で作って学ぶ〜 - EchizenBlog-Zwei
- 単純パーセプトロンをPythonで組んでみる - 六本木で働くデータサイエンティストのブログ
過去記事でも記載したが順を追ってDeep Learningまで学べるので良書だと思う。
さらに日本語版は監訳者である@sfchaos氏の監注が非常に充実している上に付録まで付いている。試しに章ごとに訳注・監注を数えてみたら以下のようになった。
Chapter | 訳注・監注数 |
---|---|
1 | 39 |
2 | 42 |
3 | 53 |
4 | 28 |
5 | 17 |
6 | 28 |
7 | 22 |
8 | 25 |
9 | 11 |
10 | 20 |
11 | 11 |
12 | 28 |
13 | 27 |
計 | 351 |
付録についても本書を読み進めるために以下の3部が書き下ろされており、監訳者である@shifukushima 氏の熱意というか執念を感じるw
- Jupyter Notebookの基本的な使用方法
- matplotlibによる可視化の基礎
- 行列の固有分解の基礎
機械学習の教科書として周りにも勧めていきたい。