不均衡データの対応時における予測確率調整
不均衡データのクラス分類やPython - 不均衡データにおけるsampling - Qiitaにあるように不均衡データへの対応としては
- algorithm-level approaches
- data-level approaches
の2つがある。
後者のように正例をオーバーサンプリングしたり負例をダウンサンプリングなどしてモデルを構築した場合、モデルから得られる予測確率は母集団の確率とは異なるので調整する必要がある。
が調整方法が分からなかったので調べたのでメモしとく。
以下参考。
ベイズの定理の復習
上記論文に
このうち,任意のプロファイルを持つ案件(例えば 前出の表2(e)列のような案件)に注目する.母集団からモデル構築標本の抽出率がブラック案件とホワイト案件でそれぞれq1xとq2xだったとすると,モデル構築標本のブラック率P'(x→)は母集団のブラック率P(x→) からベイズの定理を用いて次のように表される.
とあるので確率・統計 (17) ベイズの定理(Bayes' Theorem)を写経してベイズの定理の復習。
ある事象 を前提条件として、その条件下で別の事象 が起こる確率は
同様には
変形すると
最初の式に代入すると
全事象が複数の事象に分割されるとした場合、事象は各の和となるので
不均衡データの確率調整
次の図のように母集団が不均衡なデータからブラック・ホワイトの分類モデルを構築するために標本抽出したとする。
- ブラックの抽出率
- ホワイトの抽出率
としてベイズの定理に当てはめると、標本抽出されたという条件下のブラック率 (=モデルから得られる確率)は以下のようになる。
はブラックという条件での標本抽出率なので、同様に、のため
母集団の確率を、標本抽出して構築したモデルから得られた予測確率をとすると
変形すると
となるので抽出率が分かっていればモデルから得られる確率から母集団の確率を推計できる。
常識すぎるのかググり方が悪いのか、あまり情報が見当たらなかった。。。
アップサンプリングした場合はになるけど問題ないかはよく分かってない。
詳しい人いらっしゃいましたらご指摘お願いします。m( )m