パラメータ調整時のオーバーサンプリングについて質問いたします.
現在,データ数5000,クラス数25程度のデータに対してランダムフォレストによる多クラス分類を行っています.データ数が10から1000とクラス間にばらつきがあるため,SMOTEの適用を考えています.
初めにデータを各クラス均等な割合になるよう学習データとテストデータに分割しました.さらに,パラメータ調整のため,交差検証の各foldで学習データを "検証用学習データ" と "検証用テストデータ" に分割しました.
このとき,検証用学習データのみにオーバーサンプリングし,検証用テストデータには基本行わないということは理解しました.
しかし,仮に検証用テストデータにもオーバサンプリングを適用し,オーバサンプリングを適用しなかったときに比べて,パラメータ調整後のテストデータに対する予測精度が向上しているのであれば,検証用テストデータにもオーバサンプリングを適用して良いように思えてしまいます.(実際F値が0.02増加していることが確認できました.)
このようなケースであっても,検証用テストデータにオーバサンプリングは適用すべきではないのでしょうか?
水増した仮想データを含んでいるため,精度が上がっていても不思議ではないのかもしれませんが,整理しきれなかったため,質問させていただきました.
ご回答のほどよろしくお願いいたします.
0 コメント