深層学習におけるデータセットの増やし方(not拡張)について教えてください。

テーマ、知りたいこと

深層学習における学習データやテストデータの増やし方について教えてください。
Data Augumentation ではありません。

背景、状況

 現在、自己データを用いた「物体検出」タスクに取り組んでいます。まず、ある程度の量のデータを用意して、学習用、テスト用、検証用に分割しデータセットAとします。モデルを学習して評価を行い、モデルの精度が判明しました。

 この後、モデルの精度を向上させたいので、追加でデータを収集しました。新たに収集したデータの量は、前回に比べて少なかったとします。このデータを同じように学習用、テスト用、検証用に分割してデータセットBとします。学習にはデータセットA+Bとしてデータを用いて学習を行い。以下の表の用な結果が出ました(数値は適当)。

学習データA(mAP) 学習データA+B(mAP)
テストデータA 90% 85%
テストデータB 80% 90%
テストデータA+B 85% 80%

 期待していた結果としてはテストデータA+Bでの精度が向上している状態でしたが、期待した結果は得られませんでした。このような結果になった理由としては追加したデータが少なかったため、テストデータA+Bのデータ内のデータセットAのテストデータの比率が高かったことが考えられます。このような場合はテストデータAとテストデータBの比率が同じになるようにするか、そもそも追加するデータの量を前回のデータの量と同じだけ収集することが必要ではないかと考えております。

 このような場合でのデータセットの増やし方を教えていただけませんでしょうか?

コメントを投稿

0 コメント