SRCNN の推論フェーズについて

挨拶

初めまして。現在、研究で画像解析を行っているのですが、CNNを用いた超解像について質問させてください。

やっていること

現在、自然現象の画像解析を行っており、元々撮影された動画のピクセル数をSRCNNを使用してアップさせたいというモチベーションがあります。
ピクセル数をアップさせたいというのは、例えば 256×256 pixels の動画を 512×512 pixels にアップスケーリングしたいということです。

SRCNNを使用した基本的なステップとしては、

  1. 動画をフレームごとに切り出し、scale2で低解像度画像を生成
  2. 低解像度画像とオリジナル画像(どちらも256×256 pixesl)を用いて、SRCNNの重みを学習
  3. モデルに低解像度画像を通して、超解像画像を生成(256×256 pixesl)

---超解像画像がバイキュービック補完などで生成された画像よりもPSNR等の評価指標で成績が良ければ学習終わり---------
4. 訓練データ以外のテストデータで検証

という流れだと思います。

ここで疑問なのが、最終的なアウトプットである超解像画像の解像度は 256×256 pixesl のままということです。
目的は 256×256 pixesl のオリジナル画像から、512×512 pixesl のアップスケーリングされた画像を生成することです。
そこで、オリジナル画像をバイキュービック補完を用いて2倍の512×512 pixesl にアップスケーリングし、学習済みのモデルで超解像化することで、512×512 pixesl の超解像化された画像を生成しようと考えています。

この考え方は正しいのでしょうか?

補足:SRCNNを最初に提案した論文も読んだのですが、結局やっていることは、オリジナル画像と同じ解像度の超解像度画像を生成することだと思います。
これだと、オリジナル画像は元々知っているので、同じ解像度に超解像度化するモチベーションがどこなのかがわかりません。
この部分が疑問です。

初学者 & 初質問で、駄文ですがご回答いただければ幸いです。

コメントを投稿

0 コメント