4.1 超解像について

低解像度の画像を高解像度の画像に変換する。 単純に画像を大きくするのではなく、ひずみを抑えて人間が見て自然な画像にするという特徴がある。

ディープラーニングを用いた従来の超解像の手法

SRCNN

SRCNN は超解像にディープラーニングが有用であり、CNNを用いることで速度と品質を達成できることを示した。 バイキュービック補完((目的の解像度まで拡大。まだ低画質)と3層の畳み込み層(特徴マップ、高解像度マップ、高解像度画像を生成)から構成される。

SRCNN の著者は高速化した FSRCNN を発表した。改良点は3点。

SRGAN

SRCNN や FSRCNN はMSE (Mean Squared Error) の最小化に基づく学習であるため、画像の細かい構造を復元できないという欠点があった。 GAN を用いて、入力画像の4倍の画像を出力するのが SRGAN である。MSEに加え、事前学習モデルの特徴量、本物画像と生成画像を識別する識別機に基づく損失関数を用いている。 生成器は4層(入力層、ResNet層、PixelShuffle層、出力層)で構成されている。 識別機は3層(入力層、Block層、出力層)で構成されている。

SRGAN には、生成器の中の BatchNormalization 層が原因で、アーティファクト(本来生成されるべきでないノイズ)が生成されるという問題点があった。