スケッチ画像に基づいた画像の生成と編集

趙宰亨

Date: 2020 年 2 月 4 日

1 はじめに

近年、Web上のブログやTwitterとInstagramのようなソーシャルネットワークサービス（SNS）などに大量の画像がアップロードされている。ユーザーはWeb上に画像をアップロードする時、より魅力的な画像をアップロードしたいから、または様々な目的で魅力的な画像を作りたいと考える。そのように画像を魅力的に作るために、元画像を編集したり、異なる画像を用いて画像を合成する場合がある。しかし、そのような画像を編集または合成する作業は熟練した画像編集のスキルと多くの時間を必要とする難しい作業である。一方近年、深層学習の発展により様々な研究やタスクの精度が飛躍的に向上された。特に深層学習を用いたGAN(Generative Adversarial Networks)[1]という高品質の画像生成や変換する強力なフレームワークの登場により、様々な画像生成や変換に関する研究が盛んに行い、画像生成技術が大幅に改善され、より高品質の画像を生成することができるようになった。本研究では、GANのネットワークを基にしたImage-to-image変換ネットワークを使用して、ユーザーがスケッチしたマスク画像を基にして各要素の形状を制御したリアルな画像生成を行う。しかし、生成結果がユーザーが希望するスタイルと違う画像が生成され、生成画像のスタイルが制御できない問題がある。そのため、各要素のスタイル特徴を抽出するStyle encoderを追加することで、スタイルを反映した画像生成を行う。

2 関連研究

GANは正規分布などの潜在変数をサンプリングして画像を生成するが、生成画像を制御ができない。Conditional GAN(cGAN)[2]は、GANの構造に条件を付与して生成画像を制御ができるようになった。Image-to-image変換はcGANの構造にEncoderを追加することで、画像変換ができるようになった。Pix2pix[3]は、Encoder-Decoder構造とペアの画像データセットを用いて画像変換手法を提案した。Pix2pixHD[4]は、Pix2pixを改良して、高解像度の画像変換するネットワークを提案した。SPADE[5]は、正規化レイヤーを改良することでリアルな画像生成を実現した。

3 手法概要

本研究では、スケッチした画像を基にしてリアルな画像の生成することを目的として、スケッチ画像から画像生成とスタイル画像からスタイルを抽出し、スタイルを考慮する画像生成を行う。本研究の概要は、以下のようになっている。

データセットの作成
スケッチ画像を基にした画像生成
マスク画像の作成
スタイルの抽出とスタイルを考慮した画像生成

本研究の概要は図1に示す。

**Figure 1:** 本研究の概要図

1 データセットの作成

過去、SNSに収集したラーメン画像の中で555枚の各要素ごとに領域分割し、実画像とマスク画像で構成されたデータセットを作成した。また、各タスクの学習には500枚の画像を使用した。

**Figure 2:** ラーメン画像のデータセットの例 (上：元画像、下：各要素を領域分割したマスク画像)

2 スケッチ画像を基にした画像生成

スケッチ画像を基にした画像生成にはpix2pix[3]とSPADE[5]の手法を用いてスケッチしたマスク画像からリアルな画像の生成を行った。Pix2pixは、2つの画像ドメインのペアになった画像からドメイン間の関係を学習し、ドメイン間の画像変換をする手法である。SPADEは、正規化する時に情報が損失されることを防ぐ、意味情報を効果的に伝播する条件付き正規化レイヤーを提案して、より詳細な部分の画像生成も可能になる。

3 マスク画像の作成

マスク画像の作成では、2つの方法がある。1番目は、ユーザーが直接にスケッチした画像からマスク画像を作成する。2番目は、DeepLab V3+[6]を使用して、入力画像の各要素を領域分割してマスク画像を作成する。

4 スタイルの抽出とスタイルを考慮した画像生成

1 Style Encoder

スケッチ画像を基にして生成した画像のスタイルを制御するためにStyle encoderを作成する。スタイルを抽出する方法としては、図3のような流れである。まず、スタイルに使用する画像をConvolutionレイヤーとTransposed convolutionレイヤーのencoderに入力して、入力画像の特徴マップを取得する。その後、入力画像に対応するマスク画像のサイズを調整し、特徴マップと組み合わせてMask Average Poolingを行い、各要素ごとのスタイル特徴を抽出する。

Mask Average Poolingについては、まず、スタイル画像から特徴マップ取得し、マスク画像を特徴マップのサイズと同様になるようにマスク画像を調整する。次に、図4の流れのように、各要素ごとのスタイル特徴マップとマスク画像の各要素ごとのセマンティックラベルマップを掛け算することで、マスキングされた特徴マップを取得する。その後、マスクピクセル数を持って特徴ごとに平均を計算する。最後に、特徴を足し算することでスタイル特徴を抽出することが可能である。

**Figure 3:** Style Encoderの構造図

**Figure 4:** Mask Average Poolingの流れ図

2 GeneratorとDiscriminator

Generatorはスタイルを考慮した画像生成をするために、Style encoderから抽出されたスタイル特徴と改良したSPADE[5]のNormalizationを用いてGeneratorの学習を行う。具体的な方法として、Generatorと残差ブロックの構造は既存の手法と類似だが、図5のようにNormalization構造をスタイル画像とマスクから抽出した要素ごとのスタイルとマスク画像を連結して正規化を行うように改良する。これにより、各要素の領域情報とスタイル情報をGeneratorに入力することができるので、既存の手法では難しかった各要素ごとのスタイルを制御することが可能になり、各要素のスタイルを考慮した画像生成ができるようになる。 Discriminatorは既存手法であるSPADEに使用した各レイヤーごとにをInstance normalization適用し、Spectral normalizationを使用するMulti-scale Discriminatorを用いてネットワークの学習を行う。

**Figure 5:** Style EncoderとSPADE Normalizationを組み合わせた構造図

4 実験

実験では、実験は1つのスタイル画像を用いた画像生成、特定の画像から抽出したスタイルを考慮した画像生成、複数の画像から抽出したスタイルを考慮した画像生成の実験をおこなった。各実験結果は図 6、図 7、図 8に示す。本実験により、従来手法では難しかったスタイルを考慮した画像生成が可能であることが確認できた。また、複数の特定の画像から必要なスタイル特徴を抽出し、そのスタイル特徴の組み合わせを用いた画像生成も実現した。

**Figure 6:** 1つのスタイル画像を用いた画像生成の結果

**Figure 7:** 特定の画像から抽出したスタイルを考慮した画像生成の結果

**Figure 8:** 複数の画像から抽出したスタイルを考慮した画像生成の結果

5 おわりに

本研究では、GANを基にしたimage-to-image変換ネットワークを用いて、簡単に画像を編集・生成ができるシステムを構築した。また、新たにStyle Encoderを作成してスタイルを考慮した画像生成を実現した。今後、様々なデータセット(顔、ファッションなど)を学習して、スタイルを考慮した画像生成を行う予定である。

Bibliography

1

I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio.
Generative Adversarial Nets.
In Proc.of Advances in Neural Information Processing Systems, 2014.

2

M. Mirza and S. Osindero.
Conditional Generative Adversarial Nets.
arXiv:1411.1784, 2014.

3

P. Isola, J. Y. Zhu, T. Zhou, and A. A. Efros.
Image-To-Image Translation With Conditional Adversarial Networks.
In Proc.of IEEE Computer Vision and Pattern Recognition, 2017.

4

T. C. Wang, M. Y. Liu, J. Y. Zhu, A. Tao, J. Kautz, and B. Catanzaro.
High-Resolution Image Synthesis and Semantic Manipulation With Conditional GANs.
In Proc.of IEEE Computer Vision and Pattern Recognition, 2018.

5

T. Park, M. Y. Liu, T. C. Wang, and J. Y. Zhu.
Semantic Image Synthesis With Spatially-Adaptive Normalization.
In Proc.of IEEE Computer Vision and Pattern Recognition, 2019.

6

L. Chen, Y. Zhu, G. Papandreou, F. Schroff, and H. Adam.
Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation.
In Proc.of European Conference on Computer Vision, 2018.