saguar1

YANAI Lab.

電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介  

単一ネットワークによる複数タスクの組み合わせ学習

武田 麻奈


Date: 2020 年 02 月 14 日


1 はじめに

Deep Convolutional Neural Network (CNN) は,様々な画像変換タスクで大きな成功を収めている. これらのSingle Task Learningでは,1つのネットワークで1つのタスクを実行する. それに対して,Multi Task Learning (MTL) では,1つのネットワークで複数のタスクを実行する. そのため,複数タスクを同時に実行する実際のアプリケーションではMTLが望ましい. しかし,現在提案されているMTLのモデル [1,2]では,タスクごとにDecoderやネットワークの一部を入れ替える必要があるため,タスク数の増加によってネットワークが大きくなる問題がある. それに対して,単一ネットワークによる複数タスクの学習は,ネットワークのサイズがタスク数に依存しない. よって本研究では,単一ネットワークによる,複数の画像変換タスクの学習を1つ目の目的とする. 具体的には,条件付きアフィン変換を形式化したFeature-wise Linear Modulation (FiLM)  [3,4]を用いる. また,FiLMの特性を生かし,Style Transferにおける複数スタイルの組み合わせを可能にしたDumoulinらの研究 [5]に着想を得て,単一ネットワークによる複数の異なる画像変換タスクの組み合わせ学習を2つ目の目的とする. 組み合わせ学習は,さらなるメモリや計算時間の節約に繋がるという利点がある.

2 関連研究

Sym-parameterized Generative Network(SGN)[6]は,混合ドメイン間の画像変換をするネットワークである. 条件信号と入力特徴から生成したアテンションマップにより,特徴チャネルを制御することでMTLを行う. SGNは,単一ネットワークである点,組み合わせ学習を行う点で本論文と類似している. しかし,特徴チャネルの制御に入力特徴を使用する点,スケーリングによる制御しか行わない点で本論文と異なる. また,組み合わせ学習はStyle Transferでしか行なっていない.

FiLMは,条件信号に基づいたアフィン変換によりネットワークを制御する手法であり,様々な画像変換タスクでその有効性が示されている. すなわち,FiLMは様々な画像変換タスクの学習が可能であると言える. よって本論文では,単一ネットワークによる複数タスクの学習を行う手法としてFiLMを使用する. また,FiLMを用いたDumoulinらの研究[5]では,Style Transferにおいて複数のスタイルの組み合わせを可能にしている. この研究は,複数のスタイルを複数の異なる画像変換タスクに拡張できる可能性を示している. そこで本論文では,FiLMを用いた単一ネットワークによる組み合わせ学習を行う.

3 手法

ネットワークへのタスクの指定にはタスク指定ベクトルを用いる. 学習時は,ネットワークに学習させるタスクに応じたタスク指定ベクトル入力し,推論時は,実行するタスクに応じたタスク指定ベクトルを入力する. タスク数がの場合,タスク指定ベクトル次元のベクトル[, ..., ]として定義し,$ c$は,0.0から1.0の範囲の値を取る.

本論文では,FiLMの手法を使用し,FiLM generatorとFiLM networkからなる図1のようなモデルを構築する. FiLMレイヤは,FiLM generatorからFiLMパラメータを受けとり,FiLMパラメータに基づいたアフィン変換によりネットワークの動作を制御する. FiLM generatorは,タスク指定ベクトルからFiLMパラメータを生成する.

FiLMレイヤによる条件付け方法には,Dumoulinらの研究 [5]と同様に,FiLMレイヤに条件付きInstance Normalizationレイヤを用いる. ただし本研究では,各タスク個別のパラメータセットを用意するのではなく,タスク指定ベクトルに基づいてパラメータセットを作成する.

Figure 1: 本論文のネットワーク図
Image network

4 実験

提案手法の性能を検証するために(1)複数の異なるタスクの学習,(2)組み合わせ学習,(3)その他の手法との比較について実験した. データセットにはPascal VOC[7]を使用した. 学習タスクと各タスクのロス関数を表1に示す. 全タスクの入出力はタスクを組み合わせるために3チャネル画像に統一した. そのため本実験では,semantic segmentationの出力は背景部分が塗り潰された画像とした.


Table 1: 各タスクのロス関数
タスク番号 タスク名 ロス関数
タスク0 reconstruction L2 loss
タスク1 inpainting L2 loss
タスク2 denoising L2 loss
タスク3 semantic segmentation L2 loss + adversarial loss
タスク4 Style Transfer1(The starry night) perceptual loss
タスク5 Style Transfer2(The Scream) perceptual loss
タスク6 Style Transfer3(Picasso) adversarial loss

実験1では,提案手法による複数の異なるタスクの学習が可能かを検証した. 学習には表1のタスクを使用した. 実験結果を図2に,推論時にタスク指定ベクトルを変化させた時の各タスクの強弱の制御を図3に示す. 実験結果から,提案手法による複数の異なるタスクの学習,さらに推論時にタスクの強弱の制御が可能であると分かる.

Figure 2: 実験1の実験結果
Image e1
Figure 3: 各タスクの強弱制御
Image e1_grad

実験2では,提案手法による複数の画像変換タスクの組み合わせ学習が可能かを検証した. 学習に使用したタスクは,表1のうち学習方法が異なる3タスクであるdenoising,semantic segmentation,Style Transfer1と,それらの全組み合わせパターンである. 実験2では各タスク単独の学習に加え,組み合わせ結果のtarget 画像を作成し,targetと出力とのL2lossによる組み合わせ学習をした. 実験結果を図4に,推論時にタスク指定ベクトルを変化させた時のタスク間の中間表現を図3に示す. 実験結果から,提案手法による組み合わせ学習,さらに推論時にタスク間の中間表現が可能であると分かる.

Figure 4: 実験2の実験結果
Image e2
Figure 5: タスク間の中間表現
Image e2_grad

実験3では,提案手法をベースラインと比較してその精度を検証した. ベースラインには,(1)条件信号と入力特徴をもとに作成したアテンションマップでスケーリングによる制御をする``SGN'',(2)SGNにバイアスによる制御を追加した``SGN+bias'',(3)タスク固有のバイナリマスクによる制御をする``Piggyback''を使用した[8]. ``Piggyback''では,ベースネットワークの学習タスクにinpaintingを使用した``Piggyback1''と,semantic segmentationを使用した``Piggyback2''を作成した. 各タスク単独の学習結果を図6,組み合わせ学習結果を図7に示す. 実験結果から,提案手法はベースラインに比べ,同程度またはそれ以上の性能を示すことが分かった.

Figure 6: 各タスク単独の学習結果の比較
Image e3_single
Figure 7: 組み合わせ学習結果の比較
Image e3_mix
また,提案手法とベースラインとの定性的評価結果を表2に示す. 表中の太字は,最も精度が高い値である. 性能の評価指標には,Style Transferを含むタスクではFID,それ以外はMSEとSSIMを用いた. 表から,提案手法は小さいモデルサイズにもかかわらず,ほぼ全てのタスクと評価指標において最も良い性能を示すことがわかる.


Table 2: 定性的評価結果
  ours SGN SGN + bias Piggyback1 Piggyback2
reconstruction 0.1026 0.3579 0.3583 0.0689 0.1356
(MSE, SSIM) 0.9903 0.9611 0.9608 0.9950 0.9883
inpainting 0.0783 0.3968 0.3969 0.1089 0.1383
(MSE, SSIM) 0.9943 0.9582 0.9578 0.9919 0.9896
denoising 0.0567 0.3667 0.3670 0.0824 0.1789
(MSE, SSIM) 0.9959 0.9606 0.9605 0.9940 0.9852
semantic segmentation 0.0912 0.2405 0.2221 0.2586 0.2112
(MSE, SSIM) 0.9927 0.9811 0.9852 0.9764 0.9801
Style Transfer1 277.3 302.2 289.2 335.6 342.2
Style Transfer2 238.7 239.6 255.5 302.8 323.3
Style Transfer3 159.9 178.8 288.1 213.9 291.7
denoising + semantic segmentation 0.1013 0.2537 0.1998 - -
(MSE, SSIM) 0.9928 0.9807 0.9859 - -
denoising + Style Transfer1 314.4 356.2 340.1 - -
semantic segmentation + Style Transfer1 300.4 346.4 350.3 - -
モデルサイズ 1698435 1765363 1902243 1679235 1679235

5 おわりに

本論文では,FiLMを用いた単一ネットワークによるMTLを提案した. 実験の結果,提案手法を用いることで,単一ネットワークによる複数の 異なる画像変換タスクの学習と,組み合わせ学習を実現した. また,ベースラインとの比較実験では,小さいモデルサイズにも関わらず多くのタスクで最高性能を達成し,その優位性を示した.

今後は,さらなるタスクの追加やネットワークアーキテクチャの工夫による,より実用性の高いネットワークの構築と,精度の向上を目指したい.

Bibliography

1
Iasonas Kokkinos.
Ubernet: Training a universal convolutional neural network for low-, mid-, and high-level vision using diverse datasets and limited memory.
In Proc.of IEEE International Conference on Computer Vision, 2017.

2
Lukasz Kaiser, Aidan N. Gomez, Noam Shazeer, Ashish Vaswani, Niki Parmar, Llion Jones, and Jakob Uszkoreit.
One model to learn them all.
arXiv preprint arXiv:1706.05137, 2017.

3
Ethan Perez, Florian Strub, Harm De Vries, Vincent Dumoulin, and Aaron Courville.
Film: Visual reasoning with a general conditioning layer.
In Proc.of AAAI Conference on Artificial Intelligence, 2018.

4
Vincent Dumoulin, Ethan Perez, Nathan Schucher, Florian Strub, Harm de Vries, Aaron Courville, and Yoshua Bengio.
Feature-wise transformations.
Distill, 2018.
https://distill.pub/2018/feature-wise-transformations.

5
Vincent Dumoulin, Jonathon Shlens, and Manjunath Kudlur.
A learned representation for artistic style.
Proc. of International Conference on Learning Representation, 2017.

6
Simyung Chang, SeongUk Park, John Yang, and Nojun Kwak.
Sym-parameterized dynamic inference for mixed-domain image translation.
In Proc.of IEEE International Conference on Computer Vision, 2019.

7
M. Everingham, S. M. A. Eslami, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman.
The pascal visual object classes challenge: A retrospective.
International Journal of Computer Vision, 2015.

8
Arun Mallya and Svetlana Lazebnik.
Piggyback: Adding multiple tasks to a single, fixed network by learning to mask.
In Proc.of European Conference on Computer Vision, 2018.