YANAI Lab.電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室 |
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介 |
単一ネットワークによる複数タスクの組み合わせ学習武田 麻奈 Date: 2020 年 02 月 14 日
1 はじめにDeep Convolutional Neural Network (CNN) は,様々な画像変換タスクで大きな成功を収めている. これらのSingle Task Learningでは,1つのネットワークで1つのタスクを実行する. それに対して,Multi Task Learning (MTL) では,1つのネットワークで複数のタスクを実行する. そのため,複数タスクを同時に実行する実際のアプリケーションではMTLが望ましい. しかし,現在提案されているMTLのモデル [1,2]では,タスクごとにDecoderやネットワークの一部を入れ替える必要があるため,タスク数の増加によってネットワークが大きくなる問題がある. それに対して,単一ネットワークによる複数タスクの学習は,ネットワークのサイズがタスク数に依存しない. よって本研究では,単一ネットワークによる,複数の画像変換タスクの学習を1つ目の目的とする. 具体的には,条件付きアフィン変換を形式化したFeature-wise Linear Modulation (FiLM) [3,4]を用いる. また,FiLMの特性を生かし,Style Transferにおける複数スタイルの組み合わせを可能にしたDumoulinらの研究 [5]に着想を得て,単一ネットワークによる複数の異なる画像変換タスクの組み合わせ学習を2つ目の目的とする. 組み合わせ学習は,さらなるメモリや計算時間の節約に繋がるという利点がある.
2 関連研究Sym-parameterized Generative Network(SGN)[6]は,混合ドメイン間の画像変換をするネットワークである. 条件信号と入力特徴から生成したアテンションマップにより,特徴チャネルを制御することでMTLを行う. SGNは,単一ネットワークである点,組み合わせ学習を行う点で本論文と類似している. しかし,特徴チャネルの制御に入力特徴を使用する点,スケーリングによる制御しか行わない点で本論文と異なる. また,組み合わせ学習はStyle Transferでしか行なっていない. FiLMは,条件信号に基づいたアフィン変換によりネットワークを制御する手法であり,様々な画像変換タスクでその有効性が示されている. すなわち,FiLMは様々な画像変換タスクの学習が可能であると言える. よって本論文では,単一ネットワークによる複数タスクの学習を行う手法としてFiLMを使用する. また,FiLMを用いたDumoulinらの研究[5]では,Style Transferにおいて複数のスタイルの組み合わせを可能にしている. この研究は,複数のスタイルを複数の異なる画像変換タスクに拡張できる可能性を示している. そこで本論文では,FiLMを用いた単一ネットワークによる組み合わせ学習を行う.
3 手法ネットワークへのタスクの指定にはタスク指定ベクトルを用いる. 学習時は,ネットワークに学習させるタスクに応じたタスク指定ベクトル入力し,推論時は,実行するタスクに応じたタスク指定ベクトルを入力する. タスク数がの場合,タスク指定ベクトルは次元のベクトル[, ..., ]として定義し,は,0.0から1.0の範囲の値を取る. 本論文では,FiLMの手法を使用し,FiLM generatorとFiLM networkからなる図1のようなモデルを構築する. FiLMレイヤは,FiLM generatorからFiLMパラメータを受けとり,FiLMパラメータに基づいたアフィン変換によりネットワークの動作を制御する. FiLM generatorは,タスク指定ベクトルからFiLMパラメータを生成する. FiLMレイヤによる条件付け方法には,Dumoulinらの研究 [5]と同様に,FiLMレイヤに条件付きInstance Normalizationレイヤを用いる. ただし本研究では,各タスク個別のパラメータセットを用意するのではなく,タスク指定ベクトルに基づいてパラメータセットを作成する.
4 実験提案手法の性能を検証するために(1)複数の異なるタスクの学習,(2)組み合わせ学習,(3)その他の手法との比較について実験した. データセットにはPascal VOC[7]を使用した. 学習タスクと各タスクのロス関数を表1に示す. 全タスクの入出力はタスクを組み合わせるために3チャネル画像に統一した. そのため本実験では,semantic segmentationの出力は背景部分が塗り潰された画像とした.
実験1では,提案手法による複数の異なるタスクの学習が可能かを検証した. 学習には表1のタスクを使用した. 実験結果を図2に,推論時にタスク指定ベクトルを変化させた時の各タスクの強弱の制御を図3に示す. 実験結果から,提案手法による複数の異なるタスクの学習,さらに推論時にタスクの強弱の制御が可能であると分かる. 実験2では,提案手法による複数の画像変換タスクの組み合わせ学習が可能かを検証した. 学習に使用したタスクは,表1のうち学習方法が異なる3タスクであるdenoising,semantic segmentation,Style Transfer1と,それらの全組み合わせパターンである. 実験2では各タスク単独の学習に加え,組み合わせ結果のtarget 画像を作成し,targetと出力とのL2lossによる組み合わせ学習をした. 実験結果を図4に,推論時にタスク指定ベクトルを変化させた時のタスク間の中間表現を図3に示す. 実験結果から,提案手法による組み合わせ学習,さらに推論時にタスク間の中間表現が可能であると分かる.
実験3では,提案手法をベースラインと比較してその精度を検証した. ベースラインには,(1)条件信号と入力特徴をもとに作成したアテンションマップでスケーリングによる制御をする``SGN'',(2)SGNにバイアスによる制御を追加した``SGN+bias'',(3)タスク固有のバイナリマスクによる制御をする``Piggyback''を使用した[8]. ``Piggyback''では,ベースネットワークの学習タスクにinpaintingを使用した``Piggyback1''と,semantic segmentationを使用した``Piggyback2''を作成した. 各タスク単独の学習結果を図6,組み合わせ学習結果を図7に示す. 実験結果から,提案手法はベースラインに比べ,同程度またはそれ以上の性能を示すことが分かった. また,提案手法とベースラインとの定性的評価結果を表2に示す. 表中の太字は,最も精度が高い値である. 性能の評価指標には,Style Transferを含むタスクではFID,それ以外はMSEとSSIMを用いた. 表から,提案手法は小さいモデルサイズにもかかわらず,ほぼ全てのタスクと評価指標において最も良い性能を示すことがわかる.
5 おわりに本論文では,FiLMを用いた単一ネットワークによるMTLを提案した. 実験の結果,提案手法を用いることで,単一ネットワークによる複数の 異なる画像変換タスクの学習と,組み合わせ学習を実現した. また,ベースラインとの比較実験では,小さいモデルサイズにも関わらず多くのタスクで最高性能を達成し,その優位性を示した.今後は,さらなるタスクの追加やネットワークアーキテクチャの工夫による,より実用性の高いネットワークの構築と,精度の向上を目指したい.
Bibliography
|