RamenStyleAsYouLike:
スタイル特徴を考慮したマスク画像からの画像生成

趙 宰亨      岡本 開夢      下田 和      柳井 啓司     

電気通信大学 情報学専攻






Demo Page(公開終了)

デモUIの説明

概要

本研究では、従来の領域マスク画像からの実画像生成における問題点であった領域毎のスタイルが指定できない問題点を解決する。実画像の各領域からMask Average Poolingによってスタイル特徴を抽出し、生成時にはマスク画像に各マスク領域のスタイル特徴を組み合わせることで、ユーザが自由に領域のスタイルを制御可能とした。
この手法にUEC-Ramen555 datasetを組み合わせることで、スープ、丼、チャーシューなどのスタイルを自由に指定し画像生成することが可能となり、多数のラーメン画像からユーザが好みのトッピングスタイルを選んで、その特徴量を元に「究極のラーメン画像」を生成することが可能となった。
提案手法をWeb ベースのシステムとして実装した「RamenStyleAsYouLike」のオンラインデモ をMIRUで期間中限定で公開するので、ぜひ「究極の一杯」の生成を体験して頂きたい。

Demo Page(公開終了)

デモUIの説明

Style Encoder

スケッチ画像を基にして生成した画像のスタイルを制御するため,与えられたスタイル画像から領域マスク要素のマスクスタイル特徴を抽出するStyle Encoderを提案する。
Style Encoderはsemantic segmentation maskとスタイル画像を受け取り、スタイル画像の各マスク要素(顔の場合は髪の毛、皮膚、口の領域)からスタイル特徴を抽出する。

データセット

UEC-Ramen555は555枚のラーメン画像が含めているラーメン画像データセットであります。 各画像にはラーメンの属性のセグメンテーションマスクがあります。 セマンティックマスクは手動でアノテーションされた11クラスのピクセルレベルのセマンティックラベルで構成されています。 さらに、5クラスのラーメンスープのカテゴリアノテーションが追加で含まれています。 ラーメン画像のセマンティックラベルは背景、器、スープ、レンゲ、箸と具(切れた卵、海苔、チャーシューなど)のセマンティックラベルが含めています。 スープのカテゴリラベルには塩スープ、醤油スープ、味噌スープ、豚骨スープ、辛いスープが含まれます。

Download page

実験

特定のスタイル画像から抽出したスタイルを考慮した画像生成の結果

複数のスタイル画像から抽出したスタイルを考慮した画像生成の結果

参考文献




デモUIの説明


Segmentation




Style




Generation