WEB上の大量の画像を用いた仮想パノラマ画像生成システム

相田優

Date: 2010年 2月 8日

1 はじめに

複数の画像を合成することで一枚の巨大なパノラマ画像を生成する手法がSivicらによって示された[#!VirtualSpace!#]。生成される画像は仮想的なパノラマ画像であり、画像が撮影された場所や時間を考慮せずに、画像が合成されていく。このような画像合成の手法は、ゲーム、映画等のさまざまなビジュアルコンテンツに応用することができる。 Sivicらの手法[#!VirtualSpace!#]においてユーザーは画像のテーマを選択することでパノラマ画像を得ることができる。しかし、このアルゴリズムによって生成されるものは、テーマの同じ画像が連続することになる。画像のテーマを問わずにシームレスな仮想パノラマ画像を作ることができれば、ユーザーにとってより興味深いシステムになると考えられる。そこで本研究ではSivicらの手法[#!VirtualSpace!#]を拡張し、テーマを問わずに画像を合成することで、より変化に富んだパノラマ画像を生成することを目指す。システムは図1のようにして、ユーザーが入力した画像を元にして指定した長さのパノラマ画像を生成する。システムの性質上、生成される画像の質は画像データベースの質とその検索精度に依存する。

**図 1:** クエリ画像を元にパノラマ画像を生成する

2 システムのアルゴリズム

以下の手順に従い、パノラマ画像を生成する。また、合成アルゴリズムの概要を図2に示す。

大量の画像を収集し、データベースを構築しておく
入力された画像を背景画像とする
背景画像内の合成予定領域との類似度をもとに画像を検索し、それを合成元画像とする
背景画像と合成元画像の重複領域での画素値の差が最小となるような合成位置を求める
キルティングにより合成する2つの画像の境界誤差を最小とするような分割経路を求める
求めた分割経路に沿った領域でポアソンブレンディングを適用し、画像を合成する
合成した画像が一定の大きさ以上となったら画像を出力し終了する
合成した画像を背景画像とし、3の手順に戻る

**図 2:** 合成アルゴリズム

3 Quilting

Quiltingは画像

と

を合成する際、それらの重複領域を適切にカットすることで合成する手法である[#!Quilting!#]。対応する重複領域を $B^{ov}_1$ 、 $B^{ov}_2$ 、それらの画素値を $p^{B^{ov}_1}_{i,j}$ 、 $p^{B^{ov}_2}_{i,j}$ とし、対応画素の誤差を $e_{i,j} = ( p^{B^{ov}_1}_{i,j} - p^{B^{ov}_2}_{i,j} )^2$ とする。最適なカットとなる経路を求めるために、累積最小誤差 $E_{i,j} = e_{i,j} + \min (E_{i-1,j-1} , E_{i-1,j} , E_{i-1,j+1})$ を計算する。重複領域の最終行で得られる累積最小誤差の最小値を与える経路が、最適なカットの経路となる。素材となる画像から矩形領域を切り取り、合成した結果を図4、5に示す。図4では切り出した矩形領域を敷き詰めただけであり、画像の境界が目立つ。 Quiltingを適用し合成をした図5では、図4と比べて画像の境界が目立たないのが確認できる。

**図 3:** 素材

**図 4:** Quiltingなし

**図 5:** Quilting

4 ポアソンブレンディング

ポアソンブレンディングはポアソン方程式 $\Delta f={\rm div}{\bf v}$ を解くことによって画像を合成する手法である[#!Poisson!#]。ある点pにおける画素値を

とし、その点に隣接する4つの点の集合を

として離散化を行う。画像の合成を考えた場合、ベクトル場vは合成元の画像gの勾配 $({\bf v}=\nabla g)$ であることを考慮すれば、離散化されたポアソン方程式は以下のようになる。

$\displaystyle f_p \simeq \Bigl( \sum_{q\in N_p}f_q + \sum_{q\in N_p}(g_p - g_q) \Bigr) /\vert N_p\vert$

(1)

境界上の点pの値を $f_p\vert _{\partial \Omega}=f_p^*\vert _{\partial \Omega}$ として、反復法によって数値解を求めることができる。 $\alpha$ ブレンディング( $\alpha$ =0.5)と、ポアソンブレンディングでの合成画像を図6 $\sim$ 9に示す。 $\alpha$ ブレンディングでは背景画像と合成元画像との境界がはっきりと分かってしまう。ポアソンブレンディングでは境界がわかりづらく、合成元画像が背景画像になじむように合成されている。

**図 6:** 背景画像

**図 7:** 合成元画像

**図 8:** $\alpha$ ブレンディング

図: ポアソンブレンディング

5 画像の検索

本研究では高速な検索が可能なライブラリであるANN(Approximate Nearest Neighbor)を用いて、最近傍探索を行うことで画像を検索する。画像特徴としてはRGBを考慮したGIST特徴を用いる。本研究において画像の検索は、クエリ画像の右側の領域と、検索対象の画像の左側の領域に対して行う。片側の領域に対して検索を行う理由は、画像の合成がクエリ画像の右側に繋げるようにして行われるためである。そこで、特徴抽出はデータベース中の画像の左側の領域に対して行い、それらの特徴から特徴空間を構築する。

5.0.0.1 ANN(Approximate Nearest Neighbor)

ANNは最近傍探索および近似最近傍探索をするための、複数のデータ構造とそれらを扱うためのアルゴリズムのライブラリである。近似最近傍探索の代表的な手法として、木構造を用いるものとハッシュを用いるものがあるが、 ANNでは木構造を用いることで高速な検索を実現している。本研究ではデータ構造としてkd-treeを用い、最近傍探索によって検索を行う。

5.0.0.2 GIST特徴

画像を格子状の領域に区切り、領域ごとのガボール特徴をとる。 Olivaらの研究によって背景分類でよい結果を出すことが確認されている[#!Gist!#]。本研究では画像を4 $\times$ 4で区切りガボール特徴をとることでGIST特徴を得た。ガボール特徴は24次元ベクトルのものを使用するので、その場合のGIST特徴は384次元となる。本研究ではRGB空間を考慮し、画像一枚につき1152次元ベクトルの特徴を得た。

6 実験

本研究が提案した手法では、システムの実行前に画像を収集しデータベースを構築する必要がある。画像の収集はFlickrを利用して行った。解像度が $500 \times 375$ ピクセルのものを中心に、523,274枚の画像を収集した。収集した画像の左側の領域に対しGIST特徴をとり、特徴空間を構築した。特徴抽出に失敗した画像を除いた519,474枚分の画像特徴からkd-treeを構築し出力した。また、kd-treeがもつ画像特徴のインデックスとの対応がとれるように、画像ファイル名のリストを作成し、データベースを構築した。システムを実行し、クエリ画像を入力して多数の仮想的なパノラマ画像を作成した。システムは特徴空間の読み込みを行った後、画像の検索、合成を行う。

最近傍探索による画像1枚分の検索にかかった時間の平均は0.65秒であった。画像1枚分を合成させるときにかかった時間の平均は2.56秒であった。システムが生成した画像の一例を図10 $\sim$ 12に示す。

**図 10:** 合成例

**図 11:** 合成失敗例

**図 12:** 合成例

7 考察

本研究とSivicらのシステムにおける最大の違いは、テーマの制限を受けることなく仮想的なパノラマ画像を生成することである。徐々に風景が変わっていく図12のパノラマ画像は、テーマによらないパノラマ画像が生成できたことを示す。図12では街中の画像の右側に滝が来ていて意外性のある組み合わせが実現できている。また、システムは図11の様な複数の失敗例を出したが、パノラマ画像の合成に失敗した主な原因として2つの事が挙げられる。 1つは合成アルゴリズムの問題である。キルティングによって画像がカットされるとき、目立つオブジェクトをカットしてしまった場合は視覚的に不自然な画像となってしまう。オブジェクトの認識を行い、その領域を回避するようにしてカットを行えば問題は解決されるが、それらの物体を認識するのは未だに多くの問題がある。また、ポアソンブレンディングによって画像を馴染ませる際、適切な領域を選択できなかったときに不自然な結果となる。もう一つは検索結果の問題である。 ANNによる検索によって得られる合成画像は、クエリ画像との合成領域と極めて類似していることが期待されるが、その期待と反する検索結果となる事が多々あった。本研究において用いた特徴はRGB空間を考慮したGIST特徴であるが、実験による結果から、色情報に弱い事があり、その結果シームレスな合成に失敗する例があるのが確認された。検索手法の改善策として、色空間を変えて特徴取得を行う方法や、カラーヒストグラムとの組合わせで検索を行うことが挙げられる。

section*参考文献参考文献参考文献 1-1mm 0.1pt enumiv 4000 4000 `.

J. Sivic, B. Kaneva, A. Torralba, S. Avidan, and W.T. Freeman.
Creating and exploring a large photorealistic virtual space.
In Proc.of IEEE CVPR Workshop on Internet Vision, pp. 1-8, 2008.

A.A. Efros and W.T. Freeman.
Image quilting for texture synthesis and transfer.
In Proc.of SIGGRAPH 2001, pp. 341-346, 2001.

P. Pérez, M. Gangnet, and A. Blake.
Poisson image editing.
In Proc.of SIGGRAPH 2003, pp. 313-318, 2003.

A. Oliva and A. Torralba.
Modeling the shape of the scene: A holistic representation of the spatial envelope.
International Journal of Computer Vision, pp. 145-175, 2001. Empty `thebibliography' environment

YANAI Lab.