位置情報付き画像を用いた単語概念の地域性の分析

川久保秀敏

平成23年 2月4日

1 はじめに

近年，Web上のアルバムサービスやGPS機能付きカメラの普及に伴い，撮影地点の緯度経度情報がメタデータとして付与された「位置情報付き画像」が Web上に増加している．

一方で，多様な単語概念を認識対象とした一般画像認識の高精度化は未だ困難である．精度の高い一般画像認識を実現するためには，単語概念を表現するための学習データセットの質が重要である．我々は，画像の位置情報を一般画像認識向けのデータセット構築に役立てるための手法を研究している．学習データセットを構築する際，視覚に地域差のある単語概念について地域別の代表画像データセットを作成することで，認識精度が向上することが期待できる．そのためには，単語概念に対応する地域別代表画像を選出する手法と，単語概念に対応する視覚の地域差を定量化する手法が必要である．

本研究では，まず，位置情報付き画像のための画像ランキング手法 GeoVisualRankを提案する． GeoVisualRankは画像版PageRankアルゴリズムであるVisualRankを位置情報向けに改良したものである．

そして，単語概念に対応する視覚の地域差を定量化する手法を提案する． GeoVisualRankを用いて単語概念についての地域別代表画像を選出し，代表画像の地域差から，単語概念に対応する視覚の地域性を定量化する．

2 関連研究

Jingらによって提案されたVisualRank[1] はPageRankアルゴリズム[2]を画像に適用したものであり，画像間の類似度をもとに画像のランキングを得る手法である． Jingらは，VisualRankをテキストベースの画像検索結果を修正するために用いている[1]．画像の類似度にはSIFT特徴[3]のマッチ数を使い，商品名やランドマーク名といった特定の外観を持つカテゴリを対象にした実験を行っている．

世界各地のランドマークを認識する研究として， Zhengらの研究や[4] Crandallらの研究[5]がある．大量の撮影位置情報をクラスタリングすることで，代表的な都市とランドマークの位置を推定している．そして各地に対応する典型的なランドマークの視覚特徴を求めている．

我々は過去に，単語概念について収集した位置情報付き画像から，画像領域エントロピーと位置情報のエントロピー（ジオタグエントロピー）を別々に定量化する実験を行った[6]．エントロピーに基づいて単語概念の視覚性と地理的分布を定量化することで，「空」のような世界中に分布し視覚特徴に大きな変化がない単語概念と，地名のような特定の地域に分布し多様な視覚特徴を持つ単語概念を自動的に発見するための手法を提案した．

3 手法

3.1 GeoVisualRank

3.1.0.1 VisualRank :

Jingらによって提案された[1]はPageRankアルゴリズム[2]を画像に適用したものであり，画像間の類似度をもとに画像のランキングを得る手法である．テキストベースの画像検索によって得られた画像を視覚特徴によって再ランク付けする手法の１つである． VisualRankでは，各画像のランキング値からなる列ベクトル ${\bf r}$ が収束するまで式(1)を反復する．式(1)中の ${\bf S^{*}}$ は，画像類似度行列 ${\bf S}$ の各列を正規化したものである． ${\bf p}$ は補正ベクトルであり，PageRankアルゴリズムではリンク以外でのWebページへのアクセスをモデル化している．ただし， ${\vert\vert{\bf p}\vert\vert}_{1} = {\vert\vert{\bf r}\vert\vert}_{1}$ である．

$\begin{displaymath} {\bf r} \leftarrow \alpha \;{\bf S^{*}} \; {\bf r} \; + ( 1 - \alpha ) \; {\bf p} ,\quad (0 \leq \alpha \leq 1) \end{displaymath}$

(1)

3.1.0.2 GeoVisualRank :

提案手法であるGeoVisualRankでは，式(1)の補正ベクトル ${\bf p}$ を位置情報に基づくバイアスベクトル ${\bf p^{geo}}$ とする． GeoVisualRankではランキングを生成する際に，地理上の一点を「注目点」として指定する．注目点に近い座標で撮影された画像のランキング値が大きくなるようにバイアスを作成する．画像の類似度行列と位置情報によるバイアスベクトルを用いることで，代表的な画像特徴を持ち，撮影された地点が注目点に近い画像ほど上位にランキングされる．

注目点と画像の撮影位置との距離を球面三角法（式(2)）で求め，式(3)の計算方法でバイアスベクトルの要素を求める．式(2)の ${lat}_i, {long}_i$ は画像の位置情報であり， ${lat}_C, {long}_C$ は注目点の緯度・経度である．

$\displaystyle d_{i}$	$\textstyle =$	$\displaystyle \cos^{-1}\bigl( \sin({lat}_i)\sin({lat}_c) \; + \bigr.$
		$\displaystyle \bigl.\cos({lat}_i)\cos({lat}_C)\cos({long}_i - {long}_C) \bigr)$	(2)

$\begin{displaymath} {\bf {p}_{i}^{geo} } = 1 - \frac{d_{i}}{\pi} \quad または \quad {\bf {p}_{i}^{geo} } = \exp( - c d_{i} ) \end{displaymath}$

(3)

3.2 単語概念に対応する視覚の地域差の定量化

各手順の概要を説明する．

3.2.0.1 ・位置情報付き画像の収集 :

単語概念ごとに，位置情報付き画像を収集する．本研究では，Flickr APIを利用しFlickr上の位置情報付き画像を検索し，収集した．

3.2.0.2 ・代表地域点の算出 :

単語概念ごとに，収集画像の位置情報をクラスタリングし，代表地域点を求める．本研究では，Mean-Shift法を用いてクラスタリングを行い，所属画像の多い上位10クラスタの収束点を代表地域点とした．

3.2.0.3 ・地域別代表画像の選出 :

単語概念の代表地域点をそれぞれ注目点パラメータに用いてGeoVisualRankを実行し，地域別代表画像を選出する．

3.2.0.4 ・地域間の視覚差の計算 :

pLSAを用いて代表画像を潜在トピックへの帰属確率ベクトルで表現する．潜在トピック集合は，ランダムに選出した5000枚の画像を用いて生成したものであり，画像から得られる代表的な特徴量ベクトルを表現したものである．

地域内の代表画像について，潜在トピック帰属ベクトルを平均することで地域の潜在トピック帰属ベクトルを求める．地域間の視覚的距離は，地域の潜在トピック帰属ベクトルのJSダイバージェンスで算出する．

3.2.0.5 ・視覚の地域差の指標値 :

単語概念内に，他の地域との視覚的距離が大きい地域が存在すれば，その単語概念に視覚の地域性があると期待できる．そこで，単語概念内の各地域について，他地域との視覚的距離の平均をもとめ，その最大値を単語概念の視覚の地域性を表す指標とした．単語概念の指標値が大きければ，その概念のなかで視覚的に特異な地域が少なくとも１つは存在すると言える．

4 実験

本章では，本研究で行った実験について記述する．まず実験で用いたデータセットについて説明する．そして本研究で提案するGeoVisualRank単体について実験について述べ，最後に，単語概念に対応する視覚の地域性の分析実験について述べる．

従来には，画像特徴量の類似性と撮影位置を両方考慮した代表画像選出法はなく，提案手法であるGeoVisuralRank単独でも様々な応用が考えられ，研究価値が高い手法と言える．そのためGeoVisuralRankのみについても実験を行った．

本研究では，名詞250語と，形容詞100語の合計350語を実験対象の単語概念とした．名詞は，身の回りの物体の名称，生物名，固有名詞などを人手で設定した．形容詞は，単語概念と視覚特徴の関係性を調査した，柳井らの研究[7]を参考にして設定した．

単語概念ごとにFlickr上の画像を最大2000枚ずつ収集し，各単語の位置情報画像データセットとした． Flickrでは，一部のユーザーが非常に類似した画像を大量に投稿していることがある．そのため画像を収集するに当たって，同一ユーザーが投稿した画像の枚数を 20枚に制限した．

Web上で，GeoVisualRank単体についての結果¹，視覚の地域性の指標値ランキング結果 ²，地域別代表画像とその撮影位置 ³が閲覧可能である．フォーム指定されたパラメータに対応する結果が表示される．

4.1 GeoVisualRankについての実験

我々は350語の実験対象単語概念について，単語概念ごとにGeoVisualRankを用いて代表画像ランキングを算出した．この実験ではGeoVisualRankによってランキングを求める際に与える注目点パラメータには，世界の10都市の座標を用いた（表 1）．

この実験では画像特徴量に， 64次元のRGBカラーヒストグラム， 500次元のSIFT記述子によるBag-of-Features表現， 500次元のテキストタグ特徴量を用いた．

**表 1:** 実験で注目点として用いた10都市
tokyo, beijing, sydney, delhi, cairo, paris,
cape town, new york, san francisco, rio de janeiro

図1，図2，図3 は'pyramid'をクエリとした結果である．図1はカイロを注目点とした結果であり，エジプトのピラミッドの画像が上位画像になっている．図2は注目点がパリであり，ルーブル美術館の前にあるピラミッド型の建築物が上位に表示される．図3はリオデジャネイロを注目点としているもののメキシコのピラミッドが主な上位画像となっている．これは，リオデジャネイロ付近には'pyramid'に対応する代表的画像が無く，エジプトよりもメキシコの方がリオデジャネイロに近いためであると考えられる．

図4，図5，図6，図7の図は， 'traditonal'に関する結果であり，各地の民族的な人物画像が上位画像となっている．

**図 1:** `pyramid'での上位画像10枚（注目点：cairo）
$\includegraphics[width=0.85\hsize]{image/10image/pyramid_cairo85bof50col50_10.eps2}$

**図 2:** `pyramid'での上位画像10枚（注目点：paris）
$\includegraphics[width=0.85\hsize]{image/10image/pyramid_paris85bof50col50_10.eps2}$

**図 3:** `pyramid'での上位画像10枚（注目点：rio de janeiro）
$\includegraphics[width=0.85\hsize]{image/10image/pyramid_rio85bof50col50_10.eps2}$

**図 4:** `traditional'での上位画像10枚（注目点：tokyo）
$\includegraphics[width=0.85\hsize]{image/10image/traditional_tokyo85bof50col50_10.eps2}$

**図 5:** `traditional'での上位画像10枚（注目点：sydney）
$\includegraphics[width=0.85\hsize]{image/10image/traditional_sydney85bof50col50_10.eps2}$

**図 6:** `traditional'での上位画像10枚（注目点：rio de janeiro)
$\includegraphics[width=0.85\hsize]{image/10image/traditional_rio85bof50col50_10.eps2}$

**図 7:** `traditional'での上位画像10枚（注目点：delhi）
$\includegraphics[width=0.85\hsize]{image/10image/traditional_delhi85bof50col50_10.eps2}$

4.2 単語概念に対応する視覚の地域性の定量化実験

350語の実験対象概念それぞれについて，単語概念に対応する視覚の地域性を定量化する実験を行った．

本実験では，画像特徴量にSIFT記述子によるBag-of-Features表現を用いた．

視覚地域性の指標値の算出結果の例として，表 2に示すパラメータを用いた場合について結果を示す．実験対象とした350語のうち，視覚地域性の指標値の大きい10語と小さい10語を表 3に示す．

地名とランドマークの指標値が小さいと分かる．地名やランドマークでは，位置情報が狭い範囲に集中するため，世界の地域別のデータセットを作りようがないということを示している．

一方で，大きい指標値が得られた`building'の代表画像をみてみると，図8や図9のような代表画像に同一物体の画像を複数含むクラスタが大きい指標値を与える要因となっている．提案した指標値は，同一概念のなかで代表画像に特色を持つ地域があるか否か，という指標としては機能していると考える．

しかし，すべての代表画像が同一物体の画像で構成されている図9のような場合は，ノイズと言える．今回，画像ランキングから地域の代表画像を選ぶ際に，単純に上位から選んだが，今後は代表画像の多様性を考慮する必要がある．また，Flickr画像を収集する際に，同一ユーザから投稿された画像の枚数の制限は20枚とした．今後は，同一ユーザの画像の取得数をさらに制限する必要があると考える．

**表 2:** パラメータ設定
パラメータ	用いた値
MeanShift法での半径パラメータ(km)	500
GeoVisualRankでのバイアスパラメータ $\alpha$	0.85
ランキング上位何枚を代表画像とするか	5

**表 3:** 視覚地域性の指標値の大きい10語と小さい10語
指標値の大きい10語		指標値の小さい10語
指標値	単語	指標値	単語
0.00940416	building	0.00605590	california
0.00935062	holy	0.00613669	deutschland
0.00924220	airplane	0.00633069	machu picchu
0.00918682	beach	0.00675465	niagara
0.00912758	half	0.00706835	uluru
0.00911686	field	0.00735098	arc de triomphe
0.00908912	monkey	0.00749106	concrete
0.00908885	whale	0.00750860	chair
0.00908138	eel	0.00752026	book
0.00907977	dark	0.00752867	election

**図 8:** `building'の代表画像(オーストラリアに分布)
$\includegraphics[width=0.7\hsize]{img/cluster4.eps2}$

**図 9:** `building'の代表画像 (タイに分布)
$\includegraphics[width=0.7\hsize]{img/cluster7.eps2}$

5 おわりに

本研究では，位置情報付き画像向けの代表画像選出手法であるGeoVisualRankを提案した．そして，単語概念についての位置情報付き画像データセットから，単語概念の視覚の地域性を定量化する手法を提案した．

今後の改良として，GeoVisualRankによる地域別代表画像の選出については，画像の領域分割を行い領域ごとの特徴量を利用することが考えられる．

単語概念の視覚の地域差を定量化するために提案した手法では， Flickr画像の投稿者IDや位置情報や撮影日時を調べることによって，過度に類似した画像を複数枚入力とすることを防止する．

文献目録

1: Y. Jing and S. Baluja.
Visualrank: Applying pagerank to large-scale image search.
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 11, pp. 1870-1890, 2008,.
2: S. Brin and L. Page.
The anatomy of a large-scale hypertextual Web search engine.
Computer networks and ISDN systems, Vol. 30, No. 1-7, pp. 107-117, 1998.
3: D. G. Lowe.
Distinctive image features from scale-invariant keypoints.
International Journal of Computer Vision, Vol. 60, No. 2, pp. 91-110, 2004.
4: Zheng, Y.T. and Zhao, M. and Song, Y. and Adam, H. and Buddemeier, U. and Bissacco, A. and Brucher, F. and Chua, T.S. and Neven, H.
Tour the world: building a web-scale landmark recognition engine.
In Proc. of IEEE Computer Vision and Pattern Recognition, 2009.
5: Crandall, D.J. and Backstrom, L. and Huttenlocher, D. and Kleinberg, J.
Mapping the world's photos.
In Proc. of ACM WWW Conf., 2009.
6: 川久保秀敏, 柳井啓司.
単語概念の視覚性と地理的分布の関係性の分析.
電子情報通信学会論文誌, Vol. 93, No. 8, pp. 1417-1428, 2010.
7: 柳井啓司, Kobus Barnard.
一般物体認識のための単語概念の視覚性の分析.
情報処理学会論文誌: コンピュータビジョン・イメージメディア, Vol. 48, No. SIG10 (CVIM17), pp. 88-97, 2007.

脚注

...Web上で，GeoVisualRank単体についての結果 ¹: http://mm.cs.uec.ac.jp/kawaku-h/geovisualrank/
...，視覚の地域性の指標値ランキング結果 ²: http://mm.cs.uec.ac.jp/kawaku-h/regionalityranking/
... 地域別代表画像とその撮影位置 ³: http://mm.cs.uec.ac.jp/kawaku-h/visualregionality/