柳井研究室 (Yanai Lab.), 電気通信大学情報工学科

一般物体認識における位置情報の利用に関する研究

2010年八重樫恵太

1 はじめに

1.1 背景

今日，デジタルカメラの普及により，デジタル写真は WWW (WorldWideWeb)上に大量に存在するようになった．大量の写真情報の普及にもかかわらず，それらを自動で整理・分類し，ユーザーの手間を省くことは未だ困難な課題であり続けている．写真を分類するための一般画像認識の基礎技術が高度化する中で，認識精度の向上を図るにあたり，写真と関連する多様な情報をいかに効率的に組み合わせるかが求められる．

1.2 目的

本研究の目的は，画像認識における位置情報の有効性が高い認識カテゴリと，そうでないカテゴリを明確に区別することにある．写真の撮影位置の地理的な状況を表す情報源として，航空写真と，位置の周辺を記述するテキスト情報を用いる．写真の画像特徴量に合わせて，航空写真から抽出した画像特徴量とテキストに由来する特徴量を認識に用いることで，写真の撮影場所の地理的なコンテキストを反映した認識が可能となると考えている．認識実験において画像特徴と位置情報特徴のどちらがどれだけ有効に作用したかについて，より明確に判断するべく，機械学習の段階においてマルチカーネル学習 (MultipleKernel Learning)を用いて，写真と航空写真の重みを推定し，写真と位置情報の有効性を評価する．

2 手順と方針

我々の認識実験は全体的に，図 1に示す要領で行われる．全体の流れとしては， Flickrより収集した位置情報付き画像から特徴抽出したものを，機械学習することで認識精度を検証するものである．

機械学習の段階において，画像と位置情報がどのように有効に利用されているかどうかを考察する必要がある．これにあたり初期の手法 [6, 7]では，位置情報と航空写真 (ないしは位置情報 )を単純に結合した特徴量を学習させ，結合する特徴の種類の組み合わせによりこれを検証していた．ただし組み合わせごとの精度を比較するのみでは，画像と位置情報との有効性を柔軟に判断する上では不十分であった．本研究では，後述する MKL-SVMを用いて，認識精度のほかに画像と航空写真，地理テキストの特徴と，比較として時間情報，画像の HSV色特徴の有効性を重みの推定により検証する．

2.1 画像からの特徴抽出

画像の特徴を記述する手法としては，特徴抽出のために局所特徴の一種である SIFT特徴 [2]を簡潔に記述するべく bag of keypoints表現 [1](以下 BoK)に変換することでベクトル量子化したデータと， HSV色空間によるカラーヒストグラム (以下 HSV)を用いる．ベクトル量子化は，ユークリッド距離を尺度とし， k-Means法 (本研究では k = 1000)を用いて行う.

画像からは BoKと HSV，航空写真からは BoKのみを抽出する．

2.2 メタデータからの特徴抽出

画像に対応するメタデータから，時間情報と周辺テキスト情報 (以下地理テキスト )を，機械学習のための特徴量として抽出する．それぞれ画像の撮影位置の緯度・経度を Yahoo!ローカルサーチ APIに与え，戻り値から位置周辺の建物・施設・ランドマークなどに関するテキスト情報を Chasen[8]で形態素解析し，抽出した全単語の出現頻度の上位 2000語に対してヒストグラムを作成し，地理テキスト特徴とする．時間情報については，月について 12ビンと時間について 24ビンを用意し，該当する月・時刻とその隣接にそれぞれ 0.5，0.25を投票し，ヒストグラムに準ずる表現とする．

2.3 学習と分類

認識精度の検証に当たっては，従来の手法と同様にサポートベクタマシン (SVM)を用いることに加え，画像と航空写真の有効性について判定するために，マルチカーネル学習を導入する． SVMのカーネル関数として非線形の ²カーネルを用いる．

2.4 マルチカーネル学習

特徴を統合して特徴量の有効性を識別するために，複数の特徴量のカーネルを線形結合することにより統合カーネルを作成し，それを SVMに適用して特徴統合による画像認識を実現する．最適なカーネル (カーネルを重みつきで線形結合したカーネル )のサブカーネルに対する重み jを学習する．これはマルチカーネル学習 (MKL) [3]問題と呼ばれ，統合カーネルは以下で定式化される．

最近の研究では，この MKL問題を凸面最適化問題として効果的に解く方法が提案されている [4]．マルチカーネル学習は SVMのみを前提としたものではないが， SVMのフレームワークで解く方法が一般的で， MKL-SVMと呼ばれることもある．本研究では，SHOGUN[5]ツールキットを用いて実装した MKL-SVMを使用して実験を行う．

3 実験

実験は，各画像から抽出した特徴量をサポートベクタマシン (SVM)で学習させ，分類結果により精度を判定することにより行う． SVMのフレームワークの下で，マルチカーネル学習で種類ごとの重みを推定する (MKL-SVM)ことにより，画像と位置情報などの他の特徴量がそれぞれどれだけ有用であるかを判断する．

3.1 データセット

学習と分類は正解画像と不正解画像の 2クラスで行う．正解データセットについては，表 2に示す 8ジャンル 28種類のカテゴリで 200枚ずつ選定した．不正解データセットは， Flickrから収集した画像データの中から，正解データに用いられていないものをランダムに選定することで 200枚準備した．航空写真は 4種類のスケールを採用し (図 3)，撮影位置が中央にくるような正方形に加工したものを利用する．

表 1: MKL-SVMにおける平均適合率の計算結果と， MKLによる重み推定結果． 2種類における 1〜4，G，T，Hは，それぞれ航空写真のレベル，位置テキスト，時間， HSVを示す．

3.2 特徴量の種類と組み合わせ

画像の bag of keypoints表現，航空写真の bag of keypoints表現 (4レベルでの 4種類 )，周辺情報に関するヒストグラム，撮影時刻に関するヒストグラム表現， HSVカラーヒストグラムの，計 8種類を扱う．これらを， MKLに与えるにあたり表 3のように組み合わせる．

3.3 評価

学習と分類は 5-foldのクロスバリデーションで行う．認識精度は各分類結果における SVMの出力値に対して，平均適合率を計算することで評価する．平均適合率は recall-precisionグラフの面積に相当する (図 2)．

3.4 結果

28カテゴリを 8ジャンルにまとめた各平均について， MKLSVMの全ての組み合わせによる認識精度と， SVMによる重み推定結果のうち， 2種類 (ペア )による結果を省略したものを表 1に示す．

実験においては， 28種類のカテゴリを手動で選定したものを使用し，結果は平均適合率にして，抽出した 8種類の特徴量を統合した精度が 81.05%と，画像の bag of keypoints表現単体の 77.05%を 4%改善し， HSV色特徴単体の 75.40%を 6%しのいだ．本実験では，位置情報テキストから生成できる特徴量は，航空写真の visual wordsを MKLの重みで凌駕した．

全体的傾向を重みと精度から判断するには，多様な特徴量を融合した場合にテキスト特徴が有利であり、これは意味が鮮明明な位置情報テキストの方が航空写真よりも価値があることを示していると言える．ただし， 5種類の分類で最も詳細な航空写真の重みが画像 BoKに次いで強いことから，より詳細な航空写真が利用可能であると仮定すれば，航空写真の有用性を再度注目できる可能性もある．時期依存的要素は他と比較して時間の重みが強いが，時間の特徴量自体は全体的に重みで他を凌いでいる訳ではない．

ランドマークや特定のイベントに関しては位置情報によって精度が向上したが，地形や地理構成物については詳細な地理情報を取得できるかどうかが精度改善の鍵を握る．屋外の人工物や一般的生物，食べ物などは位置情報によってあまり精度が上がらなかったことがわかった．

4 おわりに

4.1 まとめ

本研究では，位置情報付き写真の一般画像認識を拡張するにあたり，写真の撮影位置に対応する航空写真と周辺テキストの情報を付加的な画像特徴量として利用する手法を導入した．認識実験においては各種特徴量の組み合わせによる認識精度の変化を検証するとともに，マルチカーネル学習 (MKL,Multiple Kernel Learning)を導入することで，特徴量の種類ごとの認識への関与を定量的に分析した． 28種類のカテゴリによる実験では， 8種類の特徴統合により，画像の bag of keypoints表現と HSV色特徴のそれぞれ単体での認識精度を改善した．

4.2 今後の課題

位置情報の認識精度をさらに検証し，役立てるには，大量かつ良質なデータ収集の手段について改めて模索していく必要がある．また，より一般的な画像認識の枠組みを実現するにあたり，海外の位置情報付き写真も利用することを視野に入れることが今後不可欠である．

参考文献

[1] G. Csurka,C. Bray,C. Dance, and L.Fan.Visual categorization with bags

of keypoints. Proc.of ECCVWorkshop on Statistical Learningin Computer Vision, pp. 5974, 2004.

[2] D. Lowe. Distinctive Image Features from Scale-Invariant Keypoints. InternationalJournalof ComputerVision,Vol. 60, No. 2, pp. 91110, 2004.

[3] G. R.G. Lanckriet,N. Cristianini,P. Bartlett, L. E. Ghaoui, and M. I.Jor

dan. Learning the kernel matrix with semidenite programming. Journal of Machine Learning Research,Vol. 5, pp. 2772, 2004.

[4]S. Sonnenburg,G.R¨atsch,C.Sch¨afer, andB.Scha¨olkopf. Large scale mul

tiple kernel learning. Journal of Machine Learning Research, Vol. 7, pp. 15311565, 2006.

[5] Shogun -A Large Scale Machine Learning Toolbox. http://www.shoguntoolbox.org/

[6] K.Yaegashi and K.Yanai. Can Geotags Help Image Recognition?. Proc. of

thePacic-Rim Symposium on Image andVideoTechnology, pp. 361373, 2009.

[7] 八重樫恵太 ,柳井啓司 :撮影位置の情報を用いた一般画像認識の可能性の検討 ,情報処理学会 CVIM研究会, pp.1522, CVIM163-3, (2008)

[8] 茶筌. http://chasen.naist.jp/hiki/ChaSen/.

YANAI Lab.