saguar1

YANAI Lab.

電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介  

一般物体認識における位置情報の利用に関する研究

2010年 八重樫恵太

1 はじめ

1.1 背景

今日,デジタルカメラの普及により,デジタル写真WWW (WorldWideWeb)上に大量に存在するようになった.大量の写真情報の普及にもかかわらず,それらを自動で整理・分類し,ユーザーの手間を省くことは未だ困難な課題であり続けている.写真を分類するための一般画像認識の基礎技術が高度化する中で,認識精度の向上を図るにあたり,写真と関連する多様な情報をいかに効率的に組み合わせるかが求められる

1.2 目的

本研究の目的は,画像認識における位置情報の有効性が高い認識カテゴリと,そうでないカテゴリを明確に区別することにある.写真の撮影位置の地理的な状況を表す情報源として,航空写真と,位置の周辺を記述するテキスト情報を用いる.写真の画像特徴量に合わせて,航空写真から抽出した画像特徴量とテキストに由来する特徴量を認識に用いることで,写真の撮影場所の地理的なコンテキストを反映した認識が可能となると考えている.認識実験において画像特徴と位置情報特徴のどちらがどれだけ有効に作用したかについて,より明確に判断するべく,機械学習の段階においてマルチカーネル学(MultipleKernel Learning)を用いて,写真と航空写真の重みを推定し,写真と位置情報の有効性を評価する

2 手順と方針

我々の認識実験は全体的に,1に示す要領で行われる.全体の流れとしてはFlickrより収集した位置情報付き画像から特徴抽出したものを,機械学習することで認識精度を検証するものである.

機械学習の段階において,画像と位置情報がどのように有効に利用されているかどうかを考察する必要がある.これにあたり初期の手[6, 7]では,位置情報と航空写(ないしは位置情)を単純に結合した特徴量を学習させ,結合する特徴の種類の組み合わせによりこれを検証していた.ただし組み合わせごとの精度を比較するのみでは,画像と位置情報との有効性を柔軟に判断する上では不十分であった.本研究では,後述すMKL-SVMを用いて,認識精度のほかに画像と航空写真,地理テキストの特徴と,比較として時間情報,画像HSV色特徴の有効性を重みの推定により検証する

2.1 画像からの特徴抽出

画像の特徴を記述する手法としては,特徴抽出のために局所特徴の一種であSIFT[2]を簡潔に記述するべbag of keypoints[1](BoK)に変換することでベクトル量子化したデータとHSV色空間によるカラーヒストグラ(HSV)を用いる.ベクトル量子化は,ユークリッド距離を尺度としk-Means(本研究でk = 1000)を用いて行う.

画像からBoKHSV,航空写真からBoKのみを抽出する

2.2 メタデータからの特徴抽出

画像に対応するメタデータから,時間情報と周辺テキスト情(以下地理テキス)を,機械学習のための特徴量として抽出する.それぞれ画像の撮影位置の緯度・経度Yahoo!ローカルサーAPIに与え,戻り値から位置周辺の建物・施設・ランドマークなどに関するテキスト情報Chasen[8]で形態素解析し,抽出した全単語の出現頻度の上2000語に対してヒストグラムを作成し,地理テキスト特徴とする.時間情報については,月につい12ビンと時間につい24ビンを用意し,該当する月・時刻とその隣接にそれぞ0.50.25を投票し,ヒストグラムに準ずる表現とする

2.3 学習と分類

認識精度の検証に当たっては,従来の手法と同様にサポートベクタマシ(SVM)を用いることに加え,画像と航空写真の有効性について判定するために,マルチカーネル学習を導入するSVMのカーネル関数として非線形2カーネルを用いる

2.4 マルチカーネル学習

特徴を統合して特徴量の有効性を識別するために,複数の特徴量のカーネルを線形結合することにより統合カーネルを作成し,それSVMに適用して特徴統合による画像認識を実現する.最適なカーネ(カーネルを重みつきで線形結合したカーネ)のサブカーネルに対する重jを学習する.これはマルチカーネル学(MKL) [3]問題と呼ばれ,統合カーネルは以下で定式化される

最近の研究では,こMKL問題を凸面最適化問題として効果的に解く方法が提案されてい[4].マルチカーネル学習SVMのみを前提としたものではないがSVMのフレームワークで解く方法が一般的でMKL-SVMと呼ばれることもある.本研究では,SHOGUN[5]ツールキットを用いて実装しMKL-SVMを使用して実験を行う

3 実験

実験は,各画像から抽出した特徴量をサポートベクタマシ(SVM)で学習させ,分類結果により精度を判定することにより行うSVMのフレームワークの下で,マルチカーネル学習で種類ごとの重みを推定す(MKL-SVM)ことにより,画像と位置情報などの他の特徴量がそれぞれどれだけ有用であるかを判断する

3.1 データセット

学習と分類は正解画像と不正解画像2クラスで行う.正解データセットについては,2に示8ジャン28種類のカテゴリ200枚ずつ選定した.不正解データセットはFlickrから収集した画像データの中から,正解データに用いられていないものをランダムに選定すること200枚準備した.航空写真4種類のスケールを採用(3),撮影位置が中央にくるような正方形に加工したものを利用する.

1: MKL-SVMにおける平均適合率の計算結果とMKLによる重み推定結果2種類におけ14GTHは,それぞれ航空写真のレベル,位置テキスト,時間HSVを示す.


3.2 特徴量の種類と組み合わせ

画像bag of keypoints表現,航空写真bag of keypoints(4レベルで4),周辺情報に関するヒストグラム,撮影時刻に関するヒストグラム表現HSVカラーヒストグラムの,8種類を扱う.これらをMKLに与えるにあたり3のように組み合わせる

3.3 評価

学習と分類5-foldのクロスバリデーションで行う.認識精度は各分類結果におけSVMの出力値に対して,平均適合率を計算することで評価する.平均適合率recall-precisionグラフの面積に相当す(2)

3.4

28カテゴリ8ジャンルにまとめた各平均についてMKLSVMの全ての組み合わせによる認識精度とSVMによる重み推定結果のうち2()による結果を省略したものを1に示す.

実験においては28種類のカテゴリを手動で選定したものを使用し,結果は平均適合率にして,抽出し8種類の特徴量を統合した精度81.05%と,画像bag of keypoints表現単体77.05%4%改善しHSV色特徴単体75.40%6%しのいだ.本実験では,位置情報テキストから生成できる特徴量は,航空写真visual wordsMKLの重みで凌駕した.

全体的傾向を重みと精度から判断するには,多様な特徴量 を融合した場合にテキスト特徴が有利であり、これは意味が鮮明 明な位置情報テキストの方が航空写真よりも価値があることを示していると言える.ただし5種類の分類で最も詳細な航空写真の重みが画BoKに次いで強いことから,より詳細な航空写真が利用可能であると仮定すれば,航空写真の有用性を再度注目できる可能性もある.時期依存的要素は他と比較して時間の重みが強いが,時間の特徴量自体は全体的に重みで他を凌いでいる訳ではない.

ランドマークや特定のイベントに関しては位置情報によって精度が向上したが,地形や地理構成物については詳細な地理情報を取得できるかどうかが精度改善の鍵を握る.屋外の人工物や一般的生物,食べ物などは位置情報によってあまり精度が上がらなかったことがわかった

4 おわり

4.1 まとめ

本研究では,位置情報付き写真の一般画像認識を拡張するにあたり,写真の撮影位置に対応する航空写真と周辺テキストの情報を付加的な画像特徴量として利用する手法を導入した.認識実験においては各種特徴量の組み合わせによる認識精度の変化を検証するとともに,マルチカーネル学(MKL,Multiple Kernel Learning)を導入することで,特徴量の種類ごとの認識への関与を定量的に分析した28種類のカテゴリによる実験では8種類の特徴統合により,画像bag of keypoints表現HSV色特徴のそれぞれ単体での認識精度を改善した

4.2 今後の課題

位置情報の認識精度をさらに検証し,役立てるには,大量かつ良質なデータ収集の手段について改めて模索していく必要がある.また,より一般的な画像認識の枠組みを実現するにあたり,海外の位置情報付き写真も利用することを視野に入れることが今後不可欠である.

参考文

[1] G. Csurka,C. Bray,C. Dance, and L.Fan.Visual categorization with bags

of keypoints. Proc.of ECCVWorkshop on Statistical Learningin Computer Vision, pp. 5974, 2004.

[2] D. Lowe. Distinctive Image Features from Scale-Invariant Keypoints. InternationalJournalof ComputerVision,Vol. 60, No. 2, pp. 91110, 2004.

[3] G. R.G. Lanckriet,N. Cristianini,P. Bartlett, L. E. Ghaoui, and M. I.Jor

dan. Learning the kernel matrix with semidenite programming. Journal of Machine Learning Research,Vol. 5, pp. 2772, 2004.

[4]S. Sonnenburg,G.R¨atsch,C.Sch¨afer, andB.Scha¨olkopf. Large scale mul

tiple kernel learning. Journal of Machine Learning Research, Vol. 7, pp. 15311565, 2006.

[5] Shogun -A Large Scale Machine Learning Toolbox. http://www.shoguntoolbox.org/

[6] K.Yaegashi and K.Yanai. Can Geotags Help Image Recognition?. Proc. of

thePacic-Rim Symposium on Image andVideoTechnology, pp. 361373, 2009.

[7] 八重樫恵,柳井啓:撮影位置の情報を用いた一般画像認識の可能性の検,情報処理学CVIM研究会, pp.1522, CVIM163-3, (2008)

[8] 茶筌. http://chasen.naist.jp/hiki/ChaSen/.