saguar1

YANAI Lab.

電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介  

研究紹介 - 撮影位置の情報を用いた画像認識の可能性の検討

写真の撮影位置を計算機に学習させることで、 計算機が画像を認識する精度に変化が見られるかどうかを検証します。

研究背景

その写真の「場所」

「その写真はどこで撮影されたものですか?」
「これは、あの場所で撮ってきたものだよ」
私たちにとって、 写真の撮られた場所というのは、 とても直観的でわかりやすい情報。
その写真と、記憶とをつなげる、 とても重要な情報です。

より客観的な位置情報が身近に

GPS認識デバイスの普及により、
私たちのデジタル写真は、
客観的な位置情報を簡単に記録できるようになりました。

位置情報を用いた画像の自動認識

本研究室では、人間が理解できる 一般的な画像の認識を研究してきました。
画像の認識は、画像のデータそのものだけを使っても、
難しい多くの課題を抱えています。

この研究のねらいは、
私たちにとって身近な「位置情報」を、
計算機による写真の自動認識につなげていくことです。

例えば、日本のどこかで、
位置情報のついたライオンの写真があるとすると、
その位置は動物園に集中することが高いと考えられます。
また、海岸の撮影した写真は、陸と海の間に集中していることが
考えられるでしょう。

計算機が画像を認識するために、
位置情報が使える類のものと、
そうでないものを分類することで、
画像認識の課題解決に手掛かりを与えます。

実験の方法

実験に使ったデータ

実験には位置情報付きの写真と航空写真を使います。
画像はすべてFlickrにある 写真を使いました。

実験データセットの例です。 例えば、こちらは実験で使う画像の一部である、
東京タワーの写真と、その位置の周辺を表す航空写真です。
こうした写真についている
タグ(画像を説明する情報)を手がかりにして、
いくつかの画像の種類を分類しました。
この実験では、10種類のキーワードを考え、
分類を行いました。
それぞれ、次のような種類を示す画像の例を、2x2=4枚ずつ示します。

海岸景色 神社ラーメン
ディズニーランド道路 東京タワー鉄道

このような画像と、対応する航空写真のズームレベルの組み合わせを対応付けて、
計算機に学習させ、学習した結果の分類精度を評価します。
海岸の写真と、それに対応する航空写真の例です。
上に示すのは、海岸の写真と、それに対応する航空写真の例です。

データの選び方

Flickrでは、通常1人のユーザーが複数の画像を持っています。
データセットを作る際は、ユーザーの興味に偏りがでないように、
それぞれの種類に対して、
できるだけ多くのユーザーから、多様な画像を選ぶようにします。

それぞれの種類について、100枚の画像を実験に使いました。

後の方で説明しますが、
実験では、その種類「である」もの(OKデータ)と、
「そうではない」もの(NGデータ)を計算機に学習させる必要があるので、
上で示した10種類とは別に、NGデータセットも
100枚集めておきます。
もちろん、それらもFlickrの位置情報付き写真です。

学習と分類の仕方

実験データセットの例です。 この実験では、2値分類に基づく方法で学習と分類をします。
その方法を、ごく簡単に説明します。
(左図で、「SVM」と書いてあるのがこの方法です)

位置情報付き写真と、対応する航空写真から、
計算機が写真のことをとてもわかりやすく理解できるような
「特徴」を抽出します。
(左図でのSIFTやBag of Keypoints、 そしてCodebookのことです)
実験には、これに加えて、撮影位置を客観的に表す情報である、
緯度と経度も使います。

それぞれの位置情報付き写真について、
位置情報と、航空写真の「特徴」を対応づけて整理しておきます。

この「特徴」を使って、
10種類の画像(OKデータ)と、10種類のうちどれでもないもの(NGデータ)の、
データを用意して、下の表のように分けておきます。

学習用OKデータ分類用OKデータ
学習用NGデータ分類用NGデータ

このうち、学習用のデータを計算機に与えて、
計算機から「こんなことを学習しました」というデータ(学習モデル)
を受け取ります。その学習モデルと、
分類用データを計算機に与えて、分類させます。
そして、計算機が種類ごとのデータを、
「どれだけ正しく」分類できたかを評価します。

先ほど、「対応づけて整理する」と述べましたが、
実験では、対応づけたものを以下のような組み合わせにして、
それぞれ計算機に与えます。

  • 画像のみ
  • 画像+位置情報
  • 位置情報のみ
  • 画像+レベル1の航空写真
  • 画像+レベル2の航空写真
  • 画像+レベル3の航空写真
  • レベル1の航空写真のみ
  • レベル1の航空写真のみ
  • レベル1の航空写真のみ

こうすることで、
画像のみを学習分類させた場合と、
位置情報のいずれかが含まれる場合とで、
分類精度がどれだけ違うのかがわかります。

発表文献

八重樫 恵太, 柳井 啓司: 撮影位置の情報を用いた一般画像認識の可能性の検討, 情報処理学会CVIM研究会, pp.CVIM163-3, (2008). (PDF)

Valid XHTML 1.0!