多数クラスに対応する概念間の関係を考慮した一般物体認識

松田裕司

2011年 2月 8日

1 はじめに

オブジェクトやシーンといったカテゴリーの認識はコンピュータービジョンの分野において重要な課題ではあるが、認識対象となるカテゴリが非常に多いことや、同一カテゴリ内の対象のアピアランスの変化が極めて大きいことなどから、非常に困難な問題となっている。これまでの研究では、視覚的特徴が比較的大きく異なる数百のカテゴリの認識が主流として行われており一定の成果を挙げている。しかし、人間は数万種類のオブジェクトやシーンを認識できると言われており、このレベルでの認識が期待されている。

2 目的

本研究では、Visual ontology[1]を用いて、概念間の関係を利用した多数クラスへの画像分類を行うことを目的としている。 Ontologyとは、計算機に人間が理解しているような物事の関係性を理解させることであり、Visual ontologyはそれを視覚的特徴を用いて実現することである。

3 提案手法

[

l]処理の流れ

学習画像およびテスト画像からSIFT、色特徴を抽出する。
学習画像のSIFTからコードブックを作成する。
$1\times1$ と $2\times2$ 領域について、BoKとカラーヒストグラムを作成し、最終的なベクトル表現を得る。
学習画像のベクトル表現を用いて、各概念間の距離を計算する。
SVMにより学習を行う。
SVMと4を用いて分類を行う。

3.1 特徴抽出

本手法では、特徴として色特徴とSIFTを用いる。

3.1.1 色特徴

色特徴はRGB色空間のカラーヒストグラムを用いる。

3.1.2 SIFT

SIFTは、D.Loweにより考案された、特徴点周りの局所画像パターンを128次元のベクトルで表現する手法である。一般に回転やスケール変化に不変であり、照明変化やアフィン変換(視点移動)にも頑健である。

3.2 画像のベクトル表現

色特徴は64色に減色した64次元カラーヒストグラムとして表現し、 SIFTはBoK(Bag of Keypoints)を用いて表現する。BoKは、画像を局所特徴の集合としてみなし、局所特徴ベクトルの出現頻度で画像を表現する手法である。さらにBoKは局所特徴の位置情報を無視してしまっているため、Spatial Pyramid matchingを利用する。これは画像をグリッド分割し、それぞれの領域からヒストグラムを作成するという手法である。本研究では、 $1\times1$ および $2\times2$ 領域からそれぞれカラーヒストグラムとBoKを作成し、これらを結合したものを画像のベクトル表現とする。

3.3 Visual ontologyの作成

本研究では秋間らによって提案されたVisual ontology[1]を用いる。

まず、画像のベクトル表現に対して、各画像 $d_{i}$ の各トピック $z_{k}$ への帰属確率 $P(z_{k}\vert d_{i})$ をpLSAにより求める。pLSAは確率的クラスタリング手法の一つである。

次にpLSAによって得られた $P(z\vert d)$ を用いて、各概念を表すベクトル表現を作成する。概念のベクトルは，式1のように，その概念に属する画像の表現ベクトルの平均で表現される

$\displaystyle P(z \vert Concept)$

$\textstyle =$

$\displaystyle \Bigl(\sum_{d \in Concept} p(z\vert d) \Bigr) \ / \ \vert Concept\vert$

(1)

概念間の距離は、概念ベクトル間のJSダイバージェンスで計算する。 JSダイバージェンスは2つの確率分布間の距離尺度であり、この値が小さいほど類似する概念であるということになる。

$\displaystyle D_{KL}(P\vert\vert Q)$	$\textstyle =$	$\displaystyle \sum_{i}P(i)log\frac{P(i)}{Q(i)}$	(2)
$\displaystyle D_{JS}(P\vert\vert Q)$	$\textstyle =$	$\displaystyle \frac{1}{2}D_{KL}(P\vert\vert M)+\frac{1}{2}D_{KL}(Q\vert\vert M)$	(3)
		$\displaystyle M = \frac{1}{2}(P+Q)$

この概念間の距離を関係性としてVisual ontologyを実現している。

3.4 分類

分類器としてSVM(Support Vector Machine)を用いる。 SVMは教師ありの認識手法の一つで、マージン最大化という考え方で学習データからデータ空間を分割する超平面を学習し、テストデータが与えられたときにそのどちら側に含まれるかで分類を行う。基本的には、2値分類を解くためのアルゴリズムであり、多クラス分類を行うためには1-vs-rest分類を行う必要がある。

認識するカテゴリーの数をN、各カテゴリーの分類器の出力値を $y=\{y_{1}, \ldots y_{N}\}$ 、概念間の距離を、gを正定数として、通常の 1-vs-rest分類は式4、Visual ontologyを用いた分類は式 5のようになる。

$\displaystyle c$	$\textstyle =$	$\displaystyle \arg\max_j y_j$	(4)
$\displaystyle c$	$\textstyle =$	$\displaystyle \arg\max_j \sum_{i=1}^{N} y_i \exp(-gD(j,i))$	(5)

4 実験

4.1 データセット

本研究では、性能評価に ILSVRC2010(ImageNet Large Scale Visual Recognition Challenge 2010)¹のデータセットを用いる。このデータセットはImageNet[2]の画像で構成されており、1000種類のカテゴリーについて学習用に約120万枚、テスト用に15万枚の画像が提供されている。

4.2 評価方法

本研究では、性能評価にLSVRC2010で使用される評価方法を採用する。 ILSVRC2010では、各画像毎に最大で五つのラベルを分類結果として出力し、それに対して以下の二つの観点から評価がなされる。

Flat cost

正解が含まれていない割合

Hierarchical cost

正解のカテゴリーとどのくらい離れているか

システム全体は、すべてのテスト画像に対するエラースコアの平均で評価され、画像一枚ごとの評価は、システムの出力するラベルを $l_{j}(j=1,\ldots,5)$ 、画像の正解ラベルを gt とすると、以下の式6 のようになる。

$\begin{displaymath} e = min_{j}d(l_{j}, gt) \end{displaymath}$

(6)

ここで、式6の $d(l_{j}, gt)$ は、Flat costとHierarchicalcostとでは計算方法が異なり、Flat costでは

$\begin{displaymath} d(x, y) = \left \{ \begin{array}{l} 0 \hspace{5mm}(x == y) \\ 1 \hspace{5mm}(otherwise) \end{array}\right. \end{displaymath}$

(7)

Hierarchical costでは

$\begin{displaymath} d(x, y) = H(x, y) \end{displaymath}$

(8)

のように求められる。ただし、H(x,y)はWordNet階層で最も近いxとy共通の祖先までの高さを表す。

この評価はエラー率であるため、値が低いほど正確に分類が行われているということになる。

5 実験結果

SVMとvisual ontologyを利用した場合の比較を行う。

5.1 全体の評価

実験結果のflat costとhierarchical costを表1に示す。

**表 1:** 実験結果
Method	flat cost	hierarchical cost
SVM	0.8912	9.2475
Visual ontology (g = 1)	0.9950	10.5593
Visual ontology (g = 10)	0.9950	10.5593
Visual ontology (g = 100)	0.9025	9.4636

式5のgの値を変化させていくと、 $g\geq160$ では重みがほぼ単位行列となってしまい、通常の1-vs-restによる分類と同じ結果になっている。

5.2 カテゴリー別の評価

次に、カテゴリーごとの評価を行う。 Visual ontologyを用いた結果の上位10単語のflat cost、SVMでのflat costを表 2に示す。図1は表2の単語のテスト画像の一部である。

**表 2:** カテゴリー別の結果
順位	単語	flat cost	flat cost(SVM)
1	garden pink	0.0537	0.0671
2	lunar crater	0.0738	0.0738
3	odometer	0.1007	0.0940
4	rapeseed	0.1081	0.1081
5	wood anemone	0.1224	0.1293
6	sand dune	0.1275	0.1477
7	scanner	0.1419	0.1622
8	yellow chamomile	0.1477	0.1544
9	upright piano	0.1486	0.1554
10	sunflower	0.1554	0.1554

**図 1:** 分類精度の高いカテゴリーの画像
$\includegraphics[width=0.75\hsize]{eps/good.eps}$

6 考察

提案手法は、全体の評価では表1にあるようにSVMよりも悪くなるという結果になった。原因としては、視覚的に類似するカテゴリーに属する画像同士は、分類の結果として同様のカテゴリーに分類されることを期待しているが、今回使用した特徴やベクトル表現ではSVMによる分類がうまくいかなかったため、不正解のカテゴリーである確率が高くなってしまったということが考えられる。これを解消するためには、別の特徴やベクトル表現を用いて、それだけである程度の精度を持つ分類器を作成する必要がある。

カテゴリーごとの結果では、表2のようにSVMによる分類が正確に行われているカテゴリーについては、Visual ontologyを用いた場合にもほとんど同じ順位であるが、上位10カテゴリー中6つにおいてSVMと比較して、 flat costが減少しているのが確認できる。これはSVMで正確に分類が出来ているカテゴリーについては、カテゴリー間の関係性を用いることによって、僅かではあるが分類精度が向上することを示している。このため既存の大量のカテゴリーの分類において成果を収めている手法と組み合わせることでさらに有効性を示すことができる可能性がある。

7 まとめ

本研究では、Visual ontologyを用いて概念間の関係性を考慮した一般物体認識手法を提案した。 Visual ontologyは、pLSAを用いて各概念を表す確率分布を求め、確率分布同士のJSダイバージェンスを概念の関係性とみなして実現した。 ILSVRC2010データセットを用いて、提案手法の有効性を検証した結果、SVMによる結果より悪くなるという結果となった。しかし、分類精度が上位の一部のカテゴリーに関しては、概念間の関係性を用いることで精度の向上が見られた。

8 今後の課題

今後の課題としては、今回の実験ではSVMによる分類精度が低かったために、結果として提案手法の方が悪くなってしまった可能性がある。そのため、より分類精度の高い、実際にILSVRC2010で用いられた特徴量やベクトル表現などに対しても、実験を行う必要性がある。他にも、カテゴリーを限定し、Visual ontologyを用いることが有効であるカテゴリーの調査も検討する。

文献目録

1: 秋間雄太, 川久保秀敏, 柳井啓司.
Folksonomyによる階層構造画像データベースの構築.
画像の認識・理解シンポジウム (MIRU 2010), 2010.
2: J. Deng, W. Dong, R. Socher, J. Li, K. Li, and L. Fei-Fei.
ImageNet: A large-scale hierarchical image database.
In Proc. of IEEE Computer Vision and Pattern Recognition, 2009.

脚注

... 2010)¹: http://www.image-net.org/challenges/LSVRC/2010/