saguar1

YANAI Lab.

電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介  

多数クラスに対応する概念間の関係を考慮した一般物体認識

松田 裕司

2011年 2月 8日



1 はじめに

オブジェクトやシーンといったカテゴリーの認識はコンピュータービジョンの分 野において重要な課題ではあるが、認識対象となるカテゴリが非常に多いことや、 同一カテゴリ内の対象のアピアランスの変化が極めて大きいことなどから、非常 に困難な問題となっている。 これまでの研究では、視覚的特徴が比較的大きく異なる数百のカテゴリの認識が 主流として行われており一定の成果を挙げている。しかし、人間は数万種類のオ ブジェクトやシーンを認識できると言われており、このレベルでの認識が期待さ れている。

2 目的

本研究では、Visual ontology[1]を用いて、概念間の関係を利用し た多数クラスへの画像分類を行うことを目的としている。 Ontologyとは、計算機に人間が理解しているような物事の関係性を理解させるこ とであり、Visual ontologyはそれを視覚的特徴を用いて実現することである。

3 提案手法

処理の流れ
  1. 学習画像およびテスト画像からSIFT、色特徴を抽出する。
  2. 学習画像のSIFTからコードブックを作成する。
  3. $1\times1$$2\times2$領域について、BoKとカラーヒストグラムを作成 し、最終的なベクトル表現を得る。
  4. 学習画像のベクトル表現を用いて、各概念間の距離を計算する。
  5. SVMにより学習を行う。
  6. SVMと4を用いて分類を行う。

3.1 特徴抽出

本手法では、特徴として色特徴とSIFTを用いる。

3.1.1 色特徴

色特徴はRGB色空間のカラーヒストグラムを用いる。

3.1.2 SIFT

SIFTは、D.Loweにより考案された、特徴点周りの局所画像パターンを128次元の ベクトルで表現する手法である。一般に回転やスケール変化に不変であり、照明 変化やアフィン変換(視点移動)にも頑健である。

3.2 画像のベクトル表現

色特徴は64色に減色した64次元カラーヒストグラムとして表現し、 SIFTはBoK(Bag of Keypoints)を用いて表現する。BoKは、画像を局所特 徴の集合としてみなし、局所特徴ベクトルの出現頻度で画像を表現する手法であ る。 さらにBoKは局所特徴の位置情報を無視してしまっているため、Spatial Pyramid matchingを利用する。 これは画像をグリッド分割し、それぞれの領域からヒストグラムを作成するとい う手法である。本研究では、$1\times1$および$2\times2$領域からそれぞれカラー ヒストグラムとBoKを作成し、これらを結合したものを画像のベクトル表現とす る。

3.3 Visual ontologyの作成

本研究では秋間らによって提案されたVisual ontology[1]を用いる。

まず、画像のベクトル表現に対して、各画像$d_{i}$の各トピック$z_{k}$への帰属確率 $P(z_{k}\vert d_{i})$をpLSAにより求める。pLSAは確率的クラスタリング手法の一つ である。

次にpLSAによって得られた$P(z\vert d)$を用いて、各概念を表すベクトル表現を作成する。 概念のベクトルは,式1のように,その概念に属する画像の表現ベクトルの平 均で表現される

$\displaystyle P(z \vert Concept)$ $\textstyle =$ $\displaystyle \Bigl(\sum_{d \in Concept} p(z\vert d) \Bigr) \ / \
\vert Concept\vert$ (1)

概念間の距離は、概念ベクトル間のJSダイバージェンスで計算する。 JSダイバージェンスは2つの確率分布間の距離尺度であり、この値が小さいほど 類似する概念であるということになる。

$\displaystyle D_{KL}(P\vert\vert Q)$ $\textstyle =$ $\displaystyle \sum_{i}P(i)log\frac{P(i)}{Q(i)}$ (2)
$\displaystyle D_{JS}(P\vert\vert Q)$ $\textstyle =$ $\displaystyle \frac{1}{2}D_{KL}(P\vert\vert M)+\frac{1}{2}D_{KL}(Q\vert\vert M)$ (3)
    $\displaystyle M = \frac{1}{2}(P+Q)$  

この概念間の距離を関係性としてVisual ontologyを実現している。

3.4 分類

分類器としてSVM(Support Vector Machine)を用いる。 SVMは教師ありの認識手法の一つで、マージン最大化という考え方で学習データ からデータ空間を分割する超平面を学習し、テストデータが与えられたときにそ のどちら側に含まれるかで分類を行う。 基本的には、2値分類を解くためのアルゴリズムであり、多クラス分類を行うた めには1-vs-rest分類を行う必要がある。

認識するカテゴリーの数をN、各カテゴリーの分類器の出力値を $y=\{y_{1},
\ldots y_{N}\}$、概念間の距離を$D(j,i)$、gを正定数として、通常の 1-vs-rest分類は式4、Visual ontologyを用いた分類は式 5のようになる。


$\displaystyle c$ $\textstyle =$ $\displaystyle \arg\max_j y_j$ (4)
$\displaystyle c$ $\textstyle =$ $\displaystyle \arg\max_j \sum_{i=1}^{N} y_i \exp(-gD(j,i))$ (5)

4 実験

4.1 データセット

本研究では、性能評価に ILSVRC2010(ImageNet Large Scale Visual Recognition Challenge 2010)1のデータ セットを用いる。このデータセットはImageNet[2]の画像で構成されており、1000種 類のカテゴリーについて学習用に約120万枚、テスト用に15万枚の画像が提供さ れている。

4.2 評価方法

本研究では、性能評価にLSVRC2010で使用される評価方法を採用する。 ILSVRC2010では、各画像毎に最大で五つのラベルを分類結果として出力し、それ に対して以下の二つの観点から評価がなされる。

Flat cost
正解が含まれていない割合
Hierarchical cost
正解のカテゴリーとどのくらい離れているか

システム全体は、すべてのテスト画像に対するエラースコアの平均で評価され、 画像一枚ごとの評価は、システムの出力するラベルを $l_{j}(j=1,\ldots,5)$、 画像の正解ラベルを gt とすると、以下の式6 のようになる。


\begin{displaymath}
e = min_{j}d(l_{j}, gt)
\end{displaymath} (6)

ここで、式6$d(l_{j}, gt)$ は、Flat costとHierarchicalcostとでは計算方法が異なり、Flat costでは

\begin{displaymath}
d(x, y) = \left \{
\begin{array}{l}
0 \hspace{5mm}(x == y) \\
1 \hspace{5mm}(otherwise)
\end{array}\right.
\end{displaymath} (7)

Hierarchical costでは
\begin{displaymath}
d(x, y) = H(x, y)
\end{displaymath} (8)

のように求められる。 ただし、H(x,y)はWordNet階層で最も近いxとy共通の祖先までの高さを表す。

この評価はエラー率であるため、値が低いほど正確に分類が行われているというこ とになる。

5 実験結果

SVMとvisual ontologyを利用した場合の比較を行う。

5.1 全体の評価

実験結果のflat costとhierarchical costを表1に示す。


表 1: 実験結果
Method flat cost hierarchical cost
SVM 0.8912 9.2475
Visual ontology (g = 1) 0.9950 10.5593
Visual ontology (g = 10) 0.9950 10.5593
Visual ontology (g = 100) 0.9025 9.4636

5のgの値を変化させていくと、$g\geq160$では重みがほぼ 単位行列となってしまい、通常の1-vs-restによる分類と同じ結果になっている。

5.2 カテゴリー別の評価

次に、カテゴリーごとの評価を行う。 Visual ontologyを用いた結果の上位10単語のflat cost、SVMでのflat costを表 2に示す。 図1は表2の単語のテスト画像の一部であ る。


表 2: カテゴリー別の結果
順位 単語 flat cost flat cost(SVM)
1 garden pink 0.0537 0.0671
2 lunar crater 0.0738 0.0738
3 odometer 0.1007 0.0940
4 rapeseed 0.1081 0.1081
5 wood anemone 0.1224 0.1293
6 sand dune 0.1275 0.1477
7 scanner 0.1419 0.1622
8 yellow chamomile 0.1477 0.1544
9 upright piano 0.1486 0.1554
10 sunflower 0.1554 0.1554

図 1: 分類精度の高いカテゴリーの画像
\includegraphics[width=0.75\hsize]{eps/good.eps}

6 考察

提案手法は、全体の評価では表1にあるようにSVMよりも悪く なるという結果になった。 原因としては、視覚的に類似するカテゴリーに属する画像同士は、分類の結果と して同様のカテゴリーに分類されることを期待しているが、今回使用した特徴や ベクトル表現ではSVMによる分類がうまくいかなかったため、不正解のカテゴリー である確率が高くなってしまったということが考えられる。 これを解消するためには、別の特徴やベクトル表現を用いて、それだけである程 度の精度を持つ分類器を作成する必要がある。

カテゴリーごとの結果では、表2のようにSVMによる分 類が正確に行われているカテゴリーについては、Visual ontologyを用いた場合 にもほとんど同じ順位であるが、上位10カテゴリー中6つにおいてSVMと比較して、 flat costが減少しているのが確認できる。これはSVMで正確に分類が出来ている カテゴリーについては、カテゴリー間の関係性を用いることによって、僅かでは あるが分類精度が向上することを示している。 このため既存の大量のカテゴリーの分類において成果を収めている手法と組み合 わせることでさらに有効性を示すことができる可能性がある。

7 まとめ

本研究では、Visual ontologyを用いて概念間の関係性を考慮した一般物体認識 手法を提案した。 Visual ontologyは、pLSAを用いて各概念を表す確率分布を求め、確率分布同士のJSダイ バージェンスを概念の関係性とみなして実現した。 ILSVRC2010データセットを用いて、提案手法の有効性を検証した結果、SVMによ る結果より悪くなるという結果となった。 しかし、分類精度が上位の一部のカテゴリーに関しては、概念間の関係性を用い ることで精度の向上が見られた。

8 今後の課題

今後の課題としては、今回の実験ではSVMによる分類精度が低かったために、結果 として提案手法の方が悪くなってしまった可能性がある。 そのため、より分類精度の高い、実際にILSVRC2010で用いられた特徴量やベクト ル表現などに対しても、実験を行う必要性がある。 他にも、カテゴリーを限定し、Visual ontologyを用いることが有効であるカテ ゴリーの調査も検討する。

文献目録

1
秋間雄太, 川久保秀敏, 柳井啓司.
Folksonomyによる階層構造画像データベースの構築.
画像の認識・理解シンポジウム (MIRU 2010), 2010.

2
J. Deng, W. Dong, R. Socher, J. Li, K. Li, and L. Fei-Fei.
ImageNet: A large-scale hierarchical image database.
In Proc. of IEEE Computer Vision and Pattern Recognition, 2009.


脚注

1
http://www.image-net.org/challenges/LSVRC/2010/