大量画像の意味的分類

秋間雄太

2008年 2月 7日

1 はじめに

これまでの画像分類では，外見的特徴を用いて関係性の薄い画像群に対してのカテゴリ分類が主流として行われてきた．つまり，ある程度ジャンルの異なる画像の集合を見た目で分類するということである．しかし，その分類は「鳥」，「自動車」などかなりおおざっぱで，「鳥」の種類を分類するような互いに類似している画像群の分類は困難な問題として残っている．

そこで，さらに認識や分類を詳しく行うために，意味的に一致している画像をさらに深い意味階層で分類する必要性がある．近年では，外見的特徴を用いた画像の意味的分類を題材にした論文も発表されているが，数も少なく，必ずしも良い結果が得られているわけではない．

研究の最終的な目的としては，大量画像を意味のある階層で分類していくことであるが，そのためには，ある程度の精度で画像を意味的に分類する必要があると考えられる．そこで本研究では，様々な手法を取り入れて，教師無しでの意味的分類の精度の向上を目指した．

2 画像分類の方針

本実験では，「鳥」，「乗り物」の2つのカテゴリについての意味的分類を行う．それぞれカテゴリ内の10種類100枚ずつの画像をflickr APIで収集する．

分類を行う前に，似た画像の分類では画像内の対象となる部分以外は分類の邪魔になると考えられるので，背景画像データセットを使って，各画像から背景部分を除去する処理を行う．

分類は，pLSA，pLSAベクトル，bag-of-keypoints表現で表した特徴ベクトル(ベースライン)を使って行う．

3 分類に用いる手法

3.1 画像特徴抽出

3.1.1 局所特徴

3.1.1.1 SIFT特徴

SIFT(Scale Invariant Feature Transformation)特徴は David Loweによって提案され、特徴点の検出(SIFT特徴)と128次元のベクトルとしての記述(SIFT記述子)の 2つのアルゴリズムでなっている． SIFT記述子は回転，スケール変化に強い．

3.1.1.2 Color SIFT

画像をHSV色空間に変換した後，色相(H)，彩度(S)，明度(V)のそれぞれでSIFT記述子を算出し，それらを対応した点で統合することで得られた点を特徴点とするものである．そのため，Color SIFT記述子は $128\times3$ 次元のベクトルからなる．

3.1.2 Bag-of-keypoints

Bag-of-keypointsモデル[1]は，相対位置を用いずに画像を局所特徴の集合と捉えた手法である．局所特徴ベクトルを量子化したvisual wordsと呼ばれる特徴ベクトルをまとめてcode bookを構築する．それを記述子として画像特徴ベクトルを生成する．

3.1.3 pLSAベクトル

pLSAを用いることで，画像

が各トピック

に所属する確率 $P(z\vert d)$ が求まり，トピック数の次元に特徴ベクトルを圧縮することで，トピックの数を

とすると全ての画像を

次元のベクトルとして表現することができる．これをpLSAベクトル[2]と呼ぶこととする． pLSAの詳細は3.3で述べる．

3.2 背景除去

背景除去は，対象の特徴である確率 $P(fg\vert w)$ を求めて，その値がある一定値より高い特徴を対象の特徴として使用する．対象の特徴である確率 $P(fg\vert w)$ の求め方として2種類の方法を使った．

3.2.1 背景データセット

背景データセットは「鳥」，「乗り物」のそれぞれのカテゴリで用意し，「鳥」には草，湖，空，木の枝を，「乗り物」には海，建物，線路，道，空，雪原，土，木を背景画像の種類として使う．データセットの種類は，単純に複製したデータセットと明度などに手を加えて作成したデータセット，また，上記の種類とは関係なく分類するカテゴリとは関係ない画像をランダムに収集したデータセットの3種類である．

3.2.2 除去方法1 : 投票

背景データセットと対象画像群をクラスタリングして得られたvisual wordから，各画像に対して，そのvisual wordが発見された画像が背景データセットの画像であれば，背景の特徴として投票し，それ以外なら，対象画像の特徴として投票し，最終的に対象として投票された割合を確率 $P(fg\vert w)$ とする．

3.2.3 除去方法2 : pLSAで求まった値からの算出

背景データセットと対象画像群をクラスタリングして得たvisual wordから，bag-of-keypoints表現を行い，pLSAに適応して求まるカテゴリ

に対して画像

が含まれる確率 $P(d\vert z)$ ，visual wordである

が発生したときにどのカテゴリ

であるかの確率 $P(z\vert w)$ を使って，visual wordが対象画像の特徴である確率 $P(fg\vert w)$ を求める．

3.3 pLSA

pLSA(probabilistic Latent Semantic Analysis)[3]はもともとテキスト処理に対して考えられた処理で，文書と単語，単語から推測される話題に関する関係を確率的に算出する手法である．テキスト処理で良い結果が得られたため，画像に関しても適用する試みがされた．文書 $d\in D = \{d_1,...,d_N\}$ として画像，単語 $w\in W = \{w_1,...,w_M\}$ としてvisual word、話題 $z\in Z = \{z_1,...,z_K\}$ はカテゴリとして対応させた．

式(1)の関係から，EMアルゴリズムにより値の推定ができる．

$\begin{displaymath} P(w_i\vert d_j) = \sum^K_{k=1} P(w_i\vert z_k)P(z_k\vert d_j) \end{displaymath}$

(1)

4 実験

4.1 実験方法

**図 1:** 実験に使う画像のサンプル(左は「鳥」で左上から，bald eagle，osprey， red-tailed hawk，owl，mallard，duckling，macaw，heron，finch，puffin．右は「乗り物」で左上から，skidoo，motorbike，mountain bike，bullet train，sail boat，buses，sports car，hover craft，whirly bird，jetliner．)

ここでの，目的は「鳥」，「乗り物」それぞれのカテゴリ(図1)で画像分類を行うことである．また，それぞれのカテゴリの10種類の画像を，5種類にまとめた場合(図1での同じ色のグループ)の分類もおこなった．

また，分類の精度をあげるために，背景除去の実験も行った．

画像分類の方法は表1の3通りである．

**表 1:** 画像分類方法
plsa	pLSAによる画像がトピックに
	所属する確率 $P(z\vert d)$ での分類
plsa vector	pLSAベクトル(pLSAによる画像表現)を
	k-meansで分類
base line	bag-of-keypoints表現で
	表した特徴ベクトルをk-meansで分類

4.2 評価方法

画像分類の評価は分類率で行うこととした．各クラスタ

で最も数の多い種類の数を $n_c^{max}$ とすると，分類率は $\frac{\sum n_c^{max}}{\sum N_c}$ で求められる．

4.3 実験結果

4.3.1 背景除去の結果

最も背景の除去がうまく言っていると思われる結果を図2に示した．画像分類で背景の除去を行うときには，図2のときと同様の設定を使うこととした．

**図 2:** 対象の特徴抽出の結果

4.3.2 画像分類の結果

図3で，クラスタ数を60に固定したときの各手法の分類率を示している．特徴点抽出の方法やcode bookのサイズ等は最も値が良い設定での結果を使っている．

10種類での分類では，乗り物カテゴリでk-meansによる分類のとき分類率が最大の41%となった．

**図 3:** 各手法の分類結果(上が背景除去なし，下が背景除去あり)

4.4 考察

4.4.1 背景除去

今回の実験において，対象の特徴の求め方の違いでは，それほど除去の結果に差は現れなかった．

一番，背景の除去が一番うまくいっていたのはColor SIFTを使って，明度などに手を加えた背景データセットを使ったときであった．これは，色を考慮することで，背景と対象の特徴が一致してしまうのを防ぎ，背景データセットの明度を変えることで，画像の背景の細かい変化に対応できているからであると思われる．

4.4.2 画像分類

手法ごとの分類結果を示した図3から，今回扱った手法は，ベースラインの手法と同程度の結果しか示すことができなかった．そもそも，pLSAでの結果でも外見的な特徴のみで言えば，十分分類はされている．しかし，外見的な特徴は必ずしも，その画像の持つ意味と関係しない．そのため，意味的な分類はたいへん困難である．

また，今回の実験で，背景除去を行っても分類結果の改善にはつながらないということがわかった．むしろ，分類結果は悪くなっているのが図3からわかる．これは背景の情報が分類に有効であることを示す．たいていの生物などは，そのおかれている環境に適するようにできているので，まずそういった環境で分類してから，その環境内の対象で分類することが有効になることが考えられる．

5 おわりに

本研究では，意味的分類を成し遂げるために，pLSAや背景除去などの手法を取り入れて実験を行った．結果としては，意味的分類の改善を成し遂げることはできなかったが，背景情報の重要性を確認できたことは非常に意味のあることであると思われる．

しかし，画像を意味的に分類することがたいへん困難であるということを改めて実感した．「鳥」の分類などは人間にとっても難しい問題なので，そもそも画像だけでは分類が不可能かもしれない．加えて，本研究では画像に関しての学習を行っていないため，より分類は困難である．

本研究で，pLSAベクトルを用いたのは分類を行うためだけでなく，階層的に分類することを視野に入れたものであった．それは，pLSAベクトルを用いることで画像のエントロピーを算出することが可能であり，エントロピー値が高い画像ほどそのクラスタ内の特徴全てを兼ね備えている可能性がある．そのため，エントロピーの高い画像をクラスタの代表画像として，各クラスタの代表画像をクラスタリングすることで，クラスタの統合を行い，再び，同じ処理を続けていけば，階層的に分類できると考えていた．しかし，実行するためにはクラスタを細かく分けたときの意味的分類がそれなりの精度で行われている必要があると考えられる．

文献目録

1: G. Csurka, C. Bray, C. Dance, and L. Fan.
Visual categorization with bags of keypoints.
In Proc. of ECCV Workshop on Statistical Learning in Computer Vision, pp. 1-22, 2004.
2: 江田毅晴, 吉川正俊, 山室雅司.
Folksonomy のタグを用いた自動分類体系構築へ向けて (クラスタリング・カテゴライズ, 夏のデータベースワークショップ 2007 (データ工学, 一般)).
電子情報通信学会技術研究報告. DE, データ工学, Vol. 107, No. 131, pp. 405-410, 2007.
3: T. Hofmann.
Unsupervised learning by probabilistic latent semantic analysis.
Machine Learning, Vol. 43, pp. 177-196, 2001.

YANAI Lab.