saguar1

YANAI Lab.

電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介  

一般画像認識の手法を用いた巨大画像知識データベースの構築

1 背景

一般物体認識[1]の研究とは,特定の制約のない実世界のシーンに 対して物体を計算 機に認識させる研究である.実世界のシーン画像は,同一対象の画像でも様々な 状態のものが存在する.しかし,現在の一般物体認識の研究では画像の種類が限ら れている.そのため,それを改善するには多様で質の高い学習画像となり得る 一般画像データベースが必要である.

2 研究目的

本研究の目的は,一般物体認識のための1000種類各1000枚以上の巨大画像知識デー タベースを構築することである.そのために,現在当研究室では1000種類各1000枚以 上の画像データがあるが,その精度は$ 40\%$程度である.また,その各コンセプト において人手で50枚程度の正解画像データベースが用意されている.
本研究では,100種類のコンセプトに対して8通りの方法で各画像に対する正解確 率のランク付けを行い,その精度を評価し,利用価値の高いデータベースの構築 を目指す.

3 画像認識の方法

各コンセプト内の人手で判別された正解学習画像50枚と,他のコンセプトの正解 画像からランダムに取得した100枚を学習画像として使用する.
特徴量には,局所特徴のSIFT(Scale Inbariant Feature Transform)特徴 [2]を使用する.特徴量とし て局所特徴を用いる場合,大量の特徴点を処理するため,bag-of-keypoints手法 [3]を用いて画像を一つの特徴ベクトルとして表現する.分類器には, SVM(Support Vector Machine)[4] とpLSA(Probabilistic Latent Semantic Analysis)[5]を用いて,正解学習画像との類似度 を計算する.

3.1 Bag-of-keypoints手法

局所特徴パターンの出現頻度(ヒストグラム)によって,画像を表現する方法であ る.各画像から多数の特徴点を抽出し,各点の局所画像パターンをSIFT法で128 次元特徴ベクトルにコード化する.ここで,k-means法によりcodebookを作 成し,代表的な特徴ベクトルを求める.各画像の特徴ベクトルを,作成した codebookに基づいたコードパターンのヒストグラムを構成することで,画像を一 つの特徴ベクトルで表現する.

3.1.0.1 SIFT特徴

SIFT特徴とは,特徴点周りの局所画像パターンを128次元特徴ベク トルで表現する手法である.この特徴量は,回転,スケール変化,照明変化に不 変な特徴量である.本研究では格子点特徴抽出とランダム点特徴抽出の2つの特 徴点抽出法を用いて,SIFT特徴を取り出す.

3.2 分類方法

3.2.0.1 SVM

SVMは基本的に2つのクラスを識別する分類器を構成するための学習法であり,本 研究では $ {\rm SVM}^{light}$[6]を用いて,学習画像から抽出した 特徴量から学習モデルを生成し,その学習モデルを元に実験画像の特徴量との類 似度を算出する.

3.2.0.2 pLSA

pLSAは統計テキスト文献処理から発生するモデルで,各画像を潜在トピックの混 成として表現する手法であり,潜在トピックを用いて,それぞれの画像における 各コンセプトへの帰属確率(類似度)を算出する.文書 $ d_{i}(i=1,2,\ldots,I)$に おける単語 $ w_{j}(j=1,2,\ldots,J)$の発生 確率を,潜在トピック $ z_{k}(k=1,2,\ldots,K)$を用いると以下の式で表される.


$\displaystyle P(w_{j}\vert d_{i})=\sum_{k=1}^{K}P(w_{j}\vert z_{k})P(z_{k}\vert d_{i})$ (1)


本研究では,学習データからpLSAを用いて得られた $ P_{train}(d\vert z_{k})$を用いて, 各トピック$ z_{k}$に帰属したものが正解画像である確率 $ P(OK\vert z_{k})$を計算す る.また, hold-in heuristics[5]の手法を用いて実験画像の $ P_{test}(z_{k}\vert d_{i})$を求める.これらの値を用いて,画像$ d_{i}$の正解 確率 $ P_{test}(OK\vert d_{i})$を計算すると以下の式であらわされる.


$\displaystyle P_{test}(OK\vert d_{i})=\sum_{k=1}^{K}P(OK\vert z_{k})P_{test}(z_{k}\vert d_{i})$ (2)


本研究では,潜在トピックの数を $ 10,30,50$の3通りの値を用いて実験を行う.

4 実験

4.1 データセット

本研究では,画像データセットとして当研究室でWWWから自動収集した画像を使 用する.ここでは,実験に用いるデータセットの条件としてコンセプト内の収集 画像枚数が1000枚以上あり,評価済枚数が45枚以上ある100種類を対象としている. この100種類のデータセットの適合率は$ 44.0\%$である. 対象コンセプトを表1に,その中の20種類のコン セプトについて の評価済み正解画像の例を図1に示す.



表 1: 100種類の対象データ
No. 単語 No. 単語 No. 単語 No. 単語
1 26 51 大仏 76 入学式
2 ダム 27 動物園 52 うなぎ 77 七夕
3 28 水族館 53 カニ 78 海水浴
4 29 球場 54 みかん 79 花火
5 30 競馬場 55 80 神輿
6 31 鳥居 56 さぬきうどん 81 音楽会
7 火口 32 屋台 57 ラーメン 82 踊り
8 33 58 キャベツ 83 剣道
9 34 キツネ 59 ほうれん草 84 相撲
10 ビーチ 35 60 トマト 85 ラグビー
11 漁港 36 パンダ 61 椎茸 86 マラソン
12 流氷 37 62 しゃぶしゃぶ 87 デスク
13 鍾乳洞 38 ネズミ 63 ステーキ 88
14 牧場 39 クジラ 64 焼酎 89
15 倉庫 40 65 紅茶 90 居酒屋
16 露天風呂 41 66 ジュース 91 ペン
17 ホール 42 紅葉 67 コーラ 92
18 43 銀杏 68 フェリー 93
19 つり橋 44 69 ジェット機 94
20 鉄道 45 マングローブ 70 ピアノ 95
21 林道 46 紫陽花 71 太鼓 96
22 47 サルビア 72 ネックレス 97 草花
23 神社 48 ミント 73 98
24 49 サンゴ 74 99 切手
25 天守閣 50 屏風 75 夕景 100 田植え

図 1: 20種類のコンセプトにおける正解画像の例
\includegraphics[width=0.96\hsize]{eps/good-sample3.eps}

4.2 実験手順

対象コンセプトの全画像からSIFT特徴を格子点,ランダム点からそれぞれ取り出 し,学習データのSIFT特徴をk-means法でクラスタリングしてcodebookを作成す る.学習画像の局所特徴と 実験画像の局所特徴をcodebookに基づいた別々のヒストグラムとして 表現し,学習画像の特徴ベクトルを用いて学習し,実験画像の分類を行った.
本研究では, 画像の特徴点抽出方法を格子点,ランダム点の2通り,分類器 をSVMとpLSAの2種類,pLSAにおいての潜在トピック数を10,30,50の3通り, 計8通りの方法で分類を行った.

4.3 評価方法

本研究では,評価方法に明確な規則がないため人手で評価を行う必要がある.ま た,実験データが多いために全てのデータに対しての評価を行うことは困難 である.そのため,各コンセプトにおける実験データからランダムに200枚の画 像を取り出して評価を行い,その結果をコンセプト全体の評価として利用するラ ンダムサンプリングの手法を用いた.
分類結果の評価に用いる基準として,適合率で分類システムの性能を評価する. 各コンセプトに含まれる正解画像の枚数は,ランダムサンプリングによって得ら れた該当コンセプト全体の適合率を用いて求めた.
ここで,適合率は次式で定義される.


$\displaystyle {\rm Precision}($適合率$\displaystyle )= \tfrac{{\rm True\ Positive}}{{\rm True\ Positive}+{\rm False\ Positive}}$ (3)


評価は,類似度の上位1000位での適合率と,各コンセプトに含まれる正解画像枚 数での適合率 を求めた.また,コンセプト全体での11点平均適合率も求め評価を行った.11点 平均適合率$ \tilde{P}$は再現率レベル $ x(x=0.0,0.1,\ldots,1.0)$における適合 率$ P(x)$を 用いて以下のように計算することができる.


$\displaystyle \tilde{P}=\frac{1}{11}\sum _{i=0}^{10}P(\frac{i}{10})$ (4)


4.4 実験結果

ランダム点特徴抽出を行い,SVMを用いた場合の結果を示す.ここで, 図2は「犬」のコンセプトにおけるランク付けを行った上位100位 と下位100位に含まれ る画像の例である.青色はGOOD画像,緑色はOK画像,赤色はNG画像,灰色は未評 価画像である.
2に,類似度の上位1000位での適合率の平均,正解画像枚数 までの適 合率の平均,11点平均適合率の平均を示す.
以上の結果から,ランダム点特徴抽出を用いて,SVMで分類を行った場合の結果が 1000位までの適合率の平均,正解画像枚数までの適合率の平均,11点平均適合率 の平均における値で,最も良い結果となった.この結果を用いて上位1000位まで の適合率から100種類のコンセプトに対して,1000枚のデータベースを構築すると 元の画像データセットの適合率$ 44.0\%$から,$ 3.5$ポイントの増加がみられた.
また,全コンセプトに対してSVMの方が良い結果となったわけではなく, 図3(a)に示すように,「墓」ではpLSAでの分類結果の方が良 い結果となる場合もあった.

図 2: 「犬」での分類結果の例(ランダム点SVM)
\includegraphics[width=0.6\hsize]{eps/pos100-2.eps} \includegraphics[width=0.4\hsize]{eps/neg100-2.eps}
(a)ランキング上位 (b)ランキング下位



表 2: 各分類器における適合率の平均値
特徴点 1000位までの 正解画像枚数までの 11点平均適合率
分類手法 抽出手法 適合率の平均(%) 適合率の平均(%) の平均(%)
SVM 格子点 47.046 54.356 57.989
SVM ランダム 47.511 55.104 58.748
pLSA(10) 格子点 45.706 51.515 55.260
pLSA(30) 格子点 46.377 52.897 56.814
pLSA(50) 格子点 46.430 52.684 57.066
pLSA(10) ランダム 43.636 47.679 51.597
pLSA(30) ランダム 45.156 51.395 54.534
pLSA(50) ランダム 46.137 51.863 56.058

図 3: SVMとpLSAの適合率の比較
\includegraphics[width=0.5\hsize]{eps/haka-result.eps} \includegraphics[width=0.5\hsize]{eps/tomato-result.eps}
(a)「墓」の場合 (b)「トマト」の場合

5 考察

pLSAでの分類において,潜在トピック数は事前に決める必要がある.そのため, 本研究では潜在トピック数を$ 10,30,50$の3通りで分類を行った.その結果, 表2からわかるように,潜在トピック数が大きい方が結果が 良い.しかし,潜在トピック数が大きくなればなるほど,分類と関係のない トピックまでも認識対象としてしまい,精度の低下につながる恐れがあるため, それぞれのコンセプトにおける最適な潜在トピック数を求める必要があると 考えられる.
また,SVMとpLSAの分類精度を比較した結果,pLSAよりもSVMの方が分類精度の高い 場合が多く,SVMが画像分類において有効な手段であることが 表2から見て取れる. ただし,これは1/0分類の結果であり,マルチクラス分類ではない.一般物体 認識において,あるコンセプトでは,そのコンセプト内に複数の分類可能なカ テゴリを含むものが存在する.そのため,コンセプトを1つのカテゴリではなく 複数のカテゴリに分類する方が一般画像知識データベースには有益であるため, マルチクラス分類においてもその精度を比較する必要がある.


6 今後の課題

収集枚数の少ないコンセプトに関して,さらに画像収集を行い現データ セットを拡張していく必要がある.また,各コンセプトにおける評価済 み画像についても,現データセットでは似通ったものばかりで正解画像データを構成 しているものがあった.そのため,評価済み画像の再構築を行い,多様性のある正解 画像データにしていかなければいけない.
また,マルチクラス分類を行うことで,コンセプトの多様性についても今後対応し ていくことが重要であると考えられる.そのため, 今回結果の良かったSVMだけを用いるのでは,マルチクラス分類に適した分類手法と は言えない.そのため,マルチクラス分類において再びSVMとpLSAの分類精度の比較 を行い,効率の良い分類システムを検証していく必要がある.
他にも,本研究で構築した画像データベースにはノイズとなる不正解画像が入って いるため,ノイズ画像の除去方法についても今後確立していく必要がある.


文献目録

1
柳井啓司.
一般物体認識の現状と今後.
情報処理学会論文誌: コンピュータビジョン・イメージメディア, Vol. 48, No. SIG16 (CVIM19), pp. 1-24, 2007.

2
D. G. Lowe.
Distinctive Image Features from Scale-Invariant Keypoints.
International Journal of Computer Vision, Vol. 60, No. 2, pp. 91-110, 2004.

3
G. Csurka, C. Bray, C. Dance, and L. Fan.
Visual categorization with bags of keypoints.
In Proc. of ECCV Workshop on Statistical Learning in Computer Vision, pp. 1-22, 2004.

4
N. Cristianini and J. Shawe-Taylor.
サポートベクターマシン入門.
共立出版, 2005.

5
T. Hofmann.
Unsupervised Learning by Probabilistic Latent Semantic Analysis.
Machine Learning, Vol. 43, pp. 177-196, 2001.

6
Thorsten Joachims.
$ {\rm svm}^{light}$.
http://www.cs.cornell.edu/People/tj/svm_light/index.html.