saguar1

YANAI Lab.

電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介  

一般画像データベースの構築のための画像選別

1.はじめに

一般物体認識の研究とは、 従来の画像認識の研究で対象としてきた特定の制約の下で撮影された画像とは大きく異なり、 制約のない実世界のシーンの画像に対して物体を計算機に認識させる研究である。 一般物体認識においては、多様で質の高い学習画像となり得る一般画像データベー スが重要である。
図 1: 従来の画像データベースの例
図 2: 一般的な画像のデータベースの例

実世界シーンの画像においては、同一種類でも様々な画像が存在する。 しかし、現在のディファクトスタンダードのデータベースは、対象によって認識の難易度が大きく異なる問題点や、画像同士の見た目が良く似ていて、研究用のデータベースには不適切であるという問題点がある。 よって、同一コンセプト内の多様な画像を集めてデータベース化することが一般物体認識のためには重要になってくる。 すなわち、一般画像データベースを作ることによって、一般物体認識の研究のレベル向上が期待できる。

本研究の目的は、構築に必要な画像選別方法として新しい画像認識の手法を導入し、 その有効性を検証してみることである。 新しい画像認識の手法として、G.Csurkaらによって提案されたbag-of-keypoints手法を応用する。 具体的には、当研究室のシステムでWWWから集めてきた画像から特徴量を抽出し、 その特徴量を用いてカテゴリ分類実験を行った。

2.画像認識方法

図 3: 画像分類の流れ

2.1 Bag-of-keypointsモデル

Bag-of-keypointsモデルとは、画像を局所特徴の集合と捉えた手法である。 局所特徴の特徴ベクトルをベクトル量子化し、visual wordsと呼ばれる特徴ベクトルを生成する。 それらをまとめたものをcode bookと呼び、それを記述子として画像の特徴ベクトルを生 成する。よって、画像はvisual wordの集合(bag)として表現されるわけである。

①Web画像データセット
Webから画像を収集し、人手で各種類50枚ずつ正解画像を選択

②特徴抽出
SIFTアルゴリズム(SIFT++)を用いて特徴点を抽出し(1画像から100〜1000個)、特徴量(128次元)を計算する

③Visual word生成
k-meansでkeypointsをクラスタリング

図 4: Visual word生成

④画像の特徴ベクトル表現
画像中のkeypointsをcode book中の似ているvisual wordに割り当てて、ヒストグラム化

SVMはニューロンのモデルとして最も単純な線形しきい素子を用いて、2クラスのパターン識別器を構成する手法である。 マルチクラス識別の学習方法として、 ${\rm SVM}^{light}$のマルチクラス対応の識別器である、 ${\rm SVM}^{multiclass}$(Multi-Class support Vector Machine)がある。本研究ではこれを用いる。

3 実験

3.1 実験データセット

実験データとして、1000種類各1000枚の一般画像データベース(すべて正解画像)を目標として当研究室のシステムによってWWWから自動収集されている画像を使用した。

その画像データベースのうち、10種類、及び100種類選んで(10種類で選んだものはすべて100種類に含んでいる)、各50枚の人手で正解画像 とした画像を用いた。これらの画像データは、学習データ、評価データとして利用する。

100種類は、ジャンル分けしたものを表2で示す。

データセット1)
10種類
図 4: 10種類データセットのサンプル

データセット2)
100種類
予め、表のような大まかなジャンルを決め、さらに、それぞれサブジャンルを決めて分割していった。風景のジャンルには18種類900枚、自然のジャンルには26 種類1300枚、人工物のジャンルには52種類2600枚、スポーツのジャンルには4種類200枚、合計100種類5000枚のデータセットを用意した。

表1: 100種類の内容
ジャンル サブジャンル クラス名(種類名)
風景 行事 花火大会、ねぶた、フリーマーケット、雪祭り、阿波踊り、田植え
場所 紅葉、滝、海岸、湖、温泉、港、鍾乳洞、噴水、流氷、川、遊園地、日の出
自然物 動物 猫、犬、パンダ、ウサギ、トカゲ、カンガルー、コアラ、ヘビ、馬
水生物 いくら、ほたて、イルカ、うなぎ、まぐろ、金魚、カニ
植物 紫陽花、ツツジ、バラ、ヒマワリ、チューリップ、マングローブ、アス パラガス、にんじん、ぶどう、しいたけ
人工物 乗物 バス、自転車、オートバイ、電車、新幹線、気球、ヘリコプター、カヌー
建造物 橋、教会、ビル、石垣、天守閣、ダム、灯台、神社、寺院、トンネル 、レール、標識
小物 財布、切手、こけし、指輪、ネックレス、リュック、マフラー、ストー ブ、スーツ、くつ、グローブ、ネジ
食物 ラーメン、ケーキ、ピザ、かりんとう、いちご、餃子、みかん、アイス クリーム、スパゲッティ、ハンバーガー、寿司
楽器 ピアノ、トランペット、バイオリン、ハープ、太鼓
固有名詞 モアイ、こいのぼり、議事堂、アンコールワット
スポーツ ロッククライミング、卓球、剣道、相撲

3.2 評価方法

分類実験の手法は、実験データセットの5-fold cross validationによって評価される。 その5回の実験結果の平均が分類結果とする。 分類結果の評価に用いる基準として、正確性の観点からみた適合率(precision)と、完全 性の観点からみた再現率(recall)、総合的な尺度としてF-値(F-measure)、 さらに、与えられた画像がどのクラスに分類されたか知るために混合行列(confusion matrix)で表してみる。

再現率は $\frac{正しく分類されたデータ集合}{分類されるべきデータ集合}$で、 適合率は $\frac{正しく分類されたデータ集合}{分類されたデータ集合}$、 F-値は両方の値の調和平均として求められる。

3.3 実験結果

3.3.1 10種類分類実験の結果

クラス別にそれぞれの手法のF-値を計算したものを表で示す。 ただし、bag-of-keypointsを用いた手法においては、結果がよかったcode bookサイズの実験結果のみ を示す。

図5 : 10種類のF-値

3.3.2 100種類分類実験の結果

10種類分類実験の結果では、SVMを用いた手法3、4においてカーネルの違いによる大きな結果の違いが なかったため、学習時間が圧倒的に短い線形(linear)カーネルによるSVMを100種類分類において 採用することとする。

100種類分類実験の結果を100種類の平均再現率と平均適合率を用いて表1で示す。 さらに、F-値で評価した結果の上位10種類と、下位10種類を表2で示す。


表 2: 100種類の分類結果
平均再現率 平均適合率
0.511 0.489


表 3: 100種類のF-値のTOP10とWORST10
クラス名 TOP10 クラス名 WORST10
自転車 0.87 0.03
ネックレス 0.78 0.05
阿波踊り 0.77 神社 0.05
花火大会 0.76 0.08
スパゲッティ 0.76 相撲 0.11
温泉 0.76 アスパラガス 0.14
剣道 0.76 0.17
ねぶた 0.75 うなぎ 0.18
石垣 0.74 トカゲ 0.18
スーツ 0.73 ツツジ 0.19

3.4 考察

3.4.1 10種類の分類

再現率、適合率ともbag-of-keypointsの方が、圧倒的に認識率が優れている。 標識の画像は図1を見るとわかるように、標識には、角や丸みを帯びたものなど他の種類にない物体の形状の特徴を持っていることがわかる。逆に、色の視点から見てみると、背景に建物や空が写っていて、色だけでは判断しにくい。 このことにより、カラーヒストグラムよりSIFT特徴の方が特徴量として有効だと示される。 手法3と手法4のF-値(図5)がほぼ等しいことから、SVMのカーネルの違いがないことがわかる。 この結果から、この10種類の画像は特徴空間において線形分離可能であったと考えられる。 つまり、bag-of-keypointsで表現した特徴ベクトルは、 この場合、次元数が800次元と極めて高かったために、非線形写像を行うことなく、 線形分離することが可能であったといえる。

3.4.2 100種類の分類

分類結果(表2)を見てみると、平均再現率、平均適合率とも約50%の 精度が得られた。 これはランダムサンプリングだと100クラスの場合、分類率が1%であることから、十分な分類精度が得られたということになる。最も分類結果が良かった種類は「自転車」で、再現率は0.94、適合率は0.81であった。逆に、最も分類結果が悪かった種類は「橋」で、再現率は0.02、適合率は0.04であった。 表3をみると、特徴が少ないと思われていた風景のジャンルの画像が予想に反して、上位に4種類も入っていた。これは、風景にも局所特徴が有効であることを示している。

4 おわりに

本研究では、画像データをその画像のコンセプトにあったクラスに分類するシステムの作成を実現した。 10種類の分類実験では、最高で分類率84%の精度、100種類でも平均約50%の分類率を得られた。 ベースラインとしてカラーヒストグラムとNearest Neighborの手法と比較したが、その差は歴然であった。

今後の課題は、このbag-of-keypoints手法をデータベースの選別方法として取り入れ、データベースの拡張させる。 さらに、 O.Maronらの研究をもとに、Multiple Instance Learning(MIL)を導入することを考えている。 それと局所特徴を組み合わせることによりさらなる認識率の向上を目指したいと考える。

発表文献

上東 太一 柳井 啓司:Bag-of-Keypoints表現を用いたWeb画像分類 情報処理学会コンピュータビジョン・イメージメディア研究会 pp.CVIM159-26,(2007). (PDF)