YANAI Lab.電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室 |
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介 |
一般画像データベースの構築のための画像選別1.はじめに一般物体認識の研究とは、 従来の画像認識の研究で対象としてきた特定の制約の下で撮影された画像とは大きく異なり、 制約のない実世界のシーンの画像に対して物体を計算機に認識させる研究である。 一般物体認識においては、多様で質の高い学習画像となり得る一般画像データベー スが重要である。実世界シーンの画像においては、同一種類でも様々な画像が存在する。 しかし、現在のディファクトスタンダードのデータベースは、対象によって認識の難易度が大きく異なる問題点や、画像同士の見た目が良く似ていて、研究用のデータベースには不適切であるという問題点がある。 よって、同一コンセプト内の多様な画像を集めてデータベース化することが一般物体認識のためには重要になってくる。 すなわち、一般画像データベースを作ることによって、一般物体認識の研究のレベル向上が期待できる。 本研究の目的は、構築に必要な画像選別方法として新しい画像認識の手法を導入し、 その有効性を検証してみることである。 新しい画像認識の手法として、G.Csurkaらによって提案されたbag-of-keypoints手法を応用する。 具体的には、当研究室のシステムでWWWから集めてきた画像から特徴量を抽出し、 その特徴量を用いてカテゴリ分類実験を行った。
2.画像認識方法2.1 Bag-of-keypointsモデルBag-of-keypointsモデルとは、画像を局所特徴の集合と捉えた手法である。 局所特徴の特徴ベクトルをベクトル量子化し、visual wordsと呼ばれる特徴ベクトルを生成する。 それらをまとめたものをcode bookと呼び、それを記述子として画像の特徴ベクトルを生 成する。よって、画像はvisual wordの集合(bag)として表現されるわけである。①Web画像データセット ②特徴抽出 ③Visual word生成 ④画像の特徴ベクトル表現
SVMはニューロンのモデルとして最も単純な線形しきい素子を用いて、2クラスのパターン識別器を構成する手法である。 マルチクラス識別の学習方法として、 のマルチクラス対応の識別器である、 (Multi-Class support Vector Machine)がある。本研究ではこれを用いる。
3 実験
3.1 実験データセット実験データとして、1000種類各1000枚の一般画像データベース(すべて正解画像)を目標として当研究室のシステムによってWWWから自動収集されている画像を使用した。 その画像データベースのうち、10種類、及び100種類選んで(10種類で選んだものはすべて100種類に含んでいる)、各50枚の人手で正解画像 とした画像を用いた。これらの画像データは、学習データ、評価データとして利用する。 100種類は、ジャンル分けしたものを表2で示す。
3.2 評価方法分類実験の手法は、実験データセットの5-fold cross validationによって評価される。 その5回の実験結果の平均が分類結果とする。 分類結果の評価に用いる基準として、正確性の観点からみた適合率(precision)と、完全 性の観点からみた再現率(recall)、総合的な尺度としてF-値(F-measure)、 さらに、与えられた画像がどのクラスに分類されたか知るために混合行列(confusion matrix)で表してみる。再現率は で、 適合率は 、 F-値は両方の値の調和平均として求められる。
3.3 実験結果3.3.1 10種類分類実験の結果クラス別にそれぞれの手法のF-値を計算したものを表で示す。 ただし、bag-of-keypointsを用いた手法においては、結果がよかったcode bookサイズの実験結果のみ を示す。
3.3.2 100種類分類実験の結果10種類分類実験の結果では、SVMを用いた手法3、4においてカーネルの違いによる大きな結果の違いが なかったため、学習時間が圧倒的に短い線形(linear)カーネルによるSVMを100種類分類において 採用することとする。 100種類分類実験の結果を100種類の平均再現率と平均適合率を用いて表1で示す。 さらに、F-値で評価した結果の上位10種類と、下位10種類を表2で示す。
3.4 考察3.4.1 10種類の分類再現率、適合率ともbag-of-keypointsの方が、圧倒的に認識率が優れている。 標識の画像は図1を見るとわかるように、標識には、角や丸みを帯びたものなど他の種類にない物体の形状の特徴を持っていることがわかる。逆に、色の視点から見てみると、背景に建物や空が写っていて、色だけでは判断しにくい。 このことにより、カラーヒストグラムよりSIFT特徴の方が特徴量として有効だと示される。 手法3と手法4のF-値(図5)がほぼ等しいことから、SVMのカーネルの違いがないことがわかる。 この結果から、この10種類の画像は特徴空間において線形分離可能であったと考えられる。 つまり、bag-of-keypointsで表現した特徴ベクトルは、 この場合、次元数が800次元と極めて高かったために、非線形写像を行うことなく、 線形分離することが可能であったといえる。3.4.2 100種類の分類分類結果(表2)を見てみると、平均再現率、平均適合率とも約50%の 精度が得られた。 これはランダムサンプリングだと100クラスの場合、分類率が1%であることから、十分な分類精度が得られたということになる。最も分類結果が良かった種類は「自転車」で、再現率は0.94、適合率は0.81であった。逆に、最も分類結果が悪かった種類は「橋」で、再現率は0.02、適合率は0.04であった。 表3をみると、特徴が少ないと思われていた風景のジャンルの画像が予想に反して、上位に4種類も入っていた。これは、風景にも局所特徴が有効であることを示している。
4 おわりに本研究では、画像データをその画像のコンセプトにあったクラスに分類するシステムの作成を実現した。 10種類の分類実験では、最高で分類率84%の精度、100種類でも平均約50%の分類率を得られた。 ベースラインとしてカラーヒストグラムとNearest Neighborの手法と比較したが、その差は歴然であった。 今後の課題は、このbag-of-keypoints手法をデータベースの選別方法として取り入れ、データベースの拡張させる。 さらに、 O.Maronらの研究をもとに、Multiple Instance Learning(MIL)を導入することを考えている。 それと局所特徴を組み合わせることによりさらなる認識率の向上を目指したいと考える。 発表文献 |