YANAI Lab.電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室 |
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介 |
大量画像の意味的分類秋間 雄太 2008年 2月 7日 1 はじめにこれまでの画像分類では,外見的特徴を用いて関係性の薄い画像群に対しての カテゴリ分類が主流として行われてきた.つまり,ある程度ジャンルの異なる 画像の集合を見た目で分類するということである.しかし,その分類は「鳥」, 「自動車」などかなり おおざっぱで,「鳥」の種類を分類するような互いに類似している画像群の 分類は困難な問題として残っている.そこで,さらに認識や分類を詳しく行うために,意味的に一致している画像を さらに深い意味階層で分類する必要性がある.近年では,外見的特徴を 用いた画像の意味的分類を題材にした論文も発表されているが,数も少なく, 必ずしも良い結果が得られているわけではない. 研究の最終的な目的としては,大量画像を意味のある階層で分類していくことであるが, そのためには,ある程度の精度で画像を意味的に分類する必要があると考えられる. そこで本研究では,様々な手法を取り入れて,教師無しでの意味的分類の精度の向上を目指した.
2 画像分類の方針本実験では,「鳥」,「乗り物」の2つのカテゴリについての意味的分類を行う. それぞれカテゴリ内の10種類100枚ずつの画像をflickr APIで収集する.分類を行う前に,似た画像の分類では画像内の対象となる部分以外は 分類の邪魔になると考えられるので,背景画像データセットを使って, 各画像から背景部分を除去する処理を行う. 分類は,pLSA,pLSAベクトル,bag-of-keypoints表現で表した特徴ベクトル(ベースライン)を使って行う. 3 分類に用いる手法3.1 画像特徴抽出3.1.1 局所特徴3.1.1.1 SIFT特徴SIFT(Scale Invariant Feature Transformation)特徴は David Loweによって提案され、特徴点の検出(SIFT特徴)と128次元のベクトルとしての記述(SIFT記述子)の 2つのアルゴリズムでなっている. SIFT記述子は回転,スケール変化に強い.
3.1.1.2 Color SIFT画像をHSV色空間に変換した後,色相(H),彩度(S),明度(V)のそれぞれでSIFT記述子を 算出し,それらを対応した点で統合することで得られた点を特徴点とするものである. そのため,Color SIFT記述子は次元のベクトルからなる.
3.1.2 Bag-of-keypointsBag-of-keypointsモデル[1]は,相対位置を用いずに画像を局所特徴の集合と捉えた 手法である.局所特徴ベクトルを量子化したvisual wordsと呼ばれる特徴ベクトルを まとめてcode bookを構築する.それを記述子として画像特徴ベクトルを生成する.
3.1.3 pLSAベクトルpLSAを用いることで,画像が各トピックに所属する確率が求まり, トピック数の次元に特徴ベクトルを圧縮することで,トピックの数をとすると全ての画像を 次元のベクトルとして表現することができる.これをpLSAベクトル[2]と呼ぶこととする. pLSAの詳細は3.3で述べる.
3.2 背景除去背景除去は,対象の特徴である確率を求めて,その値がある一定値より高い特徴を 対象の特徴として使用する.対象の特徴である確率の求め方として2種類の方法を使った.3.2.1 背景データセット背景データセットは「鳥」,「乗り物」のそれぞれのカテゴリで用意し,「鳥」には草,湖,空,木の枝を, 「乗り物」には海,建物,線路,道,空,雪原,土,木を背景画像の種類として使う.データセットの種類は, 単純に複製したデータセットと明度などに手を加えて作成したデータセット,また,上記の種類とは関係なく 分類するカテゴリとは関係ない画像をランダムに収集したデータセットの3種類である.3.2.2 除去方法1 : 投票背景データセットと対象画像群をクラスタリングして得られたvisual wordから, 各画像に対して,そのvisual wordが発見された画像が背景データセットの画像であれば, 背景の特徴として投票し,それ以外なら,対象画像の特徴として投票し,最終的に 対象として投票された割合を確率とする.
3.2.3 除去方法2 : pLSAで求まった値からの算出背景データセットと対象画像群をクラスタリングして得たvisual wordから,bag-of-keypoints表現を 行い,pLSAに適応して求まるカテゴリに対して画像が含まれる確率,visual wordである が発生したときにどのカテゴリであるかの確率を使って,visual wordが対象画像の 特徴である確率を求める.
pLSA(probabilistic Latent Semantic Analysis)[3]はもともとテキスト処理に対して考えられた処理で,文書と単語,
単語から推測される話題に関する関係を確率的に算出する手法である.
テキスト処理で良い結果が得られたため,画像に関しても適用する試みがされた.
文書
として画像,単語
としてvisual word、話題
はカテゴリとして対応させた.
|
ここでの,目的は「鳥」,「乗り物」それぞれのカテゴリ(図1)で画像分類を行うことである. また,それぞれのカテゴリの10種類の画像を,5種類にまとめた場合(図1での同じ色のグループ)の分類もおこなった.
また,分類の精度をあげるために,背景除去の実験も行った.
画像分類の方法は表1の3通りである.
plsa | pLSAによる画像がトピックに |
所属する確率での分類 | |
plsa vector | pLSAベクトル(pLSAによる画像表現)を |
k-meansで分類 | |
base line | bag-of-keypoints表現で |
表した特徴ベクトルをk-meansで分類 |
10種類での分類では,乗り物カテゴリでk-meansによる分類のとき分類率が最大の41%となった.
一番,背景の除去が一番うまくいっていたのはColor SIFTを使って,明度などに 手を加えた背景データセットを使ったときであった.これは,色を考慮することで, 背景と対象の特徴が一致してしまうのを防ぎ,背景データセットの明度を変えることで, 画像の背景の細かい変化に対応できているからであると思われる.
また,今回の実験で,背景除去を行っても分類結果の改善にはつながらないということがわかった. むしろ,分類結果は悪くなっているのが図3からわかる.これは背景の情報が分類に有効であることを示す. たいていの生物などは,そのおかれている環境に適するようにできているので,まずそういった環境で 分類してから,その環境内の対象で分類することが有効になることが考えられる.
しかし,画像を意味的に分類することがたいへん困難であるということを改めて実感した. 「鳥」の分類などは人間にとっても難しい問題なので,そもそも画像だけでは分類が 不可能かもしれない.加えて,本研究では画像に関しての学習を行っていないため, より分類は困難である.
本研究で,pLSAベクトルを用いたのは分類を行うためだけでなく,階層的に分類することを視野に入れたものであった. それは,pLSAベクトルを用いることで画像のエントロピーを算出することが可能であり,エントロピー値が高い画像ほど そのクラスタ内の特徴全てを兼ね備えている可能性がある.そのため,エントロピーの高い画像をクラスタの 代表画像として,各クラスタの代表画像をクラスタリングすることで,クラスタの統合を行い,再び,同じ処理を 続けていけば,階層的に分類できると考えていた.しかし,実行するためにはクラスタを細かく分けたときの意味的分類が それなりの精度で行われている必要があると考えられる.