複数特徴統合フレームワークによる映像認識

湯 志遠

平成21年 2月6日

1 はじめに

地上波デジタル放送の開始や,HDDやDVDなどのメディアの普及および次世代の大容量メディアの登場とともに,一般の個人が大量のデジタル画像や動画データを蓄積することができるようになった. 一方,デジタルデータの大量化とともに,蓄積した大量のデータの中から,閲覧したいデータを探し出すことが問題となっている. この状況に対して,TRECVIDと呼ばれる共通テストコレクションを用いたビデオ検索技術に関する研究開発促進のための国際ワークショップが開催されている.

本研究では,多種類の画像特徴による SVMの出力結果をBoosting,AP weighted fusionなどのアルゴリズムで統合する概念認識フ レームワークを提案し,TRECVID2008 の概念認識タスクである「高次特徴抽出タ スク」に適用し,20 種類の対象概念の認識を行った.また,一般のSVMの代りに,複数の特徴カーネルを統 合するMKL SVMもフレームワークに導入し実験を行った.最後に,これらの統合 手法の結果を比較した.

2 TRECVID

TRECVID[1]とは,アメリカの国立標準技術研究所NIST(National Institute of Technology)の研究部門が行うテキスト検索ワークショップTREC(Text REtrieval Contest)から派生したビデオ映像検索ワークショップである.毎年共通のタスクおよび各タスクに対する評価基準を設定している. 今年開催されたTRECVID2008は

の5つのタスクが用意されている.

各タスクの実験を行うための映像データとして,オランダ語のドキュメンタリー を中心として約100時間のMPEG-1ファイルが用意されている.さらに,データを 「学習データ」と「テストデータ」と定義している.タスクの多くでは,学習データを基に実験システムの開発を行い,テストデータに対する実験結果を提出する手順を採っている.

TRECVID2008の高次特徴抽出タスクには,全39グループが参加した.

3 関連研究

IBM研究所のMilindら[]はTRECVIDワークショップのサーベイ論文で, ビデオ検索や分類などの分野に大きな改善を与えることを示した.それ以来, 複数特徴統合の研究は近年盛んで行われている. TRECVID2007の第1位の清華大学は色,テクスチャ ,エッジに基づいた26種類の特徴に 対しブースティングの統合手法を適用した. TRECVID2008の第1位のアムステルダム大学は5種類のSIFT特徴ヒストグラムの統 合で生成された16000次元の巨大ベクトルを使用し,SVMを用いて認識を行った. また,TRECVID以外では,Varmaら[2]はMKLの学習方法を提案し,Xoford flowerや Caltech101などのデータに対し実験を行い,顕著な性能向上を果たした.

以上の研究を踏まえ,本研究でも,多種類の特徴統合の方法を導入する.

4 複数特徴統合フレームワーク

本研究では,多種類の画像特徴を統合する概念認識フレームワークを提案する.図1のように,まず,TRECVID2008が提供し た映像から切り出されたキーフレームに対して,全体とグリッド分割及び局所領 域から,色,局所パターン,テキスト,動き及び顔の5種類の特徴を抽出する.そ れから,SVMを用いて,それぞれの特徴をモデリングして,最後にAdaboost[3]アルゴリズムを応用し,SVMの出力モデルを統合することによって,最終の統 合結果を出力する.また,一般的なSVMの代りに,各入力特徴量を重み付き線形カーネ ルの和によって統合するMKL SVM(Multiple Kernel Learning SVM)を導入し,直接認識結果を出力する.
図 1: framework
\includegraphics[width=\textwidth]{eps/frameworknew.eps}

5 画像特徴量

6 統合アルゴリズム

6.1 ブースティング

ブースティングは統計的学習理論の分野において,複数の弱識別器を組み合わせ 非常に性能が高い識別器を生成する学習方法式である.代表的なAdaboost で はある弱識別器を訓練するときには,その時点までの誤分類された データ点により大きな重みを与える.すべての弱識別器の訓練後には,図3 に示す ように,それらの予測結果を重み付き多数決により結合する.

今回はSVMの出力を統合するために,AdaBoostを用いる.通常のAdaBoostはブー スティングラウンドごとに,SVMを再学習するので,計算コストが大きい,結果 が不安定などの欠点が存在する.本研究では,ブースティ ングラウンドごとに再学習しないで,学習データの重みのみを更新するreweight 式のAdaBoost改良版を提案し,オリジナルのAdaBoostと両方実装した.

図 3: ブースティング
\includegraphics[width=0.8\textwidth]{eps/boosting.eps}

6.2 AP weighted fusion

AP weighted fusionは,学習データを用いて,各特徴ごとにAP(平均適合率)を計 算し,APを重みとする統合アルゴリズムである.本研究はブースティング以外, AP weighted fusionも実装した.

7 MKL SVM

MKLとは,複数のSVMカーネルを線形結合するときに,最適な重みを学習する手法であ る.最適な重みで線形結合によって生成された新たなカーネルをSVMのカーネル として使用するとMKL SVMを実現できる.本研究では,複数特徴のSVM出力を統合 する以外に,MKL SVMの実装も行い,統合結果を得た.

8 実験

8.1 学習データとテストデータ

実験データにはTRECVID2008が提供したデータを用いる.データはあらかじめ 「学習データ」と「テストデータ」に分けられます.学習データを使用し、システム を訓練し,テストデータに対して,検索を行います.

実験で使用する学習データは約33000枚であり、テストデータは35765枚である.

8.2 評価指標

一般的に、情報検索の結果は適合率(precision)で評価される.適合率は正確性の 尺度で、次の式で表す.

$\displaystyle precision$ $\textstyle =$ $\displaystyle \frac{検索された適合画像の数}{検索結果の画像の数} \nonumber$  

そして,平均適合率は,着目する枚数をNとし,1〜n位までの適合率を$pre_{n}$と すると,

$\displaystyle AP[precision\;at\;rank\;k]$ $\textstyle =$ $\displaystyle \frac{1}{N}\sum^{N}_{k=1}pre_{k}$  


で定義する.

本研究では,結果を評価を行う際には, 「推定平均適合率(Inferred Average Precision : infAP)」を用いる.TRECVID2006のデータ量が膨大なので,評価する とき,ランダムサンプリングでテストデータの約半分しか評価を行わない.推定平 均適合率を使用すると,より正確に評価を行うことができる.

8.3 結果

実験では,異なった角度から抽出された色,局所パターン,テキスト,動き,顔 ,テクスチャ特徴の全部で14種類の組み合わせをSVMとMKL SVMを用いて,モデル化して,統合を行いま した.

それぞれの統合方法のもっとも良かった結果は表1に示す. 表1の各行は20種類の対象に対して,AdaBoostの改良版, AdaBoostのオリジナルバージョン,AP weighted fusion,MKL SVMによる統 合結果およびTRECVID2008の参加チームの結果infAPの平均値,最高値を示している.一番下の行は各列の平均を示し ている.本実験の最高結果は,AP weighted fusionの結果のinfAP=0.0801となり, これは全世界39チームのうち第12位,日本の8チームのうち,第2位と相当する結 果である.

理論的に,オリジナルのAdaBoostはラウンドごとに再学習するので,結果が不 安定になる可能性が高い.これに対して,提案した簡単バージョンは全部の学 習データを使用するので,結果が安定である.しかし,本研究で実装したアル ゴリズムには曖昧さがあるので,いずれも良い結果が得られなかった.また, MKL SVMは最適問題を解くので,結果が最も良いと予想したが,実際にそうでは ない.原因としては,MKL SVMの内部パラメータを最適に設定できなかったと 考えられる.

表 1: 結果の比較
concept$\backslash$fusion smpAda orgAda APw MKL median max
01.Classroom 0.0038 0.0015 0.0218 0.0239 0.008 0.152
02.Bridge 0.0055 0.0123 0.0249 0.0175 0.004 0.117
03.E_Vehicle 0.0017 0.0001 0.0062 0.0015 0.003 0.065
04.Dog 0.0188 0.0145 0.1503 0.1192 0.067 0.271
05.Kitchen 0.0053 0.0161 0.0523 0.0389 0.010 0.165
06.Airplane_fly 0.0301 0.0161 0.0255 0.0181 0.029 0.278
07.Two people 0.0385 0.0201 0.0495 0.0007 0.050 0.174
08.Bus 0.0005 0.0007 0.0034 0.0032 0.004 0.119
09.Driver 0.0232 0.0268 0.0731 0.0682 0.046 0.324
10.Cityscape 0.0544 0.0803 0.1292 0.1138 0.059 0.258
11.Harbor 0.0085 0.0080 0.0110 0.0155 0.007 0.182
12.Telephone 0.0022 0.0023 0.0360 0.0168 0.011 0.136
13.Street 0.0760 0.0808 0.1746 0.0001 0.112 0.413
14.Demonstr 0.0126 0.0206 0.0502 0.0746 0.013 0.233
15.Hand 0.0665 0.0779 0.2035 0.0012 0.092 0.377
16.Mountain 0.0354 0.0401 0.0751 0.1154 0.042 0.246
17.Nighttime 0.1004 0.1358 0.1511 0.1571 0.105 0.323
18.Boat_Ship 0.1125 0.1017 0.1655 0.1330 0.093 0.394
19.Flower 0.0887 0.0912 0.1116 0.1154 0.058 0.161
20.Singing 0.0052 0.0168 0.0873 0.0211 0.013 0.258
mean 0.0345 0.0382 0.0801 0.0528 0.043 0.233

9 今後の課題

本実験の結果より,テキスト特徴や動き特徴などのような非静止画像特徴は,TRECVIDのデータには性能が良くないことが分かった.今後は非静止画像特徴の代りに,静止画像特徴を中心で増やし,統合することにより,より優れた結果を得ることは一つの課題である.また,実験では,MKL SVMを実装したが,理想な結果が得られなかった.MKL SVM の改良やパメータの調整などで,性能向上を図ることはもう一つの課題である.

文献目録

1
TREC Video Retrieval Evaluation.
http://www-nlpir.nist.gov/projects/trecvid/.

2
M. Varma and D. Ray.
Learning The Discriminative Power-Invariance Trade-Off.
In Proc. of IEEE International Conference on Computer Vision, pp. 1-8, 2008.

3
RE Schapire, Y. Freund, and RE Schapire.
Experiments with a New Boosting Algorithm.
In International Conference on Machine Learning, pp. 148-156, 1996.