複数特徴統合フレームワークによる映像認識

本研究では，多種類の画像特徴による SVMの出力結果をBoosting，AP weighted fusionなどのアルゴリズムで統合する概念認識フレームワークを提案し，TRECVID2008 の概念認識タスクである「高次特徴抽出タスク」に適用し，20 種類の対象概念の認識を行った．また，一般のSVMの代りに，複数の特徴カーネルを統合するMKL SVMもフレームワークに導入し実験を行った．最後に，これらの統合手法の結果を比較した．

2 TRECVID

TRECVID[1]とは，アメリカの国立標準技術研究所NIST(National Institute of Technology)の研究部門が行うテキスト検索ワークショップTREC(Text REtrieval Contest)から派生したビデオ映像検索ワークショップである．毎年共通のタスクおよび各タスクに対する評価基準を設定している．今年開催されたTRECVID2008は

各タスクの実験を行うための映像データとして，オランダ語のドキュメンタリーを中心として約100時間のMPEG-1ファイルが用意されている．さらに，データを「学習データ」と「テストデータ」と定義している．タスクの多くでは，学習データを基に実験システムの開発を行い，テストデータに対する実験結果を提出する手順を採っている．

TRECVID2008の高次特徴抽出タスクには，全39グループが参加した．

3 関連研究

以上の研究を踏まえ，本研究でも，多種類の特徴統合の方法を導入する．

4 複数特徴統合フレームワーク

**図 1:** framework
$\includegraphics[width=\textwidth]{eps/frameworknew.eps}$

5 画像特徴量

**図 2:** video indexing framework
$\includegraphics[width=\textwidth]{eps/pnt.eps}$

6 統合アルゴリズム

6.1 ブースティング

今回はSVMの出力を統合するために，AdaBoostを用いる．通常のAdaBoostはブースティングラウンドごとに，SVMを再学習するので，計算コストが大きい，結果が不安定などの欠点が存在する．本研究では，ブースティングラウンドごとに再学習しないで，学習データの重みのみを更新するreweight 式のAdaBoost改良版を提案し，オリジナルのAdaBoostと両方実装した．

**図 3:** ブースティング
$\includegraphics[width=0.8\textwidth]{eps/boosting.eps}$

6.2 AP weighted fusion

7 MKL SVM

8 実験

8.1 学習データとテストデータ

実験で使用する学習データは約33000枚であり、テストデータは35765枚である．

8.2 評価指標

そして，平均適合率は，着目する枚数をNとし，1～n位までの適合率を $pre_{n}$ とすると，

本研究では，結果を評価を行う際には，「推定平均適合率(Inferred Average Precision : infAP)」を用いる．TRECVID2006のデータ量が膨大なので，評価するとき，ランダムサンプリングでテストデータの約半分しか評価を行わない．推定平均適合率を使用すると，より正確に評価を行うことができる．

8.3 結果

それぞれの統合方法のもっとも良かった結果は表1に示す．表1の各行は20種類の対象に対して，AdaBoostの改良版， AdaBoostのオリジナルバージョン，AP weighted fusion，MKL SVMによる統合結果およびTRECVID2008の参加チームの結果infAPの平均値，最高値を示している．一番下の行は各列の平均を示している．本実験の最高結果は，AP weighted fusionの結果のinfAP=0.0801となり，これは全世界39チームのうち第12位，日本の8チームのうち，第2位と相当する結果である．

理論的に，オリジナルのAdaBoostはラウンドごとに再学習するので，結果が不安定になる可能性が高い．これに対して，提案した簡単バージョンは全部の学習データを使用するので，結果が安定である．しかし，本研究で実装したアルゴリズムには曖昧さがあるので，いずれも良い結果が得られなかった．また， MKL SVMは最適問題を解くので，結果が最も良いと予想したが，実際にそうではない．原因としては，MKL SVMの内部パラメータを最適に設定できなかったと考えられる．

**表 1:** 結果の比較
concept $\backslash$ fusion	smpAda	orgAda	APw	MKL	median	max
01.Classroom	0.0038	0.0015	0.0218	0.0239	0.008	0.152
02.Bridge	0.0055	0.0123	0.0249	0.0175	0.004	0.117
03.E_Vehicle	0.0017	0.0001	0.0062	0.0015	0.003	0.065
04.Dog	0.0188	0.0145	0.1503	0.1192	0.067	0.271
05.Kitchen	0.0053	0.0161	0.0523	0.0389	0.010	0.165
06.Airplane_fly	0.0301	0.0161	0.0255	0.0181	0.029	0.278
07.Two people	0.0385	0.0201	0.0495	0.0007	0.050	0.174
08.Bus	0.0005	0.0007	0.0034	0.0032	0.004	0.119
09.Driver	0.0232	0.0268	0.0731	0.0682	0.046	0.324
10.Cityscape	0.0544	0.0803	0.1292	0.1138	0.059	0.258
11.Harbor	0.0085	0.0080	0.0110	0.0155	0.007	0.182
12.Telephone	0.0022	0.0023	0.0360	0.0168	0.011	0.136
13.Street	0.0760	0.0808	0.1746	0.0001	0.112	0.413
14.Demonstr	0.0126	0.0206	0.0502	0.0746	0.013	0.233
15.Hand	0.0665	0.0779	0.2035	0.0012	0.092	0.377
16.Mountain	0.0354	0.0401	0.0751	0.1154	0.042	0.246
17.Nighttime	0.1004	0.1358	0.1511	0.1571	0.105	0.323
18.Boat_Ship	0.1125	0.1017	0.1655	0.1330	0.093	0.394
19.Flower	0.0887	0.0912	0.1116	0.1154	0.058	0.161
20.Singing	0.0052	0.0168	0.0873	0.0211	0.013	0.258
mean	0.0345	0.0382	0.0801	0.0528	0.043	0.233