複数特徴統合フレームワークによる映像認識

湯志遠

平成21年 2月6日

1 はじめに

地上波デジタル放送の開始や，HDDやDVDなどのメディアの普及および次世代の大容量メディアの登場とともに，一般の個人が大量のデジタル画像や動画データを蓄積することができるようになった．一方，デジタルデータの大量化とともに，蓄積した大量のデータの中から，閲覧したいデータを探し出すことが問題となっている．この状況に対して，TRECVIDと呼ばれる共通テストコレクションを用いたビデオ検索技術に関する研究開発促進のための国際ワークショップが開催されている．

本研究では，多種類の画像特徴による SVMの出力結果をBoosting，AP weighted fusionなどのアルゴリズムで統合する概念認識フレームワークを提案し，TRECVID2008 の概念認識タスクである「高次特徴抽出タスク」に適用し，20 種類の対象概念の認識を行った．また，一般のSVMの代りに，複数の特徴カーネルを統合するMKL SVMもフレームワークに導入し実験を行った．最後に，これらの統合手法の結果を比較した．

2 TRECVID

TRECVID[1]とは，アメリカの国立標準技術研究所NIST(National Institute of Technology)の研究部門が行うテキスト検索ワークショップTREC(Text REtrieval Contest)から派生したビデオ映像検索ワークショップである．毎年共通のタスクおよび各タスクに対する評価基準を設定している．今年開催されたTRECVID2008は

監視イベント検出(Surveillance event detection)
高次特徴抽出(High-level feature extraction)
検索(Search)
ラッシュ要約(Rushes summarization)
内容ベースコピー検出(Content-based copy detection)

の5つのタスクが用意されている．

各タスクの実験を行うための映像データとして，オランダ語のドキュメンタリーを中心として約100時間のMPEG-1ファイルが用意されている．さらに，データを「学習データ」と「テストデータ」と定義している．タスクの多くでは，学習データを基に実験システムの開発を行い，テストデータに対する実験結果を提出する手順を採っている．

TRECVID2008の高次特徴抽出タスクには，全39グループが参加した．

3 関連研究

IBM研究所のMilindら[]はTRECVIDワークショップのサーベイ論文で，ビデオ検索や分類などの分野に大きな改善を与えることを示した．それ以来，複数特徴統合の研究は近年盛んで行われている． TRECVID2007の第1位の清華大学は色，テクスチャ，エッジに基づいた26種類の特徴に対しブースティングの統合手法を適用した． TRECVID2008の第1位のアムステルダム大学は5種類のSIFT特徴ヒストグラムの統合で生成された16000次元の巨大ベクトルを使用し，SVMを用いて認識を行った．また，TRECVID以外では，Varmaら[2]はMKLの学習方法を提案し，Xoford flowerや Caltech101などのデータに対し実験を行い，顕著な性能向上を果たした．

以上の研究を踏まえ，本研究でも，多種類の特徴統合の方法を導入する．

4 複数特徴統合フレームワーク

本研究では，多種類の画像特徴を統合する概念認識フレームワークを提案する．図1のように，まず，TRECVID2008が提供した映像から切り出されたキーフレームに対して，全体とグリッド分割及び局所領域から，色，局所パターン，テキスト，動き及び顔の5種類の特徴を抽出する．それから，SVMを用いて，それぞれの特徴をモデリングして，最後にAdaboost[3]アルゴリズムを応用し，SVMの出力モデルを統合することによって，最終の統合結果を出力する．また，一般的なSVMの代りに，各入力特徴量を重み付き線形カーネルの和によって統合するMKL SVM(Multiple Kernel Learning SVM)を導入し，直接認識結果を出力する．

**図 1:** framework
$\includegraphics[width=\textwidth]{eps/frameworknew.eps}$

5 画像特徴量

色特徴：色特徴としては，(1)キーフレーム画像のRGB色空間の各軸を4分割し，各領域の画素値の頻度を表現する64次元の正規化カラーヒストグラム (2)RGBのそれぞれの次元を独立に平均，分散，3次モーメントおよび4次モーメントを計算，連結することによって生成された12次元のカラーモーメントの2種類を使用する．
局所パターン特徴：局所パターン特徴としては，SIFT特徴を利用する．特徴点抽出アルゴリズムによって，特徴点を抽出し，その周囲のパターンをコード化する．特徴点に関して，本研究は図2のように，DOG，ランダムとグリッドの3つの角度から検出を行う．局所パターンを用いて画像をモデル化するために，bag-of-keypoints手法を導入する．

図 2: video indexing framework
$\includegraphics[width=\textwidth]{eps/pnt.eps}$
テキスト特徴： TRECVID2008が提供した音声テキストデータに対して， tf-idfアルゴリズムを適用することによって得られたワードベクトルを使用する．
動き特徴：キーフレーム前後0.5秒のオプティカルフローを求め，角度空間を12分割し，動きの大きさで投票して得られたヒストグラムを利用する．
顔特徴：キーフレーム画像から抽出された顔の数を使用する．
テクスチャ特徴： 6方向，4周期のガボールフィルタを用いて生成された24次元のガボールベクトルを使用する．

6 統合アルゴリズム

6.1 ブースティング

ブースティングは統計的学習理論の分野において，複数の弱識別器を組み合わせ非常に性能が高い識別器を生成する学習方法式である．代表的なAdaboost ではある弱識別器を訓練するときには，その時点までの誤分類されたデータ点により大きな重みを与える．すべての弱識別器の訓練後には，図3 に示すように，それらの予測結果を重み付き多数決により結合する．

今回はSVMの出力を統合するために，AdaBoostを用いる．通常のAdaBoostはブースティングラウンドごとに，SVMを再学習するので，計算コストが大きい，結果が不安定などの欠点が存在する．本研究では，ブースティングラウンドごとに再学習しないで，学習データの重みのみを更新するreweight 式のAdaBoost改良版を提案し，オリジナルのAdaBoostと両方実装した．

**図 3:** ブースティング
$\includegraphics[width=0.8\textwidth]{eps/boosting.eps}$

6.2 AP weighted fusion

AP weighted fusionは，学習データを用いて，各特徴ごとにAP(平均適合率)を計算し，APを重みとする統合アルゴリズムである．本研究はブースティング以外， AP weighted fusionも実装した．

7 MKL SVM

MKLとは，複数のSVMカーネルを線形結合するときに，最適な重みを学習する手法である．最適な重みで線形結合によって生成された新たなカーネルをSVMのカーネルとして使用するとMKL SVMを実現できる．本研究では，複数特徴のSVM出力を統合する以外に，MKL SVMの実装も行い，統合結果を得た．

8 実験

8.1 学習データとテストデータ

実験データにはTRECVID2008が提供したデータを用いる．データはあらかじめ「学習データ」と「テストデータ」に分けられます．学習データを使用し、システムを訓練し，テストデータに対して，検索を行います．

実験で使用する学習データは約33000枚であり、テストデータは35765枚である．

8.2 評価指標

一般的に、情報検索の結果は適合率(precision)で評価される．適合率は正確性の尺度で、次の式で表す．

$\displaystyle precision$

$\textstyle =$

$\displaystyle \frac{検索された適合画像の数}{検索結果の画像の数} \nonumber$

そして，平均適合率は，着目する枚数をNとし，1〜n位までの適合率を $pre_{n}$ とすると，

$\displaystyle AP[precision\;at\;rank\;k]$

$\textstyle =$

$\displaystyle \frac{1}{N}\sum^{N}_{k=1}pre_{k}$

で定義する．

本研究では，結果を評価を行う際には，「推定平均適合率(Inferred Average Precision : infAP)」を用いる．TRECVID2006のデータ量が膨大なので，評価するとき，ランダムサンプリングでテストデータの約半分しか評価を行わない．推定平均適合率を使用すると，より正確に評価を行うことができる．

8.3 結果

実験では，異なった角度から抽出された色，局所パターン，テキスト，動き，顔 ,テクスチャ特徴の全部で14種類の組み合わせをSVMとMKL SVMを用いて，モデル化して，統合を行いました．

それぞれの統合方法のもっとも良かった結果は表1に示す．表1の各行は20種類の対象に対して，AdaBoostの改良版， AdaBoostのオリジナルバージョン，AP weighted fusion，MKL SVMによる統合結果およびTRECVID2008の参加チームの結果infAPの平均値，最高値を示している．一番下の行は各列の平均を示している．本実験の最高結果は，AP weighted fusionの結果のinfAP=0.0801となり，これは全世界39チームのうち第12位，日本の8チームのうち，第2位と相当する結果である．

理論的に，オリジナルのAdaBoostはラウンドごとに再学習するので，結果が不安定になる可能性が高い．これに対して，提案した簡単バージョンは全部の学習データを使用するので，結果が安定である．しかし，本研究で実装したアルゴリズムには曖昧さがあるので，いずれも良い結果が得られなかった．また， MKL SVMは最適問題を解くので，結果が最も良いと予想したが，実際にそうではない．原因としては，MKL SVMの内部パラメータを最適に設定できなかったと考えられる．

**表 1:** 結果の比較
concept $\backslash$ fusion	smpAda	orgAda	APw	MKL	median	max
01.Classroom	0.0038	0.0015	0.0218	0.0239	0.008	0.152
02.Bridge	0.0055	0.0123	0.0249	0.0175	0.004	0.117
03.E_Vehicle	0.0017	0.0001	0.0062	0.0015	0.003	0.065
04.Dog	0.0188	0.0145	0.1503	0.1192	0.067	0.271
05.Kitchen	0.0053	0.0161	0.0523	0.0389	0.010	0.165
06.Airplane_fly	0.0301	0.0161	0.0255	0.0181	0.029	0.278
07.Two people	0.0385	0.0201	0.0495	0.0007	0.050	0.174
08.Bus	0.0005	0.0007	0.0034	0.0032	0.004	0.119
09.Driver	0.0232	0.0268	0.0731	0.0682	0.046	0.324
10.Cityscape	0.0544	0.0803	0.1292	0.1138	0.059	0.258
11.Harbor	0.0085	0.0080	0.0110	0.0155	0.007	0.182
12.Telephone	0.0022	0.0023	0.0360	0.0168	0.011	0.136
13.Street	0.0760	0.0808	0.1746	0.0001	0.112	0.413
14.Demonstr	0.0126	0.0206	0.0502	0.0746	0.013	0.233
15.Hand	0.0665	0.0779	0.2035	0.0012	0.092	0.377
16.Mountain	0.0354	0.0401	0.0751	0.1154	0.042	0.246
17.Nighttime	0.1004	0.1358	0.1511	0.1571	0.105	0.323
18.Boat_Ship	0.1125	0.1017	0.1655	0.1330	0.093	0.394
19.Flower	0.0887	0.0912	0.1116	0.1154	0.058	0.161
20.Singing	0.0052	0.0168	0.0873	0.0211	0.013	0.258
mean	0.0345	0.0382	0.0801	0.0528	0.043	0.233

9 今後の課題

本実験の結果より，テキスト特徴や動き特徴などのような非静止画像特徴は，TRECVIDのデータには性能が良くないことが分かった．今後は非静止画像特徴の代りに，静止画像特徴を中心で増やし，統合することにより，より優れた結果を得ることは一つの課題である．また，実験では，MKL SVMを実装したが，理想な結果が得られなかった．MKL SVM の改良やパメータの調整などで，性能向上を図ることはもう一つの課題である．

文献目録

1: TREC Video Retrieval Evaluation.
http://www-nlpir.nist.gov/projects/trecvid/.
2: M. Varma and D. Ray.
Learning The Discriminative Power-Invariance Trade-Off.
In Proc. of IEEE International Conference on Computer Vision, pp. 1-8, 2008.
3: RE Schapire, Y. Freund, and RE Schapire.
Experiments with a New Boosting Algorithm.
In International Conference on Machine Learning, pp. 148-156, 1996.

YANAI Lab.