Web動画マイニングのための時空間特徴抽出手法の提案

野口顕嗣

2010年 2月 4日

1 はじめに

映像中の動作を認識することは極めて有意義で，様々なアプリケーションに利用することができるが，現在アノテーションされた動作のデータセットは非常に少ない．しかし， Web上にはタグによって，ある程度分類されている動画が大量に存在している．よって，そのタグにより映像を大量に収集し，その分類を行うことで動作のデータセットを構築することが重要になってくると考えられる．

そこで本研究では，Web動画分類に適した時空間特徴を提案し，その特徴を利用することで，実際に Web動画分類を行うことを目的とする．Web動画分類として，教師信号ありの動作ランキング付け，教師信号なしの動作クラスタリングの二通りの分類を行った．

もう一つの本研究の目的が多種類特徴統合による動作認識手法の提案である．画像認識の分野では特徴を統合することで精度が向上することが実証されている．本研究では，動き特徴，視覚特徴，時空間特徴の3つの特徴をMultiple Kernel Learning(MKL)によって統合し，動作認識を行う．なお本研究では動画をシーンチェンジの境界で分割したショットを単位として分類を行うこととする．

2 関連研究

Web動画における動作認識を行った研究は少ない．CinbisらはWeb上から動作を自動学習する手法を提案し，Youtubeデータに対して，動作認識を行っている[3]．しかしここで用いられた，学習データは静的な画像であり，抽出される特徴も，静的な特徴のみを利用している．一方で本研究では，視覚的な特徴のみではなく，動き特徴も認識に利用する．

Liuらは，既存の時空間特徴と，視覚特徴を統合することでWeb動画における動作認識を行っている[1]．またこの研究では，Page Rankに基づく特徴選択を行うことで精度を向上させている．この手法では動作認識を行うために既存の特徴をどのように利用するかに重点があるが，本研究では，Web動作認識のための新たな特徴を提案し，動作を認識する．

3 研究方針

本研究では，(1)時空間特徴の抽出，(2)特徴統合による動作認識，(3)大量データに対するWeb動画分類，の3つの貢献がある．以下ではそれぞれの概要について述べていく．

3.1 時空間特徴抽出

本研究で提案する時空間特徴は，(1)カメラモーション検出， (2)視覚特徴決定，(3)時空間特徴点の決定，(5)Delaunay三角分割，(4)動き特徴の抽出，(5)特徴を統合．の5つのステップに分けることが出来る．以下ではそれぞれについて述べていく．

3.1.0.1 カメラモーション検出

本研究ではカメラモーションを検出するため，グリッド上に動きを抽出し，一定割合以上の領域が動いていた場合，カメラモーションの検出とする．カメラモーションが検出された場合そのフレームからは特徴は抽出されない．

3.1.0.2 視覚特徴の抽出

本研究では，高速に抽出が可能なSURF[2]に基づき，特徴を抽出する．ここで抽出された特徴は時空間特徴の候補となる(図1(1))

3.1.0.3 時空間特徴点の決定

視覚特徴で求められた候補点の内，動きのない点は時空間特徴として重要ではない．よって各特徴点に関して動きを計算することで，動きのなかった点を削除し，動きのあった点を時空間特徴点とする(図1(2))．

3.1.0.4 Delaunay三角分割

次に時空間特徴点に対して，Delauney三角分割を行う．特徴は三角形の頂点を構築する 3点の組で表現され，SURFによって求められた，スケールによって順番に整列を行う．これを行うことで，点の情報のみでなく，隣接した点の情報も考慮した特徴が構築できる(図1(3))．

3.1.0.5 動き特徴抽出

図2は動き特徴の抽出の様子を示している．選択されたNフレームを， M分割する．そして各特徴点に対して，動きを計算することで，動きを特徴化する．動き情報としては，各点の動きと，分割された三角形の面積の変動を特徴化することで得られる．抽出された特徴はDollarらの手法[4]に従い，video words化することで分類に利用される．

3.2 特徴統合による動作分類

動作によって，分類するために重要な特徴は異なる．例えば"running"と"jogging"を分類するためには，視覚特徴での分類は難しいが，動き特徴を利用することで分類を行うことが可能となってくる．そこで本研究ではMKLに基づき各特徴の重みを自動で計算する手法を提案する．利用した特徴は時空間特徴，視覚特徴，動き特徴の三種類である．

3.2.0.1 視覚特徴

6方向，4周期のガボールフィルタを用いて作成された24次元のガボール特徴を利用する．ただし画像を $2\times2$ に分割することで得られる $24\times4=96$ 次元のベクトルを視覚特徴として利用する．

3.2.0.2 動き特徴

グリッド上にオプティカルフローを計算することで動き特徴を求める．各オプティカルフローは 8方向，7段階のヒストグラムに投票されていく．

3.2.0.3 Bag-of-Frames

多くの研究で，特徴はキーフレームのみから抽出を行っているが，選ばれるキーフレームは認識に大きな影響を与える．しかし最も重要なキーフレームを見つけることは非常に困難な問題である．そこで本研究では，Bag-of-Framesという新たな考えを導入することでこの問題を解決する．

Bag-of-Framesとは，画像認識におけるBag-of-Featuresを動画に拡張したものであり，フレーム一枚を一つの局所特徴と見なすことで，フレームの特徴の出現頻度で動画全体を表現する手法である．

3.2.0.4 MKL

特徴統合にはMultiple Kernel Learning(MKL)を利用する．これは複数のSVMカーネルを線形結合することにより一つの最適なカーネルを構築する手法である．MKLを用いることで，サブカーネルの最適な重みをSVM の学習パラメータと同時に求めることが出来る．

**図 1:** 視覚特徴抽出の様子
$\includegraphics[clip,width=1.0\hsize]{img/visual_change2.eps}$

**図 2:** 全体の動き特徴抽出概要(左)，局所追跡の概要(右)
$\includegraphics[width=0.7\hsize]{img/motion_method.eps}$

**図 3:** KTHデータセットによる分類結果
$\includegraphics[width=\hsize]{img/KTH_result2.eps}$

**図 4:** KTHにおける最新手法との比較
$\includegraphics[width=\hsize]{img/comp_KTH2.eps}$

**図 5:** Our Youtubeデータセットによる分類結果
$\includegraphics[width=\hsize]{img/youtube_result2.eps}$

**図 6:** Wild Youtubeデータセットの他手法との比較
$\includegraphics[width=\hsize]{img/wild_comp2.eps}$

**図 7:** 教師信号ありのWeb動画ショット分類の結果
$\includegraphics[width=\hsize]{img/web_result2.eps}$

**図 8:** k-meansクラスタリングによるdancingの分類結果の例
$\includegraphics[width=\hsize]{img/k-means_dancing2.eps}$

3.3 大量Web動画分類

本研究では，Web動画を分類において，教師信号ありの分類に加えて，教師信号なしの分類も試みた．

3.3.0.1 教師信号ありWeb動画ショット分類

"walking"という単語で収集されたショットには"walking"を含むショットもあるが，含まないショットも大量に存在している．そこで本実験では各ショットが"walking"を含むかどうか可能性の高い順にランキング付けを行う．

それを行うために，収集されたノイズを含むショットからランダムに学習データを選択し，その学習セットからSVMを学習する．その後，残ったテストセットに対してSVMで分類を行う．ランキングはSVMの出力値に基づいて行われる．

3.3.0.2 教師信号なしWeb動画ショット分類

"soccer"という単語で収集された動画には様々なシーンが含まれている．そこで本実験では，教師なしクラスタリングを行うことで"soccer"を「試合のシーン」，「インタビューシーン」などシーンを自動で分類することを目的とする．

分類手法として，pLSAとk-meansクラスタリングによりショットを自動分類していく．ただしどちらの分類に関しても，クラスタ数は 200に設定した．

4 評価実験

本研究では，評価実験として，3種類のデータセットを用いた動作認識，またWeb動画分類として教師信号ありの分類と，教師信号なしの分類を行い，評価した．

動作認識の評価を行うため，本研究では3つのデータセットを使用する．一つ目が，KTHデータセットである．これは動作認識の研究において最も利用されているデータセットで，6種類の動作，計599のショットを含んでいる．しかしKTHデータセットには，「カメラが動かない」，「動作している人間は一人」などの制約がある．そこで本研究では独自にデータセットを構築し，動作分類を行った(Our Youtube dataset)．これは6種類の動作，計600のショットから成り，カメラモーション，背景ノイズなども含んだ，より制限のないデータセットである．最後がLiuらによって構築されたデータセット(Wild Youtube dataset)である[1]．これは11の動作，計1595のショットを含む．このデータセットも Our Youtube datasetと同様により制約の少ないデータセットである．

4.1.0.2 Web動画分類

教師なし分類にはOur Youtube datsasetと同様に6種類の動作，合計66時間，37,179のショットを利用した．また教師なし分類では "soccer", "dance"の二種類の動作，合計27時間，18,665ショットを利用した．

4.2 実験結果

4.2.0.1 KTH dataset

図3は本提案手法におけるKTHの分類率を示している．単一特徴にて最も結果が良かった時空間特徴は91.0%の分類率であったのに対し，MKLで特徴を統合することで94.0%となり，特徴を統合することで分類結果が向上することが分かる．動作ごとに見た場合，"running"と"jogging"において時空間特徴より，動き特徴が分類精度が高く，この二つの動作を分類するためには動きが重要であることを示している．

また図4は本提案手法と，最新手法の比較を行った結果である．本研究の分類率は94.0%である，Liuらの手法が91.8%，Linらの手法が93.3%，Gilbertらの手法が94.3% であり最新手法に匹敵する精度であることが分かる．

4.2.0.2 Our Youtube dataset

図4はOur Youtube datasetにおける分類率を示している．ただしVMRは時空間特徴を示している．単一の特徴では，全ての動作において時空間特徴が最も良い結果で77.8%となっている．しかし特徴を統合することで，その精度が83.3%まで向上している．ここで "walking"という動作において，視覚特徴が動き特徴を上回っている．これは撮影される"walking" は"street"である可能性が高く，ショットの背景が類似していたためと考えられる．

4.2.0.3 Wild Youtube dataset

図6は提案手法とLiuらの手法[1]の比較を示している．本提案手法が68.8%であったのに対して，Liuらの手法は71.2%で，ほぼ匹敵する精度であったといえる．ここで本手法がLiuらの手法に及ばなかった理由は"walking"と，"t_swinging"の精度の低さである．これはLiuらの手法では特徴選択を行うことで，精度を向上させているのだが，この二つの動作はその選択による精度向上が最も顕著なものであったためである．本提案手法でも，このような特徴選択を行うことでより精度を向上させることが出来ると考えられる．

4.2.0.4 教師信号ありの大量Web動画分類

図7は教師信号ありのWeb動画ランキングの上位100ショットにおける適合率を示している．ただし「ランダム」はショットをランダムに200選択し，その適合率を計算したものである．ほとんどの動作で時空間特徴による結果が良いが，"eating"においては動き特徴の適合率が高くなっている．これは"eating"特有の上下の動きが強く検出されたためと思われる．また"shoot"においては上位100では動きと時空間特徴がほぼ同等だが，これは上位60までを考慮すると時空間特徴の分類精度が勝っていた．しかしそれ以降になると，正解の"shoot"シーンが枯渇した結果motionと同等まで適合率が下った結果であると考えられる．

4.2.0.5 Web動画ショットの教師信号なしクラスタリング

図8はWeb動画ショットにおける教師なしクラスタリングの結果の一例を示している．いくつかのノイズを許容すれば，大まかなシーン分類が出来ていることが分かる．しかし，図8上段の中央のテロップのショットのようなノイズも数多く存在している．よって分類を行う前にノイズ除去を行うことで更なる精度の向上が期待できる．

5 おわりに

本研究では，Web動画分類のための時空間特徴抽出手法を提案し，実際にそれを利用することで， Web動画の動作分類を行った．結果として，動作分類では最新手法に匹敵する結果が得られた．また大量データによるWeb動画クラスタリングでは，ある程度のノイズを許容した場合，上手く分類が出来ていたが，ノイズを多く含んでいるクラスタも存在していた．

今後の課題として，時空間特徴抽出では，現状ではカメラモーションは破棄することで対応しているが，モーション補正を行うようにすることがあげられる．また抽出された特徴から重要な特徴を選択することは極めて重要なことである．大量Web動画分類に関しては，収集する動画の数を増やす，分類前にノイズを除去することがあげられる．

文献目録

1: J. Liu, J. Luo, and M. Shah.
Recognizing realistic action from videos.
In Proc.of IEEE Computer Vision and Pattern Recognition, pp. 1-8, 2009.
2: B. Herbert, E. Andreas, T. Tinne, and G. Luc.
SURF: Speeded up robust features.
In CVIU, pp. 346-359, 2008.
3: R. I. Cinbins, R. Cinbins, and S. Sclaroff.
Learning action from the web.
In Proc.of IEEE International Conference on Computer Vision, pp. 995-1002, 2009.
4: P. Dollar, G. Cottrell, and S. Belongie.
Behavior recognition via sparse spatio-temporal features.
In Proc. of Surveillance and Performance Evaluation of Tracking and Surveillance, pp. 65-72, 2005.