ラッシュ映像の自動要約

野口顕嗣

2008年 2月 7日

1 はじめに

本研究では，国際映像処理ワークショップTRECVIDで2007年から始まった映像自動要約タスク（rushes summarization）について取り組む．具体的方法としては，CMUの手法[1]を参考にショット分割した映像を色，動き，顔特徴に基づいてクラスタリングすることによって，映像要約を実現する．そして，実験によってその有効性を示す．

2 TRECVIDについて

TRECVIDとは映像コーパスを用いた情報検索のための競争型ワークショップで米国のNIST(National Institute of Standards and Technology)の主催で行われている．その主な目標はビデオのcontent-based検索の向上である．

TRECVID 2007において以下の4つのタスクが設定された．

Shot boundary detection(ショット境界検出)
High-level feature extraction(高次元特徴抽出)
Search(検索)
Rushes summarization(ラッシュ映像要約)

本研究で今回取り組むタスクはrushes summarizationである．

Rushes summarizationは与えられたラッシュ映像(MPEG-1)を決められた時間以下(2007においては4%以下)に自動で要約するタスクである．ラッシュ映像とは未編集の映像のことであり，俳優のNGシーンなどの繰り返しシーン，カメラが固定されていて長い間動きがないシーンを含んでいる映像のことである．

このタスクにおける評価方法は，テキスト形式のground truthとの一致率や，リッカート尺度による要約としての見易さや無駄の少なさのような主観的なものと，システムの実行にかかった時間，審査官が審査にかかった時間，要約の長さなどの客観的ものがある[2]．

図1，2はそれぞれラッシュ映像の10秒ごとのフレームと実際に要約したフレームの例，表1はこの動画に対応するground truthの一部である．

**図 1:** ラッシュ映像の10秒毎のフレーム
$\includegraphics[width=0.6\textwidth]{rush.eps}$

**図 2:** 要約映像の10秒毎のフレーム
$\includegraphics[width=0.45\textwidth]{sum.eps}$

**表 1:** Ground truthの例
Shot of trees
Woman towards camera, stops and talks
Woman turns around and walks down footpath

3 アルゴリズム

ここでは本システムのアルゴリズムの概要について説明する．図3はシステムの概要を表している．

最初に与えられたビデオを色特徴をもとに前後のフレームを比較し，色ヒストグラムの差分が閾値以下ならショット分割する．また各ショットの色特徴からクラスタリングを行い，それぞれのクラスから最も長いショットを代表として選んでいく．

その際,ブラックフレームや，カラーバーなどのジャンクショットの検出をクラス単位で色特徴を用いて行う．

このようにして得られた各クラスタの代表から今度は色特徴,顔特徴,動き情報を抽出しながら，各クラスタの代表をそれぞれ一秒単位に分割する．ただしこの際にLucas-Kanade法[3]でオプティカルフローを計算して，ある一定以上の動きがあった場合にそれは一連の動作の途中であると考え，動きが一定以下になるまで分割を行わないようにする．

これによりCMUの手法[1]においてはカメラモーションのみの強調であったが，本研究では動作も強調できるようにする．

その一秒毎に分けられたビデオに対して色特徴を元にオリジナルビデオの4%以下になるようにkの値を設定して，k-meansアルゴリズムでクラスタリングしていく．

各クラスタの代表は，できるだけ動きがあるもの，人が映っているものがほしいので，動き情報と顔情報を用いてクラスタの代表を決定する．各クラスタの代表を時間順につなぎあわせて，要約映像とする．

**図 3:** アルゴリズム概要
$\includegraphics[width=0.69\textwidth]{flow.eps}$

4 特徴量

本章ではショットを表す特徴量の算出方法について説明する．

4.1 位置情報付カラーヒストグラム

色特徴としては $3 \times 3$ に分割した画像のRGBカラーヒストグラムを使用する．各ショットの色特徴Cは式(1)で定義する．

$\displaystyle C =\frac{1}{F} \sum^F_{i=2}\sum^3_{x=1}\sum^3_{y=1}\sum^{64}_{k=0} H_{i_{{xy}_k}} +H_{i-1_{{xy}_k}}$

(1)

ただしFはショット中に含まれるフレームの数を， $H_{i_{{xy}_k}}$ はショット中のi 番目のフレームの格子(x,y)のヒストグラムのk番目の要素であることを示している．

4.2 動き情報

Lucas-Kanade法[3]によって連続するフレーム間のオプティカルフローを計算する． 2つのフレーム間における動き情報 $M_{i}$ は式(2)で定義する．

$\displaystyle M_{i}= \frac{1}{N}\sum^{N}_{k=1}(x_{k,i}-x_{k,i+1})^2+(y_{k,i}-y_{k,i+1})^2$

(2)

ただしNは見つかった全てのオプティカルフローの個数を，x，yはそれぞれの座標を表している．例えば $x_{k,i}$ は，i番目のフレームのk個めのフローのx座標を表すものである．

そしてショットとしての動き情報，ALL_Mは式(3)で定義される．

$\displaystyle ALL\_M= \frac{1}{F-1}\sum^{F}_{k=1}M_{k}$

(3)

ただしFはビデオに含まれる全てのフレームの数である．

4.3 顔特徴

顔の認識はOpenCV[4]の顔画像検出プログラムルーチンを利用する．また顔が検出されたものには，重みW(実験ではW=1.5)をつける．ただし顔が検出されなかった場合W=1である．k-meansでクラスタリングしたあとに各クラスタの代表を次のREの値が最大のもので定義する．

$\displaystyle RE = ALL\_M \times W$

(4)

5 実験

実験として特徴量を以下のように変えた3つのシステムを比較した．

特徴量が色のみ
特徴量が色+動き
特徴量が色+動き+顔

次にこれらの結果をTRECVID 2007の参加者の結果と比較した．

5.1 実験データ

実験データとして，TRECVID2007で提供された開発データを使用した．この実験で用いたビデオは,全部で9本であり，ビデオの長さは最大36分，最小11分，平均値は約21分であった.

5.2 評価基準

本研究では提案システムの評価基準としてTRECVIDの評価方法の中から3つの評価基準を用いた．一つめはそのビデオに対するground truthがどれだけの割合で含まれているかを表すIN値，2つめはオリジナルビデオに対して何パーセントの要約になっているかを示すDU値，3つめがシステムの実行にかかった時間を表すSYS値である．

5.3 実験結果

結果は表2，3，4，で示すようになった．ただし用いたマシンはPentium D 3.2GHzである．

**表 2:** 色情報
	時間[s]	IN	DU[%]	SYS[s]
rush01	2189	0.49	3.9	1488
rush02	2037	0.53	3.8	1386
rush03	721	0.61	3.7	613
rush04	738	0.38	10.4	1347
rush05	1951	0.63	3.8	1327
rush06	693	0.46	10.8	1348
rush07	743	0.62	3.7	525
rush08	767	0.42	9.5	1219
rush09	1702	0.66	3.8	1014
平均	1282	0.50	5.0	1141

**表 3:** 色情報+動き情報
	時間[s]	IN	DU[%]	SYS[s]
rush01	2189	0.53	3.5	1999
rush02	2037	0.62	3.6	1608
rush03	721	0.46	3.7	864
rush04	738	0.50	7.7	1549
rush05	1951	0.60	3.5	1590
rush06	693	0.84	10.8	1719
rush07	743	0.75	3.7	657
rush08	767	0.36	5.4	1316
rush09	1702	0.66	3.6	1118
平均	1282	0.55	4.4	1338

**表 4:** 色情報+動き情報+顔情報
	時間[s]	IN	DU[%]	SYS[s]
rush01	2189	0.62	3.6	2051
rush02	2037	0.60	3.3	1766
rush03	721	0.52	3.7	856
rush04	738	0.56	7.8	1540
rush05	1951	0.63	3.5	1590
rush06	693	0.76	10.8	1735
rush07	743	0.75	3.7	663
rush08	767	0.42	5.2	1298
rush09	1702	0.75	3.8	1308
平均	1282	0.60	4.3	1357

3つのシステムともrush08のIN値が比較的低い．これはこのビデオが全体を通して黒い色が多かったためである．システムのなかで最も重要であるクラスタリングは色情報のみで行われているので色の変化が少ないビデオのINの精度は低くなると考えられる．また3つのシステムともDU値はrush04，rush06，rush08において規定の時間を大幅に越えてしまっている，そのときのIN値を見ていった場合も平均に比べ低くなる傾向がある．

システム毎に見ていくと，IN値は動き特徴を加えた際に5%，さらに顔特徴を加えた際に5%上がっている．このことから，このタスクでは動きと顔特徴を取り入れることは有効であるといえる．

また本研究が参考にしたCMUの手法[1]のIN値は0.59と本システムとほぼ同じ値となった．これは本研究でクラパーボード検出を行っていないなど，ジャンクショット検出が不完全であることに起因している．

次にTRECVID 2007の参加者との結果を比較した．IN値について見ていった場合，最高のチームが0.70，中間のチームが0.47であったので，本システムの0.60は良い結果になったといえる．しかしDU値ではどの参加者よりも規定時間の超過が多かった．更にSYS値ではほとんどの参加者が1000[s]以下の結果だったことに比べて本システムの1433[s]は計算コストが高いといえる．

6 考察

実験結果よりこのシステムの欠点がいくつか分かった．第一に実行にかかる時間が比較的長いことが挙げられる．その原因として挙げられることが，色情報を抽出する作業がショット検出とk-meansの特徴とで重複していることである．

二つ目としては，要約として見難くなっている．一秒毎に場面が切り替わってしまうので，見ている側も理解することが大変になっている．

またIN値において，ground truthの内容が''Shot of tree''のようなものは精度が比較的高かったが，''Woman exit left''のような内容のとき，左に行く途中で次の場面に切り替わってしまう部分が多かった．これは動き情報が不完全であることを示している．このことは動き情報を取り入れることで比較的改善されたが，それでもまだそのような場面が多く見られた．

更にクラス分けは色を中心に行っているので，rush08のように暗い場面が大半をしめている動画に関して，精度が下ってしまっている．

7 おわりに

本研究ではTRECVIDのラッシュ映像要約タスクについて取り組んだ．色情報をもとにクラスタリングされたショットを，動き，顔情報を用いて重みづけし，その重みから代表ショットを選び時間順につなぎあわせる手法を提案した．

その結果として，動き，顔情報を用いることはシステムの精度を向上させることが分かった．またIN値に関してはTRECVID参加者と比較して良い結果が得られたが，DU値，SYS値に関しては良い結果は得られなかった．

今後の課題として，クラッパーボードのようなジャンクショットの検出を実装すること，動き情報の改良などの，特徴量の改良，音情報などの現在未使用の特徴量の追加が挙げられる．

文献目録

1: A. Hauptmann, M. Christel, W. Lin, B. Maher, J. Yang, R. Baron, and G. Xiang.
Clever clustering vs. simple speed-up for summarizing rushes.
In Proc. of the international workshop on TRECVID video summarization, pp. 20-24, 2007.
2: P. Over, A. Smeaton, and P. Kelly.
The trecvid 2007 bbc rushes summarization evaluation pilot.
In Proc. of the international workshop on TRECVID video summarization, pp. 1-15, 2007.
3: A. Hauptmann, M. Christel, W. Lin, B. Maher, J. Yang, R. Baron, and G. Xiang.
Clever clustering vs. simple speed-up for summarizing rushes.
In Proc. of the international workshop on TRECVID video summarization, pp. 20-24, 2007.
4: D. Le and S. Satoh.
National institute of informatics, japan at trecvid 2007: Bbc rushes summarization.
In Proc. of the international workshop on TRECVID video summarization, pp. 70-73, 2007.