野口 顕嗣
2008年 2月 7日
TRECVID 2007において以下の4つのタスクが設定された.
Rushes summarizationは与えられたラッシュ映像(MPEG-1)を決められた時間以下(2007においては4%以下)に自動で要 約するタスクである.ラッシュ映像とは未編集の映像のことであり,俳優のNGシー ンなどの繰り返しシーン,カメラが固定されていて長い間動きがないシーンを 含んでいる映像のことである.
このタスクにおける評価方法は,テキスト形式のground truthとの一致率や,リッカー ト尺度による要約としての見易さや無駄の少なさのような主観的なものと,シス テムの実行にかかった時間,審査官が審査にかかった時間,要約の長さなどの客 観的ものがある[2].
図1,2はそれぞれラッ シュ映像の10秒ごとのフレームと実際に要約したフレームの例,表1はこの動画 に対応するground truthの一部である.
Shot of trees |
Woman towards camera, stops and talks |
Woman turns around and walks down footpath |
最初に与えられたビデオを色特徴をもとに前後のフレームを比較し,色ヒスト グラムの差分が閾値以下ならショッ ト分割する.また各ショットの色特徴からクラスタリングを行い,それぞれのクラ スから最も長いショットを代表として選んでいく.
その際,ブラックフレームや,カラーバーなどのジャンクショットの検出をク ラス単位で色特徴を用いて行う.
このようにして得られた各クラスタの代表から今度は色特徴,顔特徴,動き情報を 抽出しながら,各ク ラスタの代表をそれぞれ一秒単位に分割する.ただしこの際にLucas-Kanade法[3]で オプティカルフローを計算して,ある一定以上の動きがあった場合にそれは一連 の動作の途中であると考え,動きが一定以下になるまで分割を行わないようにす る.
これによりCMUの手法[1]においてはカメラモーションのみの強調であったが,本研究では 動作も強調できるようにする.
その一秒毎に分けられたビデオに対して色特徴を元にオリジナルビデオの4%以 下になるようにkの値を設定して,k-meansアルゴリズムでクラスタリングしてい く.
各クラスタの代表は,できるだけ動きがあるもの,人が映っているものがほしいの で,動き情報と顔情報を用いてクラスタの代表を決定する.各クラスタの代表を 時間順につなぎあわせて,要約映像とする.
(1) |
ただしFはショット中に含まれるフレームの数を, はショット中のi 番目のフレームの格子(x,y)のヒストグラムのk番目の要素であることを示している.
(2) |
ただしNは見つかった全てのオプティカルフローの個数を,x,yはそれぞれの座 標を表している.例えばは,i番目のフレームのk個めのフローのx座標 を表すものである.
そしてショットとしての動き情報,ALL_Mは式(3)で定義される.
(3) |
ただしFはビデオに含まれる全てのフレームの数である.
(4) |
次にこれらの結果をTRECVID 2007の参加者の結果と比較した.
結果は表2,3,4,で示すようになった.ただし用いたマシンはPentium D 3.2GHzである.
時間[s] | IN | DU[%] | SYS[s] | |
rush01 | 2189 | 0.49 | 3.9 | 1488 |
rush02 | 2037 | 0.53 | 3.8 | 1386 |
rush03 | 721 | 0.61 | 3.7 | 613 |
rush04 | 738 | 0.38 | 10.4 | 1347 |
rush05 | 1951 | 0.63 | 3.8 | 1327 |
rush06 | 693 | 0.46 | 10.8 | 1348 |
rush07 | 743 | 0.62 | 3.7 | 525 |
rush08 | 767 | 0.42 | 9.5 | 1219 |
rush09 | 1702 | 0.66 | 3.8 | 1014 |
平均 | 1282 | 0.50 | 5.0 | 1141 |
時間[s] | IN | DU[%] | SYS[s] | |
rush01 | 2189 | 0.53 | 3.5 | 1999 |
rush02 | 2037 | 0.62 | 3.6 | 1608 |
rush03 | 721 | 0.46 | 3.7 | 864 |
rush04 | 738 | 0.50 | 7.7 | 1549 |
rush05 | 1951 | 0.60 | 3.5 | 1590 |
rush06 | 693 | 0.84 | 10.8 | 1719 |
rush07 | 743 | 0.75 | 3.7 | 657 |
rush08 | 767 | 0.36 | 5.4 | 1316 |
rush09 | 1702 | 0.66 | 3.6 | 1118 |
平均 | 1282 | 0.55 | 4.4 | 1338 |
時間[s] | IN | DU[%] | SYS[s] | |
rush01 | 2189 | 0.62 | 3.6 | 2051 |
rush02 | 2037 | 0.60 | 3.3 | 1766 |
rush03 | 721 | 0.52 | 3.7 | 856 |
rush04 | 738 | 0.56 | 7.8 | 1540 |
rush05 | 1951 | 0.63 | 3.5 | 1590 |
rush06 | 693 | 0.76 | 10.8 | 1735 |
rush07 | 743 | 0.75 | 3.7 | 663 |
rush08 | 767 | 0.42 | 5.2 | 1298 |
rush09 | 1702 | 0.75 | 3.8 | 1308 |
平均 | 1282 | 0.60 | 4.3 | 1357 |
3つのシステムともrush08のIN値が比較的低い.これはこのビデオが全体を通して黒い色が多かったためである.システムのなかで最も重要であるクラスタリングは色情報のみで行われているので色の変化が少ないビデオのINの精度は低くなると考えられる.また3つのシステムともDU値はrush04,rush06,rush08において規定の時間を大幅に越えてしまっている,そのときのIN値を見ていった場合も平均に比べ低くなる傾向がある.
システム毎に見ていくと,IN値は動き特徴を加えた際に5%,さらに顔特徴を加えた際に5%上がっている.このことから,このタスクでは動きと顔特徴を取り入れることは有効であるといえる.
また本研究が参考にしたCMUの手法[1]のIN値は0.59と本システムとほぼ同じ値となった.これは本研究でクラパーボード検出を行っていないなど ,ジャンクショット検出が不完全であることに起因している.
次にTRECVID 2007の参加者との結果を比較した.IN値について見ていった場合,最高のチームが0.70,中間のチームが0.47であったので,本システムの0.60は良い結果になったといえる.しかしDU値ではどの参加者よりも規定時間の超過が多かった.更にSYS値ではほとんどの参加者が1000[s]以下の結果だったことに比べて本システムの1433[s]は計算コストが高いといえる.
二つ目としては,要約として見難くなっている.一秒毎に場面が切り替 わってしまうので,見ている側も理解することが大変になっている.
またIN値において,ground truthの内容が''Shot of tree''のようなものは精度が 比較的高かったが,''Woman exit left''のような内容のとき,左に行く途中で次 の場面に切り替わってしまう部分が多かった.これは動き情報が不完全であるこ とを示している.このことは動き情報を取り入れることで比較的改善されたが,それでもまだそのような場面が多く見られた.
更にクラス分けは色を中心に行っているので,rush08のように暗い場面が大半を しめている動画に関して,精度が下ってしまっている.
その結果として,動き,顔情報を用いることはシステムの精度を向上させることが分かった.またIN値に関してはTRECVID参加者と比較して良い結果が得られたが,DU値,SYS値に関しては良い結果は得られなかった.
今後の課題として,クラッパーボードのようなジャンクショットの検出を実装す ること,動き情報の改良などの,特徴量の改良,音情報などの現在未使用 の特徴量の追加が挙げられる.