▼ 2015/06/11(木) オーガナイズドセッション1 「産業界で今まさに成長期に入った画像認識」
OS-01混雑環境の安心安全を実現する群集行動解析
概要:監視カメラを用いて立ち入り禁止個所への監視や人ごみの状態把握を行う
人ごみでの人数推定にCNNを用いている
しかしCNNを用いるためには多数のデータセットが必要
そこで人工データセットを作成 精度はほとんど変わらない
以下スライド概要
監視カメラでの撮影を行い、近づいてはいけない個所や普段人がいない位置に人がいることを警告してくれるシステムは存在している
実際にアルゼンチンでは街に800台ものカメラを設置し街を守っている
現在では人の流れや、取り囲みといった細かい環境にも適応できるようにする
施設全体の混雑状況も把握し、異変などにもすぐに対応できるようにしている
混雑検出には人物検出ベースと非人物検知ベースの2種類存在している
人物は混雑時に少し弱い
非人物は混雑時でも可能だが少し精度が低い
CNNで人数推定を行う
プライバシーの問題で実際の混雑映像を撮影するのは難しい
また大体日常風景、非日常はない
なので人工的に学習データを作る
背景データと人物データをそれぞれ作成しそれを組み合わせ学習データを増やす
合成画像でも実環境に負けてない
実用化には様々な環境下に対応しなければならない
背景の影響を受けるので背景を切り落としたりする
群集行動の把握
実用化に向けての工夫
OS1-02自動車の安全運転支援のための画像認識プロセッサ
概要:近年では衝突を回避するようなシステムが求められている
しかしPCを乗せるわけにもいかないので専用のチップを開発する 「Visconti」
CoHoGなどを用いて歩行者・車の検出を行う
中々開発費用が貰えなかった話や今後の自社が生き残れるかどうかなど少し企業よりなお話でした
以下スライド概要
今では衝突安全から予防安全へ
シートベルトからステレオカメラへ
しかし車にパソコンを乗せておくわけにはいかない
画像を与えトップビューや後ろへの変換を行ったりする
提案手法はメモリを太量に持っているので高速な手法である
SfMを用いた距離推定
幾何解析
パターン認識
と様々なものが搭載されだした。
歩行者検出、車両検出、レーン検出を行う
最初はなかなか売れなかった
そのため開発が中々進まない
他社のが流行って作れるようになった
CoHoG
今後市場は拡大し安定していくと考えている
今後は他社と差をつけるため安さや精度、自動運転への対応を考えている
OS1-03 画像解析技術と番組アーカイブス検索システムへの応用
概要:放送のデータは日々たまり続けその情報を素早く検索するシステムが必要
オブジェクト認識と類似画像検索を用いて番組を検索
顕著性マップやSpatial Pyramidなどを用いて既存手法からの精度を上げている
Caltech101やTRECVIDの話などあったが最新の研究と比べてしまうと性能はそこまででもない
以下スライド概要
日々映像はたまり続ける 番組は日100件、ニュースは300件
テープからファイルに変化してきており、映像検索技術の重要性は今後もますます増加
従来にも番組検索システムは存在している。
今までは
人手でメタデータを入れなければならない
番組単位でしか検索できない
言葉で表現できないような映像を検索できない
そこで画像認識技術を利用した映像検索システムを提案
オブジェクト認識
Denseサンプリングと色・テクスチャ・Spatial Pyramid
周辺特徴をまとめて検出それを統合しMax pooling
Caltech101で80%程度
実際の使用環境で90%程度の再現性
TRECVIDでの評価Semantic Indexingタスク
2013年で平均適合率0.1程度 順位40位
類似画像検索
従来技術ではブロックに分割しマッチングを取る
背景や被写体の位置形状の変化の影響を受ける
顕著性マップをいれて被写体領域を抽出
その領域のみで類似検索を行う
ハッシュなどを用いて類似のクエリだけを検索することで精度と速度を向上させている
適合率34%
NHKアーカイブス
1981年以降の番組データを保存
ここで検索も行っている
上記の手法を用いて認識を用いた映像検索システムの作成を行った
2015年1月から4月までを運用テスト
これから分析を行ったりアンケートなどをとる
概要:監視カメラを用いて立ち入り禁止個所への監視や人ごみの状態把握を行う
人ごみでの人数推定にCNNを用いている
しかしCNNを用いるためには多数のデータセットが必要
そこで人工データセットを作成 精度はほとんど変わらない
以下スライド概要
監視カメラでの撮影を行い、近づいてはいけない個所や普段人がいない位置に人がいることを警告してくれるシステムは存在している
実際にアルゼンチンでは街に800台ものカメラを設置し街を守っている
現在では人の流れや、取り囲みといった細かい環境にも適応できるようにする
施設全体の混雑状況も把握し、異変などにもすぐに対応できるようにしている
混雑検出には人物検出ベースと非人物検知ベースの2種類存在している
人物は混雑時に少し弱い
非人物は混雑時でも可能だが少し精度が低い
CNNで人数推定を行う
プライバシーの問題で実際の混雑映像を撮影するのは難しい
また大体日常風景、非日常はない
なので人工的に学習データを作る
背景データと人物データをそれぞれ作成しそれを組み合わせ学習データを増やす
合成画像でも実環境に負けてない
実用化には様々な環境下に対応しなければならない
背景の影響を受けるので背景を切り落としたりする
群集行動の把握
実用化に向けての工夫
OS1-02自動車の安全運転支援のための画像認識プロセッサ
概要:近年では衝突を回避するようなシステムが求められている
しかしPCを乗せるわけにもいかないので専用のチップを開発する 「Visconti」
CoHoGなどを用いて歩行者・車の検出を行う
中々開発費用が貰えなかった話や今後の自社が生き残れるかどうかなど少し企業よりなお話でした
以下スライド概要
今では衝突安全から予防安全へ
シートベルトからステレオカメラへ
しかし車にパソコンを乗せておくわけにはいかない
画像を与えトップビューや後ろへの変換を行ったりする
提案手法はメモリを太量に持っているので高速な手法である
SfMを用いた距離推定
幾何解析
パターン認識
と様々なものが搭載されだした。
歩行者検出、車両検出、レーン検出を行う
最初はなかなか売れなかった
そのため開発が中々進まない
他社のが流行って作れるようになった
CoHoG
今後市場は拡大し安定していくと考えている
今後は他社と差をつけるため安さや精度、自動運転への対応を考えている
OS1-03 画像解析技術と番組アーカイブス検索システムへの応用
概要:放送のデータは日々たまり続けその情報を素早く検索するシステムが必要
オブジェクト認識と類似画像検索を用いて番組を検索
顕著性マップやSpatial Pyramidなどを用いて既存手法からの精度を上げている
Caltech101やTRECVIDの話などあったが最新の研究と比べてしまうと性能はそこまででもない
以下スライド概要
日々映像はたまり続ける 番組は日100件、ニュースは300件
テープからファイルに変化してきており、映像検索技術の重要性は今後もますます増加
従来にも番組検索システムは存在している。
今までは
人手でメタデータを入れなければならない
番組単位でしか検索できない
言葉で表現できないような映像を検索できない
そこで画像認識技術を利用した映像検索システムを提案
オブジェクト認識
Denseサンプリングと色・テクスチャ・Spatial Pyramid
周辺特徴をまとめて検出それを統合しMax pooling
Caltech101で80%程度
実際の使用環境で90%程度の再現性
TRECVIDでの評価Semantic Indexingタスク
2013年で平均適合率0.1程度 順位40位
類似画像検索
従来技術ではブロックに分割しマッチングを取る
背景や被写体の位置形状の変化の影響を受ける
顕著性マップをいれて被写体領域を抽出
その領域のみで類似検索を行う
ハッシュなどを用いて類似のクエリだけを検索することで精度と速度を向上させている
適合率34%
NHKアーカイブス
1981年以降の番組データを保存
ここで検索も行っている
上記の手法を用いて認識を用いた映像検索システムの作成を行った
2015年1月から4月までを運用テスト
これから分析を行ったりアンケートなどをとる
▼ コメント(0件)
- TB-URL http://mm.cs.uec.ac.jp/adiary/adiary.cgi/yanailab/011/tb/