物体認識技術を用いた
モバイル物品管理システム
近年,スマートフォンが普及し多くの人が利用するようになった.また,それに
伴いスマートフォンの性能も年々向上している.これによりこれまでの従来型の
携帯電話では難しかったカメラを使った物体認識アプリケーションの作成が可能
になった.たとえばGoogleのGoggleアプリでは有名なランドマークや絵画の認識
を行うことが出来る.また,身の回りに多くのものが溢れるようになった現代で
は同じ商品を2度購入してしまったり,それをいつどうして買ったのか,使って
みての評価がどうであったかなどの情報を忘れてしまうという問題が発生してい
る.こうした問題を解決するために,所持品を管理するサービスが存在している.
たとえば株式会社はてなのはてなモノリスでは,ユーザは物品をバーコードから
登録しコメントをつけてコレクションする.しかし,そうした従来の所持品管理サービスはテキストやカテゴリによる検索,バーコードを読み取って登録するものが主流である.
本論文ではスマートフォンと特定物体認識技術を利用したモバイル物品管理システムを提案する.このシステムはユーザが所持品をスマートフォンのカメラで撮影し,物体名・日時・位置情報・物体についてのコメントなどのテキスト情報を付加して登録する.その後,同じ物体を再度撮影すると,登録された物体と撮影中の物体が同一であるかを判定し,同一であれば付加したテキスト情報をリアルタイムで表示することが出来るというシステムである.また,ネットワークを通じて他のユーザが登録した物体の情報を共有することが出来る.スクリーンショットを図1に示す.従来の物品管理サービスに対して,本手法は特定物体認識技術を用いたことにより
- カメラに写すだけで所持品をリアルタイムで高速に検索出来る
- 検索時にテキスト入力が必要ない
- バーコードの無い所持品も登録することが出来る
という利点がある.
提案システムの全体図を図2に示した.システムのおおまかな流れは,まず画像描画スレッドからカメラから取得した画像と選択領域を取得する.物体登録については,特定物体認識により登録済みかを確認した上で登録画面を表示する.認識スレッドについては,取得した画像と領域から特定物体認識を行う.その結果をテキスト描画スレッドで画面に表示する.この章では,各処理について詳細を記述する.
特定物体認識は,図3に示したように,画像の特徴点を検出し各特徴点について同じ特徴点(特徴量の距離が最も近い点)を持つ登録済み物品に投票を行う.その投票数が多かった物品を同一物品として認識するという手法である.
局所特徴とは,画像の特徴的な点に注目し,注目点周辺の情報を特徴ベクトルとして表現したものである.有名なものとして,SIFT[1]や,SIFTを高速化したSURF[2]などがある.しかし,これらの特徴量をハードウェア資源の貧しいスマートフォン上で計算するのは時間がかかる.そこで,より動作の早い特徴量としてORB[3]を用いた.ORBとはFAST[4]による特徴点検出とBRIEF記述子[5]をもとに提案された256bitのバイナリ特徴量である.BRIEFの弱点であった回転不変性を改善している.高速で消費メモリが少なく,SURFの10倍以上の速度での計算を可能にしている.
本研究では,特徴点の検出にORBを用いて空間ピラミッドから検出する方法と一定間隔ごとに特徴点をとるDENSEを用いた.DENSEを加えることでORBによる特徴点検出で特徴点の出にくい物品も登録できるようになるが,背景の特徴の影響を受けやすくなってしまう.それを防ぐためにDENSEによる特徴点検出の割合はORBよりも低く抑えている.
また,背景による影響を受けにくくするために,タッチパネルをドラッグすることで四角形の領域を描けるようにし,その領域からのみ特徴点を検出出来るようにした.これにより,背景に物体が多く特徴が対象物体以外からも検出されてしまいそうな場合でも,対象物体からのみ特徴点を抽出することが出来る.
3.1.3 複数フレームの利用
フレーム画像から得られる特徴点を使うのではなく,2フレー
ム分の点を用いて認識を行う.認識対象が動画であるので,2フレームから特徴を検出することで1フレーム目と異なる点を検出出来る.これにより投票する特徴点が増えるので,認識精度が良くなる.また,認識結果をそのまま用いるのではなく,5回分の認識の投票を3位まで考慮する.5回分のそれぞれの物品の認識投票数を足し合わせ,その中で最も投票数が多かったものを認識物品として選ぶ.こうすることにより,わずかな投票差で2位になった場合と多くの投票差で2位になった場合との違いを考慮することが出来る.これにより認識精度が大きく向上した.
物品登録日・物品撮影場所については,システム側で自動で入力する.位置情報はAndroidのGPSか基地局情報による位置情報から緯度経度を取得し,逆ジオコーディングで地域名を取得する.
自分が保存した物品情報を記述したファイルをサーバに送信してAndroidのストレージとサーバのファイルを同期させる.サーバとAndroid間のファイルのやりとりについては,HTTP通信のPOSTとGETで行う.
持ち物管理サービスに特定物体認識を用いたことによる利便性が向上したかを調
べるために,評価実験を行った.評価実験を行うにあたって,認識を用いずに物
品を探すベースライン機能を比較対象として追加した.
- 年月
- 登録者のID
- 位置情報
- 物品名
- 物品に対するコメント・情報など自由記入欄
から絞り込み検索を行うことが出来る.
あらかじめ30物品をテストデータとして登録した.さらに追加で各自10物品を追加してもらい,計40物品の状態で評価を行った.評価内容は,5人に以下の項目について評価してもらった.物品認識とベースラインとで,
を比較する.
検索にかかる時間の平均は,認識を用いた場合に13.6秒,ベースラインで10.6秒となりベースラインのほうがやや早い結果となった.使いやすさの5段階評価では認識を用いた場合に3.4,ベースラインで3.2となり認識のほうがやや良い結果となった.
実際にどの程度の割合で正しく認識が行えるかを調べるために,評価に用いたテストデータ30物品が登録されている状態で5物品を追加した.その5物品について認識を50フレーム行い,正しい認識結果が得られた割合を調べた.5物品の画像を図4に示す.
特徴点の投票において1位ではなかったが2位,3位以内に正しい結果が出る場合についても調べた.
図 5:
認識に成功した割合(3位まで考慮した場合)
|
結果を図5に示した。認識しやすい物品とまったく認識できない物品とがあった.ロゴや絵などで特徴的な部分が多いものは,特徴点の検出がしやすく認識の精度も良かったと考えられる.一方,携帯電話は,図4にあるように,色が単一で特徴的な部分が少なく,光沢を持つため光の影響を受けやすい.こうした理由から認識がうまくいかなかったのではないかと考えられる.
評価結果は認識を用いるよりもベースラインのほうが早く検索出来たという結果になった.
特定物体認識が遅くなってしまった原因は,特定物体認識によって認識しにくい物品があり,それらを検索する場合に時間がかかってしまい平均を下げていることがあげられる.認識しにくい物品が出てしまうのは,特徴点のとりにくい物品であったことや,背景の影響を受けてしまったことが考えられる.また,登録物品が少なかったため,ベースラインの手動選択でも十分簡単に選ぶことが出来てしまったことが考えられる.
検索しやすさの5段階評価については,認識を用いるほうが良いという結果となった.リストから選ぶ場合やテキストを入力するよりもカメラで撮るという動作の方が楽である,さらに物品数が増えてきたときにリストから選んで探すのは難しくなるだろうなどの意見があった.
本研究では,特定物体認識を用いた物品管理サービスを作成した.また,ハードウェア資源の貧しいスマートフォンでも高速な特定物体認識が可能であることを示した.評価実験により,物品管理サービスに物体認識技術を利用することで簡単に物品検索が出来るようになったことを示した.
今後の課題としては,物品数をさらに増やした場合の性能評価をすることである.物品数を増やすことによってベースラインシステムの検索時間は増加すると考えられるが,特定物体認識の精度も低下してしまうだろう.大規模なデータベースに適応した場合でも同じような評価結果となるか調べる必要がある.また,一部物品について認識しにくいものがあったので,認識精度の向上が必要である.そのためには,速度はやや落ちるが精度のよい特徴の導入や,色情報の考慮,OCRによるテキスト情報の利用などが考えられる.
- 1
-
D. Lowe.
Distinctive image features from scale-invariant keypoints.
International Journal of Computer Vision, pp. 91-110, 2004.
- 2
-
H. Bay, A. Ess, T. Tuytelaars, and L. V. Gool.
SURF: Speeded Up Robust Features.
In Computer Vision and Image Understanding, pp. 346-359, 2008.
- 3
-
E. Rublee, V. Rabaud, K. Konolige, and G. Bradski.
ORB: an effficient alternative to SIFT or SURF.
In Proc. of IEEE International Conference on Computer Vision,
2011.
- 4
-
E. Rosten and T. Drummond.
Machine learning for high-speed corner detection.
Proc.of European Conference on Computer Vision, pp. 430-443,
2006.
- 5
-
M. Calonder, V. Lepetit, C. Strecha, and P. Fua.
Brief: Binary robust independent elementary features.
Proc.of European Conference on Computer Vision, pp. 778-792,
2010.