研究紹介

以下の3種類に分けて，これまでの研究を紹介します．それぞれ，【詳細はこちら】リンクを押すと，詳細を参照することが出来ます．一部デモサイトへのリンクもあります．

静止画系
画像変換・生成系
映像系
モバイル系

具体的研究例【画像系】

深層学習を用いた食事カロリー量推定 (2019年卒論) 【詳細はこちら】

本卒業論文では，より簡単に正確にカロリー量を推定する方法として2つのアプローチからこの課題に取り組んだ. 1つ目はMRグラスを活用した単一画像からの実面積推定によるカロリー量推定, もう1つは単一の食事画像からの三次元形状復元による体積推定である.

Multi-task CNNによる食事画像からのカロリー量推定 (2016年卒論) 【詳細はこちら】

食事画像からのカロリー推定を，食事のカテゴリだけでなくて，食材，調理手順も同時にマルチタスク学習することによって，推定精度が向上することを示しました． CVIM研究会卒論セッションの優秀発表賞にも選ばれました．この研究をモバイルアプリ化した DeepCalorieCamもあります．

Twitter画像の大規模時空間分析 (2016年卒論) 【詳細はこちら】

位置情報付きTwitter画像216万枚をGPUを用いた高速画像認識によってすべて認識して，地域ごとの画像の傾向を分析しました．日本や韓国などの東アジアは人物画像はほとんど投稿されず，食べ物が多く投稿される．それ以外の地域は人物画像が多く，特に東南アジアは約半分は人物画像であった，という興味深い結果が得られた．

質感語に対応する画像の認識可能性の評価 (2015年卒論) 【詳細はこちら】

これまで物体の認識は広く研究されてきましたが，物体の「質感」に関する認識の研究はあまり行われてきませんでした．そこで，この研究では，「ふわふわ」「ゴロゴロ」などのオノマトペに対応する画像を大量に収集し，どのような語が認識できるか，どのような特徴量が適しているか，について研究を行いました．

クラウドソーシングによる食事画像認識モデルの自動構築 (2013年卒論) 【詳細はこちら】

食事画像認識モデル学習には食事画像中の食事領域に矩形が付与された画像データセットが必要です．本研究では，Amazon Mechanical Turkを利用して，効率よく，そうした画像データセットを構築する方法を研究しました．

位置情報付き画像ツイートを用いた視覚的イベント検出 (2013年卒論) 【詳細はこちら】

Twitterから位置情報と画像が付加されてツイートを1年間分収集し，それらからテキストでイベント検出を行い，さらに画像を画像特徴でクラスタリングして表示します．様々なイベントを検出することが出来ました．
デモサイト(日本の分析結果) デモサイト(アメリカの分析結果)

画像認識技術を用いたアルバム自動生成システム (2013年卒論) 【詳細はこちら】

旅行に行くと，デジカメだと同じ場所でも何枚も撮影してつい大量の撮影をしてしまいますが，そうすると帰ってきてから見るのが大変です．そこで，本研究では画像認識によって，同じシーン画像を省いて，よく写っている画像を選択し，コンパクトな旅行アルバムを自動生成します．

Web上の大量画像を用いた名詞と形容詞の関係分析 (2012年卒論) 【詳細はこちら】

画像共有サイト上に存在する画像にはタグが通常付与されていますが，名詞，形容詞が混在しています．名詞と形容詞が付与されたタグ付き画像を大量に収集し，名詞と形容詞の視覚的な関係を分析します．例えば， red carは存在しますが，red bananaは存在しません．大量のタグ付き画像から red carやred bananaの物体を正しく推定できるかどうか調べることによって，関係の強い（つまり通常修飾関係が存在する）名詞と形容詞のペアを探します．

ツイート画像を用いた実世界イベントの検出 (2012年卒論) 【詳細はこちら】

地域毎の代表画像の選出手法の提案 (2012年卒論) 【詳細はこちら】

画像中の衣類領域からの色情報抽出 (2012年修論) 【詳細はこちら】

GeoVisualRankによる単語概念の地域性の分析 (2011年修論) 【詳細はこちら】

画像認識での認識対象には様々なものがありますが，例えば"noodle"といっても対応する画像は世界共通ではなく，日本ならラーメン，イタリアならスパゲッティというように地域性があるものがあります．そこで，様々なコンセプトについて地域性を分析して，地域性のあるコンセプトとないコンセプトに区別することを研究しました．

移動経路を用いた旅行ルート推薦システム (2011年) 【詳細はこちら】

写真共有サイトFlickrの位置情報画像からFlickrユーザの訪れた主な観光スポットと観光スポット間の旅行軌跡を多数抽出し，その情報に基づいて主な観光スポットを表示し，ユーザが巡りたい観光スポットを選択すると，それらをめぐる旅行ルートを自動的に推薦してくれるシステムを実現しました．

特定物体認識手法による大量画像を用いた一般物体認識 (2010年) 【詳細はこちら】

Webから1カテゴリについて5000枚以上の画像を収集し，25カテゴリでSIFT特徴点マッチングによるカテゴリ分類実験を行った．

Flickr画像からの画像オントロジー(Visual Ontology)の自動構築 (2010年) 【詳細はこちら】

Flickrから200万枚のタグ付き画像を収集して、概念間の視覚的距離、意味的距離（テキスト距離）、各概念のエントロピーを求めて、概念の階層構造を自動生成します．

多数クラスの画像分類へのVisual Ontologyの応用 (2011年) 【詳細はこちら】

Visual ontologyを用いて、概念間の関係を利用した多数クラスへの画像分類を行うことを行なった．なお，Ontologyとは計算機に人間が理解しているような物事の関係性を記述したデータベースであり，Visual ontologyは視覚的特徴を用いて構築されたOntologyである．

画像の自動階層的分類 (2008年) 【詳細はこちら】

例えば大量に鳥や動物の画像を用意して，自動的に種類毎に分類する研究です．

ジオタグ画像認識における位置情報の利用法の検討 (2010年) 【詳細はこちら】

撮影位置の情報が付加された画像に対して，画像内容と撮影位置の情報を組合せて認識を行います．撮影位置の情報を位置周辺テキスト, 対応する場所の航空写真の画像特徴，緯度経度ベクトルにそれぞれ変換して, 画像認識に追加情報として加えることによって認識精度がどのように向上するか分析した．

位置情報付き画像認識 (2008年) 【詳細はこちら】

撮影位置の情報が付加された画像に対して，画像内容と撮影位置の情報を組合せて認識を行います．撮影位置の情報を通常の画像認識に追加情報として加えることによって認識精度が向上することを示します．

位置情報付き路上画像の視線方向推定 (2010年) 【詳細はこちら】

Google StreetViewのパノラマ画像と撮影位置がおおよそ分かっている画像の特徴点マッチングを行い，撮影方向を推定する．

Web画像を用いた仮想パノラマ画像の生成 (2010年) 【詳細はこちら】

Webから大量に画像を収集して，無関係の画像をうまくつないで仮想的なパノラマ画像を自動生成する．

Webからの画像収集 (2000年〜現在) 【詳細はこちら】

Webから自動的に画像を収集して，それを用いて画像認識を行います． (こちらの詳細ページは，内容が最新ではありません．）
最新の結果の一部はこちらです．ラーメン画像です．我々のシステムに「ラーメン」と入力して自動収集した結果です．

Web画像を用いた画像データベースの自動作成(2) (2008年) 【詳細はこちら】

Webから大量の画像を収集して，最新の画像認識手法を用いて，ノイズ画像を除去して，データベースとしての精度を向上させます．

Web画像を用いた画像データベースの自動作成(1) (2007年) 【詳細はこちら】

Webから大量の画像を収集して，最新の画像認識手法を用いて，ノイズを除去します．

Webニューズ画像からの有名人顔画像抽出 (2007年) 【詳細はこちら】

Webニュース画像からニュース本文中の人名を手がかりにして自動的に有名人の顔の部分を切り出して顔画像データベースを作ります．

具体的研究例【画像系】

スケッチ画像に基づいた画像の生成と編集 (2019年修論) 【詳細はこちら】

本研究では、GANのネットワークを基にしたImage-to-image変換ネットワークを使用して、ユーザーがスケッチしたマスク画像を基にして各要素の形状を制御したリアルな画像生成を行う。しかし、生成結果がユーザーが希望するスタイルと違う画像が生成され、生成画像のスタイルが制御できない問題がある。そのため、各要素のスタイル特徴を抽出するStyle encoderを追加することで、スタイルを反映した画像生成を行う。プロジェクトページあります．

単一ネットワークによる複数タスクの組み合わせ学習 (2019年卒論) 【詳細はこちら】

本研究では，単一ネットワークによる，複数の画像変換タスクの学習を1つ目の目的とする．具体的には，条件付きアフィン変換を形式化したFeature-wise Linear Modulation (FiLM)を用いる．また，FiLMの特性を生かし， Style Transferにおける複数スタイルの組み合わせを可能にしたDumoulinらの研究に着想を得て，単一ネットワークによる複数の異なる画像変換タスクの組み合わせ学習を2つ目の目的とする．組み合わせ学習は，さらなるメモリや計算時間の節約に繋がるという利点がある．

画像内容を考慮した質感表現に基づく画像変換 (2017年卒論) 【詳細はこちら】

言葉に質感変換をする研究です．任意変換ネットワークのスタイルベクトルを言葉から生成します．単に言葉だけで変換すると，言葉に対応するスタイル画像を選んでスタイル変換を同じになってしまうので，スタイルベクトルを言葉に加えて，変換対象の画像の内容も考慮して決定します．

具体的研究例【映像系】

ポーズ推定を用いたWeb動画の分類 (2019年卒論) 【詳細はこちら】

本研究ではWeb動画から動作キーワードに対応する動作区間を自動で抽出して，その動作の認識モデルを学習できるシステムを提案する． Two-Stream I3D Networkを用いた特徴量に加え，ポーズ特徴抽出を行い動画ショットのランキングを行う．

プロ野球番組の打席映像データベースの自動構築 (2015年卒論) 【詳細はこちら】

プロ野球のテレビ番組は2時間近くもあり，録画しても全て見ることは大変である．そこで本研究では、その見たいシーンを簡単に見つけられるようなデータベースを自動構築することを行います．プロ野球の番組を録画し，録画した映像を打席単位で切り分けその打席の結果と映像ともに，検索可能とします．例えば，特定の選手の打席だけをまとめてみることも簡単にできるようになります．

一人称視点の移動映像に対する自動要約の研究 (2013年卒論) 【詳細はこちら】

ウェアラブルカメラの自動要約に関する研究です．ある地点から別の地点まで徒歩で移動する際の映像をウェアラブルカメラで撮影して，それを自動要約する研究です．デモサイトもあります．

テレビ番組からの位置情報付き旅行映像データベースの自動構築 (2012年卒論) 【詳細はこちら】

2011年の発展させて，１つの旅行番組で複数の場所を扱っている場合は番組を分割して，それぞれ対応する地域にマッピングします．

地図と対応付けられた旅行番組データベースの構築 (2011年卒論) 【詳細はこちら】

地上デジタルテレビジョン放送の字幕データから地名を抽出することにより、地図上の位置の地域を紹介する番組を提供する、地図と対応づけられた旅行番組視聴システムを構築した．(録画したテレビ番組は公開できませんので，残念ながらシステムのデモは公開できません．)

TRECVID: 映像認識 (2005年〜現在) 【詳細はこちら】

TRECVID (Text REtrieval Conference on VIDeo)とは，国際ビデオ映像処理コンテストのことです．100時間以上の映像データが与えられて，その中から飛行機やバス，人が歌ってるシーンや爆発シーンなどを自動的に抜き出します．

Web動画マイニングと動作分類のための時空間特徴量 (2009年〜現在) 【詳細はこちら】

Youtubeの画像から自動的に特定の動作(walking, running, battingなど)の含まれるシーンを検出します．そのために必要な時空間特徴量の研究も行っています．

Web動画検索 (2008年) 【詳細はこちら】

Youtubeの画像を対象として，コンテントベースト映像検索(内容に基づく検索)を研究しています．

TRECVID: 映像要約 (2008年) 【詳細はこちら】

こちらは同じTRECVIDでも，映像要約部門です．ラッシュ映像とよばれる，テレビ番組用の未編集映像を自動的に編集する研究です．

具体的研究例【モバイル系】

モバイルGPU活用のための深層学習モデルコンバータの実現 (2017年卒論) 【詳細はこちら】

Chainerで学習した深層学習モデルを，iOS上でGPUを使って実行可能とするモデルコンバータを作成しました．Chainer2MPSNNGraphです．MPS(Metal Performance Shader)は，iOSでGPU使うためのAPIで，その命令に Chainerのモデルを変換します．

食事シーンのリアルタイム自動認識システム (2014年卒論) 【詳細はこちら】

動画像認識を用いた食事シーン認識システム．これで食べる量が決まっていない食事でも，カロリーが分かります！焼き肉がターゲットです．現在，おでん，鍋バージョンも開発中！

画像認識を用いたモバイル食事記録システム (2013年卒論) 【詳細はこちら】

食事認識をAndroidスマートフォン上でリアルタイルに行うシステムの研究です．作成したアプリは配布中です．研究アプリ配布サイト：http://foodcam.jp/

物体認識技術を用いたモバイル物品管理システム (2012年卒論) 【詳細はこちら】

望月宏史,柳井啓司: 物体認識技術を用いたモバイル物品管理システム, データ工学と情報マネジメントに関するフォーラム（DEIM）, (2012/03). (論文PDF) (スライド PDF)

モバイルデバイスでの画像認識を利用した料理レシピ推薦システム (2012年修論) 【詳細はこちら】

丸山拓馬, 秋山瑞樹, 柳井啓司: 食材画像認識を用いたモバイルレシピ推薦システム, 電子情報通信学会食メディア研究会(CEA), (2012/03). (論文PDF) (スライドPDF)

YANAI Lab.

研究紹介

具体的研究例 【画像系】

深層学習を用いた食事カロリー量推定 (2019年卒論) 【詳細はこちら】

Multi-task CNNによる食事画像からのカロリー量推定 (2016年卒論) 【詳細はこちら】

Twitter画像の大規模時空間分析 (2016年卒論) 【詳細はこちら】

質感語に対応する画像の認識可能性の評価 (2015年卒論) 【詳細はこちら】

クラウドソーシングによる食事画像認識モデルの自動構築 (2013年卒論) 【詳細はこちら】

位置情報付き画像ツイートを用いた視覚的イベント検出 (2013年卒論) 【詳細はこちら】

画像認識技術を用いたアルバム自動生成システム (2013年卒論) 【詳細はこちら】

Web上の大量画像を用いた名詞と形容詞の関係分析 (2012年卒論) 【詳細はこちら】

ツイート画像を用いた実世界イベントの検出 (2012年卒論) 【詳細はこちら】

地域毎の代表画像の選出手法の提案 (2012年卒論) 【詳細はこちら】

画像中の衣類領域からの色情報抽出 (2012年修論) 【詳細はこちら】

GeoVisualRankによる単語概念の地域性の分析 (2011年修論) 【詳細はこちら】

移動経路を用いた旅行ルート推薦システム (2011年) 【詳細はこちら】

特定物体認識手法による大量画像を用いた一般物体認識 (2010年) 【詳細はこちら】

Flickr画像からの画像オントロジー(Visual Ontology)の自動構築 (2010年) 【詳細はこちら】

多数クラスの画像分類へのVisual Ontologyの応用 (2011年) 【詳細はこちら】

画像の自動階層的分類 (2008年) 【詳細はこちら】

ジオタグ画像認識における位置情報の利用法の検討 (2010年) 【詳細はこちら】

位置情報付き画像認識 (2008年) 【詳細はこちら】

位置情報付き路上画像の視線方向推定 (2010年) 【詳細はこちら】

Web画像を用いた仮想パノラマ画像の生成 (2010年) 【詳細はこちら】

Webからの画像収集 (2000年〜現在) 【詳細はこちら】

Web画像を用いた画像データベースの自動作成(2) (2008年) 【詳細はこちら】

Web画像を用いた画像データベースの自動作成(1) (2007年) 【詳細はこちら】

Webニューズ画像からの有名人顔画像抽出 (2007年) 【詳細はこちら】

具体的研究例 【画像系】

スケッチ画像に基づいた画像の生成と編集 (2019年修論) 【詳細はこちら】

単一ネットワークによる複数タスクの組み合わせ学習 (2019年卒論) 【詳細はこちら】

画像内容を考慮した質感表現に基づく画像変換 (2017年卒論) 【詳細はこちら】

具体的研究例 【映像系】

ポーズ推定を用いたWeb動画の分類 (2019年卒論) 【詳細はこちら】

プロ野球番組の打席映像データベースの自動構築 (2015年卒論) 【詳細はこちら】

一人称視点の移動映像に対する自動要約の研究 (2013年卒論) 【詳細はこちら】

テレビ番組からの位置情報付き旅行映像データベースの自動構築 (2012年卒論) 【詳細はこちら】

地図と対応付けられた旅行番組データベースの構築 (2011年卒論) 【詳細はこちら】

TRECVID: 映像認識 (2005年〜現在) 【詳細はこちら】

Web動画マイニング と 動作分類のための時空間特徴量 (2009年〜現在) 【詳細はこちら】

Web動画検索 (2008年) 【詳細はこちら】

TRECVID: 映像要約 (2008年) 【詳細はこちら】

具体的研究例 【モバイル系】

モバイルGPU活用のための深層学習モデルコンバータの実現 (2017年卒論) 【詳細はこちら】

食事シーンのリアルタイム自動認識システム (2014年卒論) 【詳細はこちら】

画像認識を用いたモバイル食事記録システム (2013年卒論) 【詳細はこちら】

物体認識技術を用いたモバイル物品管理システム (2012年卒論) 【詳細はこちら】

モバイルデバイスでの画像認識を利用した料理レシピ推薦システム (2012年修論) 【詳細はこちら】

具体的研究例【画像系】

具体的研究例【画像系】

具体的研究例【映像系】

Web動画マイニングと動作分類のための時空間特徴量 (2009年〜現在) 【詳細はこちら】

具体的研究例【モバイル系】