階層構造を持った大規模画像データベースの構築

秋間雄太

2009年 2月 4日

1 はじめに

近年，WWW上に大量の画像が存在するようになり，その用途も多岐にわたる．一部のデータセットではFolksonomyという利用者が自由にタグをつけることで対象に意味を付加する分類法を用いて，意味的な情報が付加された画像データセットを手にいれることもできるようになり， WWW上の画像を用いた実験はより一層幅が広がっている．しかし，Folksonomyを用いた画像データセットにおける付与されているタグは単なる単語の羅列であり，概念間の関係を加味したものではない．

本研究では，Folksonomyを利用した画像データベースFlickrから大量のタグ付き画像を収集し，画像に付加されているタグ情報と視覚特徴を利用して，タグ概念間の距離と上位下位関係を推定する．そして，推定した距離と上位下位関係を利用して自動的に階層構造を構築して，視覚的に表示することを目的とした．この階層構造は視覚的情報を含んだオントロジーとしての役割を果たすことが期待される．

オントロジーとは，コンピュータに体系的に物事を分類させたり，関係付けさせたりするために，人間が理解しているような物事の関係性を理解させることである．

視覚情報を含んだオントロジーとして本研究で作成された階層構造を用いることができれば，画像検索に反映させることで，例えばsandやbeachとしかタグが付いていないような画像に対して意味的なつながりによってseaやskyでも検索できることが考えられ，より画像の意味を考慮した画像検索が可能になることが期待される．

2 関連研究

オントロジーに利用されるデータベースとして，単語辞書データベースとして有名なWordNetが存在する[#!fel00!#]． WordNetは専門家たちによって洗練された概念の意味関係を構築したデータベースである． WordNetに含まれている単語間の上位下位関係をオントロジーとして利用することが可能であり，実際にWordNetのオントロジーを利用した研究も多々存在する．しかし，画像検索のような視覚による関係を重視するシステムにおいて，WordNetが提供するようなオントロジーは必ずしも有効ではない．また，一般名詞，形容詞，動詞が中心で，商品名や地名などの固有名詞を含んだタイムリーな情報に弱いという欠点も持っている．

本研究では，Folksonomyを利用した画像WebサイトであるFlickrから大量のタグ付き画像を収集し，自動的に階層構造を作成することで，画像データセット特有のオントロジーを作成する．また，Flickrには常に多様なタグの付いた画像がアップされるため，WordNetに無いような情報にも強い性質を持っている．

画像以外のFolksonomyを用いた階層構造の研究として，Tangら[#!tan09!#]やPlangprasopchokら[#!pla09!#]の研究が上げられるが，画像データセットに関して自動的に階層構造のようなオントロジーを作成する研究は少ない．

3 研究方針

本研究で作成される階層構造は，(1)大量画像収集と画像表現，(2)ノイズ画像除去，(3)概念表現と概念間関係の抽出，(4)概念間関係の階層構造の構築の 4つの要素を含んでいる．以下では，それぞれについての説明をおこなっていく．

3.1 大量画像収集と画像表現

本研究では，およそ200万枚の画像を画像にタグ情報の付加されたFlickrから収集することで，実験画像データベースを構築した．

また，それぞれの画像を表現するために，本研究では3つの表現方法を用いた．

3.1.0.1 視覚特徴による表現方法

視覚に基づいた階層構造を作成するための表現方法で，Bag-of-Keypoints表現で画像が表現されている1000次元のベクトルからなる．

3.1.0.2 タグ特徴による表現方法

画像に付与されたタグによる表現方法で，WordNetのような関係が抽出されることが期待される． Bag-of-Words(Bag-of-Tags)表現で画像が表現されている4345次元のベクトルからなる．

3.1.0.3 視覚特徴とタグ特徴を統合した表現方法

視覚的に類似しつつ，タグとしての関係につながりが考えられるような表現方法である．視覚での表現，タグでの表現それぞれで各画像

の各トピック $z_l^{keypoints}$ ， $z_l^{tags}$ への帰属確率 $P(z_l^{keypoints}\vert d_i)$ ， $P(z_l^{tags}\vert d_i)$ をpLSAを使って求めて結合する．Probabilistic Latent Semantic Analysis (pLSA)は確率的クラスタリングの一手法で，元の特徴の次元より少ない数の潜在トピック変数でデータを表現することにより次元削減ができる．各トピック $z_l^{keypoints}$ ， $z_l^{tags}$ のサイズはどちらも100なので作成される画像表現ベクトルは200次元のベクトルからなる．

3.2 ノイズ画像除去

大量の画像を収集したために生じるノイズ画像の除去をおこなった．

$\begin{displaymath} P(Concept\vert d_{i})=\sum_{k=1}^{K}P(Concept\vert z_{k})P(z_{k}\vert d_{i}) \end{displaymath}$

(1)

式(1)によって得られる各画像のそれぞれの概念への帰属確率から，各概念に帰属する確率の高い画像を選択し，それ以外の画像はノイズ画像とみなす．本研究では，ノイズ除去に扱う $P(z_{k}\vert d_{i})$ の値は視覚的な情報を反映させるために視覚情報によるpLSAの結果の値を適応した．

3.3 概念表現と概念間関係の抽出

本研究では，概念間の関係を抽出するために，概念そのものをベクトル表現し，概念間の関係を抽出している．

3.3.0.1 概念のベクトル表現

概念のベクトルは，式(2)のように，その概念に属する画像の表現ベクトルの平均で表現される．

$\begin{displaymath} P(z \vert Concept) = \Bigl( \sum_{d \in Concept} p(z\vert d) \Bigr) \ / \ (Conceptの画像枚数) \end{displaymath}$

(2)

3.3.0.2 概念間距離の推定

概念間の距離は，概念

，

に対して式(5)を使った概念ベクトル間のJSダイバージェンスによって求める．JSダイバージェンスの値が小さいほど 2概念間の距離は近いとする．

$\displaystyle D_{KL}(P\vert\vert Q)$	$\textstyle =$	$\displaystyle \sum_i P(i) \log \frac{P(i)}{Q(i)}$	(3)
$\displaystyle D_{JS}(P\vert\vert Q)$	$\textstyle =$	$\displaystyle \frac{D_{KL}(P\vert\vert(P/2+Q/2))}{2}$	(4)
	$\textstyle +$	$\displaystyle \frac{D_{KL}(Q\vert\vert(Q/2+P/2))}{2}$	(5)

3.3.0.3 概念間上下関係の推定

概念は，その概念が表す範囲が大きければ大きいほど，含むトピックのばらつきが大きくなり，逆にその概念が表現する範囲が狭ければ狭いほど，含むトピックのばらつきは小さくなることが考えられ，上位概念ほど表現する範囲が大きく，下位概念ほど表現する範囲が小さいことが考えられるため，式(6)によってエントロピーを求めることによって，概念のばらつきの大小を算出し，概念間の上位下位関係を推定する．

**図 1:** DAGを使って作成された階層構造の例
$\includegraphics[width=1.0\textwidth]{source/resultCute.eps}$

**図 2:** ノイズ画像除去の有無による正解率の差
$\includegraphics[width=1.0\textwidth]{source/graph2.eps}$

**図 3:** ノイズ画像除去後のデータセットの例(上から順に，fire，luna，coast，sheep，piano)
$\includegraphics[width=1.0\textwidth]{source/miniImages.eps}$

$\begin{displaymath} H(P) = - \sum_{z \in Z} { P(z\vert Concept) \log( P(z\vert Concept)) } \end{displaymath}$

(6)

3.3.0.4 概念間関係の階層構造の構築

推定した概念間距離と概念間上下関係を用いて，江田らの手法[#!folkdag!#]を参考に概念間の階層構造を非巡回有向グラフ(Directed Acyclic Graph，DAG)によって表現する．DAGは閉路を持たないことや部分的な展開が可能であることが利点となる．DAGを使って作成された階層構造の例が図1である．

4 実験と考察

実験は，pLSAを用いたノイズ画像除去と概念間の階層構造の構築についておこなった．

4.1 pLSAを用いたノイズ画像除去

pLSAを用いたノイズ画像除去の上位100枚とランダムに100枚選択したときの正解率を図2に示した．ランダムに100枚選択したときの正解率の平均がおよそ $70\%$ であるのに対し，ノイズ画像除去した上位100枚の平均正解率はおよそ $90\%$ となり，ノイズ画像除去を行うことで各概念を代表する画像がきちんと取得できることがわかった．取得された画像の例が図3に示されている．

4.2 概念間階層構造について

概念間の階層構造作成は全2657個の概念で行っており，構築された全ての階層構造はhttp://mm.cs.uec.ac.jp/akima/concept/で見ることができる．

図 4: mountainの階層構造(左から順に，視覚表現，タグ表現，統合表現)

$\includegraphics[width=1.0\textwidth]{source/resultMountain2.eps}$

$\includegraphics[width=1.0\textwidth]{source/resultMountainTag2.eps}$

$\includegraphics[width=1.0\textwidth]{source/resultMountainConfuse.eps}$

**図 5:** mountainの代表画像
$\includegraphics[width=1.0\textwidth]{source/mountainImage.eps}$

**図 6:** dawnの代表画像
$\includegraphics[width=1.0\textwidth]{source/dawnImage.eps}$

**図 7:** vistaの代表画像
$\includegraphics[width=1.0\textwidth]{source/vistaImage.eps}$

**図 8:** alpsの代表画像
$\includegraphics[width=1.0\textwidth]{source/alpsImage.eps}$

ここでは，mountainという概念に注目した．mountainで作成される階層構造は図4でmountainの代表画像は図5のようになった．図4左の視覚表現の階層構造では，mountainの下に dawn，sunrise，sunsetの概念を持つが，例えば，図6のdawnを見てみると地平線か山から太陽が昇ったり降りたりする画像が多く， mountainの画像と視覚的に大変類似している．ただし，見て取れる画像は水平線による画像が多いため，ばらつきが少なく， mountainの画像よりも下位の概念として位置づけられている．

また，図4中央のタグ表現の階層構造を見てみると， mountainの下位構造としてvalley，vista，panoramic，morningなどmountainに対する言葉本来の関係に近い関連が得られていることがわかった．しかし，vistaの代表画像の図7に含まれる画像は必ずしもmountainと視覚的に類似していない．

さらに，図4右の視覚表現とタグ表現を組み合わせた階層構造では，視覚特徴による階層構造，タグ特徴による階層構造どちらにも抽出されない概念がmountainの下位構造として抽出された．bergeがドイツ語での山を表す単語であるのと同様にalps，alpenといったmountainに意味的に関連する他の概念も抽出されている．さらに，これらの画像を調べてみると，例えばalpsの代表画像の図8を見てみると，ほとんどが山を写し出していることがわかった．このことから，意味的にも視覚的にも関連する概念が抽出されていることがわかった．

この結果を応用すれば，タグがalpsとしか付いていない画像に対してmoutainというキーワードで検索可能となることが期待できる．

5 おわりに

本研究では，大規模画像データセットに対する概念階層構造を構築することで，視覚的なオントロジーとしての役割を付与できる可能性について検討した．結果として，視覚的な階層構造は視覚による概念間のオントロジーとして，タグ表現による階層構造は意味的な概念間のオントロジーとして，視覚とタグの結合による階層構造は視覚的な要素を加味しつつ，人間が理解する意味的な関係でのオントロジーとして利用できる可能性があることがわかった．

今後の課題としては，現在はまだ検索に組み込むことができていないので，きちんとした評価ができていないが，検索と組み合わせることで有効なオントロジーであることを示していく．

section*参考文献参考文献参考文献 1-0.5zh 8pt enumiv 4000 4000 `.

C. Fellbaum, editor.
WordNet: An Electronic Lexical Database.
The MIT Press, 2000.

J. Tang, H. Leung, Q. Luo, D. Chen, and J. Gong.
Towards Ontology Learning from Folksonomies.
In Proc. of International Joint Conferences on Artificial Intelligence, 2009.

A. Plangprasopchok and K. Lerman.
Constructing Folksonomies from User-specified Relations on Flickr.
In Proceedings of The 18th International Conference on World Wide Web, pp. 781-790. ACM New York, NY, USA, 2009.

江田毅晴, 吉川正俊, 山室雅司.
非巡回有向グラフによるフォークソノミータグの局所拡張可能な配置方法.
電子情報通信学会第19回データ工学ワークショップ論文集, 2008. Empty `thebibliography' environment

YANAI Lab.