大規模画像データセット

最近は画像認識・検索で用いられるデータセットも大規模化が進んでいます。
いくつか代表的なものや最近見つけたものをまとめてみます。
(ここでの目安は、教師つきデータは10万枚以上、教師なしデータは100万枚以上のもの)

ImageNet

http://www.image-net.org/
自然言語処理の分野で有名なWordNetオントロジーに従って、各単語(今のところ名詞のみ)に対応する画像を収集したものです。Amazon Mechanical Turk を利用し、質の高いデータセットを構築するように工夫されています。日々データは蓄積・更新されており、2012年1月現在、約1400万枚の画像データ(2万2千カテゴリ)が集まっているようです。

  • アノテーションは基本的に1画像1カテゴリで、一部の画像には物体の位置を示すbounding boxもついています。カテゴリによっては十分な数の画像がないので注意が必要です。
  • データセットは、非商用の研究・教育目的以外では配布できないとのことです。おそらく何らかの研究機関に属していないと難しいと思います。各画像の元URLのリストは配布されているので、そこから各画像をダウンロードすることはできます。8割程度のデータは回収可能です。
  • 画像から抽出した生のSIFT特徴や、これをBoVWにしたものも提供されています。これらは誰でも入手できます。

ImageNetのデータの一部を用いた画像認識コンペティションも既に二度開催されています。上位陣のスライドが公開されており、いろいろ参考になります。
http://www.image-net.org/challenges/LSVRC/2011/

Tiny Images Dataset

http://horatio.cs.nyu.edu/mit/tiny/data/index.html
データ量勝負の画像認識では一番有名な研究かもしれません。
32x32ピクセルの非常に小さい画像8000万枚のデータセットです。なんでわざわざそんなに小さくするのかという感じがしますが、人間はそれくらいの大きさで大抵の画像を理解できるのでまずそこから始めようという趣旨のようです(少なくともパターン認識的には次元が小さくなってうれしいので)。また、この大きさなら8000万枚でも数百GBで収まるのも便利なところです。

  • 画像の収集には既存の画像検索エンジンを使い、クエリをそのままメタ情報として使っています。ImageNetと違い人手によるクリーニングは行われていないのでノイズはとても強いです。
  • 32x32の画像に加え、大域的特徴量の一つであるGIST特徴も配布されています。

なお、8000万枚の中からカテゴリを絞り、きちんと教師をつけたCIFAR-10/100というデータセットも提供されています。
http://www.cs.toronto.edu/~kriz/cifar.html
どちらも大きさは6万枚ですが、CIFAR-10は10カテゴリ、CIFAR-100は100カテゴリで構成されています。
これらのデータセットは、unsupervised feature learningのベンチマークとして用いられることが多いです。
http://zybler.blogspot.com/2011/02/table-of-results-for-cifar-10-dataset.html

MirFlickr1M

http://press.liacs.nl/mirflickr/
MIRはマルチメディア検索の国際会議です*1。これは、そのコミュニティが画像検索の評価用に構築したデータセットで、Flickrの画像100万枚からなります。Flickrの画像なので、比較的リッチなメタ情報(タグ、位置情報、EXIFなど)がついていますが、もちろん画像認識向けに管理されているわけではないので役に立つかは分かりません。

  • クリエイティブコモンの画像を使っているので、わりと自由に使えそうです。

CoPhIR

http://cophir.isti.cnr.it/whatis.html
これもFlickrの画像を用いたデータセットで、なんと1億600万枚の画像が含まれます。データセットのダウンロードには、管理者の許可が必要です。

  • サムネイル画像はデータセットに含まれているようです。
  • MPEG-7の画像特徴も一緒に入っています。

SBU captioned photo dataset

http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/
これは少し変り種で、画像の自然言語での要約を目的としたデータセットです。100万枚の画像と短文のペアで構成されています。画像は全てFlickrのようです。

  • 元画像は今のところ配布されていません。自分でFlickrからダウンロードする必要があります。
  • あらかじめ抽出したGIST特徴が提供されています。

Tsai et al, ICCV'11

http://cpl.cc.gatech.edu/projects/VisualSynset/
画像検索エンジンを用いて構築したデータセットで、2億枚の画像、30万個のラベルで構成されているそうです。性質としてはtiny imagesに似ていると思われます。画像は元のURLしか公開されていませんが、自力でwebデータをクローリングする手間を考えればそれでもけっこうありがたいかも知れません。

NUS-WIDE

http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm
Flickr画像を使ったデータセットで、画像数は27万枚です。少し小さめですが、データセット開発者によりラベル付けが完全に管理されていること、一枚の画像に複数のラベルがつけられていることが特徴です。これは、画像アノテーションと呼ばれる分野では重要な性質です。
特徴量が提供されていることもあり、機械学習系の論文で最近よく見かける気がします。

  • 画像そのものは配布されていませんが、SIFTをはじめとするさまざまな特徴量がダウンロードできます。

SUN dataset

http://people.csail.mit.edu/jxiao/SUN/
シーン認識に特化したデータセットで、Mechanical Turkを用いて構築されています。画像数は13万枚ほどですが、クラス数は約900と多いです。

  • 元画像が直接配布されています。
  • 上記のページで、画像特徴量を抽出するコードが公開されています。

MSRA-MM

http://research.microsoft.com/en-us/projects/msrammdata/
MSRAの提供している、マルチメディアデータセットです。1165種類のクエリに関連した100万枚の画像、23000個の動画が含まれているそうです。また、コンテンツに関連したwebページのメタ情報も一緒に提供されています。

YouTube Video

http://netsg.cs.sfu.ca/youtubedata/
300万個以上のyoutube動画からなるデータセットらしいです。詳しくは把握していませんが、ビジョンというよりはソーシャル系の研究で使われたようです。

  • 提供されているのはメタ情報だけです。動画自体は自分でyoutubeからダウンロードする必要があります。

TRECVID

http://trecvid.nist.gov/
TRECのビデオ版です。毎年開催されているコンペティション型のワークショップで、膨大な量の映像データの認識・検索を行います。ビジョンのみならず、音声データなどもフルに活用します。
ちなみに、2011年度の一位は東工大です。
http://www.titech.ac.jp/topics/news/detail_2430.html?id=topics

*1:今はICMRに統合されています。