ICCV 2013 (1)

中山です。

遅くなりましたが、先月シドニーで開催されたInternational Conference on Computer Vision (ICCV)の紹介をさせて頂きます。

ICCVは、CVPRと並ぶコンピュータビジョンの分野では最も権威のある国際会議です。CVPRの方は毎年米国で開催されますが、ICCVは隔年でECCVと交互に開催されています。内容的にはどちらも変わらず最高レベルの研究発表が行われますが、雰囲気はCVPRと結構違う印象を受けました。シングルトラックでセッションが組まれていることが大きいと思いますが、質疑応答などは以前参加したCVPRの方がずっと活発であったように感じました*1
いずれにせよ、ビジョンのみならずさまざまな分野の研究者にウォッチされている会議であり、我々としては目指すべき場所の一つです。今回の採択率は久しぶりに30%を超え、少し間口が広がった印象があります。大体いつも25%〜30%程度で推移しており、決して厳しすぎる競争率ではないので積極的に狙っていきたいところです。


(オーラルセッションが行われる講堂。初日は機材トラブルで大変そうでした。)

今回はオーストラリアのシドニーで開催され、中心地のDarling Harbourにあるコンベンションセンターが会場でした。南半球は夏の観光シーズンですが、暑すぎることもなく、温暖で過ごしやすい気候でした*2。時差も二時間で日本からは比較的出張しやすいところですが、物価が非常に高かったので驚きました。なお、この会場ですが、2013年を最後に改装する*3ことになっており、会議期間中は既に閉鎖されているはずだったところを当局にかけあってこの会議にのためだけに空けてもらったそうです(笑)。


(会場外観。サンタクロースが張り付いていましたが、会期途中でなぜか姿を消しました…)

以下、いつものようにいくつか気になった発表を紹介します*4

HOGgles: Visualizing Object Detection Features
Carl Vondrick, Aditya Khosla, Tomasz Malisiewicz, Antonio Torralba
"HOG goggles"の略。画像特徴量(この論文ではHOG)から元の画像を可能な限り復元し、その特徴量を通して結局どのような像を見ているのかを可視化します。識別器が出すfalse positiveは人間にとっては理解に苦しむことがありますが、HOGから再構成された画像は確かに紛らわしい像になっている場合が多いようです。実際、元画像ではなくHOGglesを人間に見せた場合には、HOGによる識別器と比較して識別精度はそれほど良くありません。要するに、特徴量の表現能力がまだまだ足りないということが言えると思います。これまで一般物体認識では、特徴量やアルゴリズムが結局何を見ているのかはブラックボックスになっていることが多かったですが、最近はこのような直感的な可視化の方法も増えています。
この研究では、exemplar LDAで上位にスコアリングされた画像の重みづけによる復元方法がよかったことが示されており、手法的にも興味深いと思いました。

Symbiotic Segmentation and Part Localization for Fine-Grained Categorization
Yuning Chai, Victor Lempitsky, Andrew Zisserman
Fine-grained visual categorization (FGVC) 向けの手法。Deformable part modelによるlocalizationと、saliency map + GrabCutによるセグメンテーションを組み合わせた高精度の物体領域抽出を行うことで、非常に高い識別精度を達成しています。他の研究は一般物体認識まで含めた特徴量の開発に注力しているものが多いですが、この研究はFGVCならではの前提をうまく活用しているように思いました。

Image Set Classification Using Holistic Multiple Order Statistics Features and Localized Multi-kernel Metric Learning
Jiwen Lu, Gang Wang, Pierre Moulin
アルバムのような、複数の画像の集合を識別する問題。集合中の画像の特徴量の高次統計量(モーメント)をmultiple kernel learningで活用していくことで識別精度が大きく向上するという話でした。高次統計量の利用は、有名な高次局所自己相関特徴に通ずるところがあり、個人的に興味深かったです。

From Subcategories to Visual Composites: A Multi-level Framework for Object Detection
Tian Lan, Michalis Raptis, Leonid Sigal, Greg Mori
単なるカテゴリ情報ではなく、組み合わせを考慮したvisual phrasesの有効性は注目されていますが、現実的にはフレーズの数は膨大でありアノテーションを行うことは困難です。この研究では、カテゴリレベルのみの教師から、階層的にサブカテゴリを分割し更にそれら関連性を考慮することで、自動的にvisual phraseを発見していきます。サブカテゴリのクラスタリングにはexemlar-SVM、関係性の学習にはstructured SVMを用いています。

Restoring An Image Taken Through a Window Covered with Dirt or Rain
David Eigen, Dilip Krishnan, Rob Fergus
タイトルの通り、水滴や泥汚れのあるガラス越しの風景を、convolutional neural networkを使いきれいに復元しています。テクニカルな新しさはあまりないような気もしましたが、結果はimpressiveでした。他にも、deep learningを応用した研究が多く見られ、流行を感じました。

SIFTpack: A Compact Representation for Efficient SIFT Matching
Alexandra Gilinsky, Lihi Zelnik Manor
基本的なアイデアは非常にシンプルで、dense samplingの場合はSIFTの4x4の小領域をオーバーラップさせるように保持していれば、データ量は1/16で済むというものです。一応スパースな一般の場合についても拡張はされていますが、ICCVで採択されているのは少し意外に感じました。実験評価は非常に充実しておりよい研究であることは間違いなく、トリビアルと言わせない迫力が重要だと感じました。

Nested Shape Descriptors
Jeffrey Byrne, Jianbo Shi
最近流行しているbinary descriptorの一つで、VGG-Affine データセットでSIFTを超えるパフォーマンスを出しています。Hawaiian earring と呼ばれる構造に従い、階層的に輝度勾配をプーリングしていくところがポイントのようですが、なぜこれほどよい性能が出るかはよく分かっていないとのことでした。プーリングで平行移動や回転への不変性を段階的に入れていくのは重要なポイントであり、バイナリ特徴に限らず一般的に重要な知見ではないかと思いました。

DeepFlow: Large Displacement Optical Flow with Deep Matching
Philippe Weinzaepfel, Jerome Revaud, Zaid Harchaoui, Cordelia Schmid
オプティカルフローの検出は勾配法を前提とする場合、差分が大きい場合の扱いが問題となり、マッチングによるアプローチも必要なります。この研究では、deep convolutional neural networkにより階層的にマッチングをとることで、長距離のフローの推定を可能にしています。ネットワークの構造をうまく利用した方法であり、DCNNがこんなことにも使えるというのは大変面白く感じました。

To Aggregate or Not to aggregate: Selective Match Kernels for Image Search
Giorgos Tolias, Yannis Avrithis, Herv〓 J〓gou
VLADやFisher Vectorのような、局所特徴の統計量に基づく手法と、Hamming embeddingのようなマッチングに基づく手法の統一的な解釈を与え、両者のいいとこどりができる一般化したカーネルを提案しています。

NEIL: Extracting Visual Knowledge from Web Data
Xinlei Chen, Abhinav Shrivastava, Abhinav Gupta
CMUの発表で、Webから自動的に自然言語の概念獲得を行うNever-Ending Language Learner (NELL)の画像版です。さまざまな画像のカテゴリはもちろん、それらの関係性まで自動的に学習することができます。Webから自動的に画像知識を獲得する研究は昔からありますが、ついにここまで来たかという印象を受けます。
種になっているのが既存の画像検索エンジンである点は変わらず、ここで得られるノイジーな画像をどうクラスタリングするかが鍵ですが、ここでもexemplar-LDAによるアプローチがかなり効いているようです。この研究に限りませんが、exemplarベースの考え方が普及したことがブレークスルーにつながっている領域が多いように感じました。


まだまだありますが、ひとまず今日の更新ではここまでとさせて頂きます。

*1:ICCVは権威主義的な面が強く、CVPRの方がフラットなので好きといっている海外の研究者の方が多かったのが印象的でした。この辺の空気感はよく分かりませんが。

*2:半袖だと少し寒いくらいでした。

*3:改築だったかもしれません。

*4:私の専門であるパターン認識に関わる研究に偏っていますが、もちろん会議ではコンピュータビジョンに関わる幅広い最先端の研究が扱われています。