NetVLADが発表されたのは2016年のCVPRなので[1]、進化の早いAI分野では古めの技術となってしまいますが、画像検索(Image Retrieval)や、撮影場所の推定(Visual Place Recognition)などの論文に未だに現役で出てくる手法なので、この日本語記事が色んな人の役に立ったら良いなと期待してます。
他にも、特徴マップをGlobal Featureへ変換する方法としてGeM Pooling[5]なども有名で、Image RetrievalではGlobal Features are All you needという論文[6]がこのGeM Poolingを組み合わせてROxford等でSoTAをとっています。他にも深層学習用のGlobal Featureは色々あるみたいですが、必要が出たら調べてみます。
参考文献
[1] Arandjelovic, R., Gronat, P., Torii, A., Pajdla, T., & Sivic, J. (2016). NetVLAD: CNN Architecture for Weakly Supervised Place Recognition. IEEE Conference on Computer Vision and Pattern Recognition.
[2] Uy, M. A., & Lee, G. H. (2018). PointNetVLAD: Deep Point Cloud Based Retrieval for Large-Scale Place Recognition. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR)
[3] Jegou, H., Douze, M., Schmid, C., & Perez, P. (2010). Aggregating local descriptors into a compact image representation. IEEE Conference on Computer Vision and Pattern Recognition,
[4] Keetha, N., Mishra, A., Karhade, J., Jatavallabhula, K. M., Scherer, S., Krishna, M., & Garg, S. (2024). AnyLoc: Towards Universal Visual Place Recognition. IEEE Robotics and Automation Letters
[5] Radenovic, F., Tolias, G., & Chum, O. (2019). Fine-Tuning CNN Image Retrieval with No Human Annotation. IEEE Transactions on Pattern Analysis and Machine Intelligence
Learning Transferable Visual Models From Natural Language Supervision (ICML2021) DINOv2: Learning Robust Visual Features without Supervision (arXiv2023) The Effectiveness of MAE Pre-Pretraining for Billion-Scale Pretraining (ICCV2023)