こんにちは。CTO室リサーチャーの鈴木です。 近年、深層学習の分野では、さまざまなタスクにおいて「基盤モデル」と呼ばれる汎用的で高性能なモデルが注目を集めており、これらのモデルを活用した多岐にわたる応用が急速に進展しています。本記事では、その中でも画像分野における基盤モデルの一つである"DINO v2"[1]の概要をご紹介します。 本記事の概要 基盤モデルDINO v2は、 画像の本質特徴を抽出する「自己教師あり表現学習」の決定版! Contrastive LearningやMasked Auto-Encoderの仲間だよ 画像分野における汎用性の高さが魅力! 深度推定、インスタンス検索、物体…