目次 ImageBind 近年のLLMにちょっと変わった方向の進化があります。人間のような知覚に特化した手法です。 今回は近くに特化したImageBind について説明します。 ImageBind は、Meta(旧Facebook)が提案した 「複数のモダリティを“画像を軸”にして1つの意味空間へ結びつける」 ことを目的とした マルチモーダル表現学習モデル です。 一言で言うと: ImageBindは 「画像をハブ(中心)として、 視覚・音・テキスト・深度・IMUなどを 共通の意味ベクトル空間に束ねるモデル」 です。 1. ImageBindが解決しようとした問題 従来のマルチモーダルの限界 …