潜在的意味インデクシング, LSI (latent semantic indexing), LSA (latent semantic analysis)
情報検索 / 文書自動分類(クラスタリング) / 類義語処理 等で使われるベクトル空間モデルのアルゴリズム。
(ベクトル空間モデルとは、文書を索引語の並んだ「文書ベクトル」として表現し、ベクトル間の類似度の計算によって文書間の類似度を計算する情報検索アルゴリズム)
情報検索技術においては、文書に含まれる索引語M個と、その索引語を含む文書N個による MN 行列を扱うことになる。この行列は扱う文書が大きければ大きいほど巨大になる。
行列の特異値分解を行うと、この行列の次元を圧縮することができる。特異値分解により元の行列を、小さな行列で近似的に表現し、その小さな低階数近似行列に対して既存のベクトル空間の手法を使って解析を行うことができる。
(特異値分解による次元削減は、類義語や共起語を一つの索引語(latent semantic)に縮退する操作と解釈され、多変量解析における主成分分析(PCA)、パターン認識におけるKL変換、と等価と考えられている。)
|
|