Hatena Blog Tags

Latent Semantic Indexing

(コンピュータ)
れいてんとせまんてぃっくいんでく

潜在的意味インデクシング, LSI (latent semantic indexing), LSA (latent semantic analysis)

情報検索 / 文書自動分類(クラスタリング) / 類義語処理 等で使われるベクトル空間モデルのアルゴリズム。
(ベクトル空間モデルとは、文書を索引語の並んだ「文書ベクトル」として表現し、ベクトル間の類似度の計算によって文書間の類似度を計算する情報検索アルゴリズム)

情報検索技術においては、文書に含まれる索引語M個と、その索引語を含む文書N個による MN 行列を扱うことになる。この行列は扱う文書が大きければ大きいほど巨大になる。

行列の特異値分解を行うと、この行列の次元を圧縮することができる。特異値分解により元の行列を、小さな行列で近似的に表現し、その小さな低階数近似行列に対して既存のベクトル空間の手法を使って解析を行うことができる。

(特異値分解による次元削減は、類義語や共起語を一つの索引語(latent semantic)に縮退する操作と解釈され、多変量解析における主成分分析(PCA)、パターン認識におけるKL変換、と等価と考えられている。)

情報検索アルゴリズム

情報検索アルゴリズム

情報検索と言語処理 (言語と計算)

情報検索と言語処理 (言語と計算)

このタグの解説についてこの解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

ネットで話題

もっと見る

関連ブログ