Hatena Blog Tags

転置インデックス

(コンピュータ)
てんちいんでっくす

検索エンジンの実装などに使われる、索引構造のこと。書籍の末尾には索引として、ある単語がどのページに含まれて居るかを列挙しているページがあるが、それを計算機上で実現するものを指す。

例えば、文書が1,000文書あったとして、各文書には固有の番号(文書ID)が付与されているとする。この1,000文書すべてから単語を抽出し、各単語が含まれる文書IDを記録していく。例として、以下のような構造ができあがる

Pearl   1, 2, 304 ...
Perl    1, 5, 10, 12, 15 ...
Python  5, 10, 32 ...

上記は "Pearl" という単語が文書ID1, 2, 304 ... の文書に含まれるという意である。この構造を、何かしらのデータ構造で表現したものが転置インデックスである。

転置インデックスでは、単語さえ決まればそれに紐付く文書IDはすぐに探すことができるため、情報検索分野で広く利用される

このタグの解説についてこの解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

ネットで話題

もっと見る

関連ブログ