適当な単語群を含む辞書があったとします。「京都の高倉二条に美味しいつけ麺のお店がある」*1という文章が入力として与えられたとき、この文章中に含まれる辞書中のキーワードを抽出したい、ということがあります。例えば辞書に「京都」「高倉二条」「つけ麺」「店」という単語が含まれていた場合には、これらの単語(と出現位置)が入力に対しての出力になります。この類の処理は、任意の... 続きを読む
Aho Corasick 法 - naoyaのはてなダイアリー情報検索(IR)の勉強を本格的に始めて8ヶ月.大体どんな分野があって,どんなことを勉強すればいいのかわかってきた(と思う).この気持ちを忘れないうちにメモしておこう.以下,若輩があーだこーだ言ってるだけなので,間違いや他に情報があれば,ぜひコメントをお願いします.# ここで述べている情報検索とは,コンピュータサイエンスの一分野としての情報検索です.図書館情報学の側... 続きを読む
情報検索ことはじめ〜教科書編〜 - 睡眠不足?!情報検索におけるベクトル空間モデルでは、文書をベクトルとみなして線形空間でそれを扱います。この文書ベクトルは、文書に含まれる単語の出現頻度などを成分に取ります。結果、以下のような単語文書行列 (term document matrix) が得られます。d1d2d3d4Apple3000Linux0101MacOSX2000Perl0100Ruby0103この単語文書行列に対して内積による類似度など 続きを読む
Latent Semantic Indexing - naoyaのはてなダイアリー