imHo RSSフィード

2011-01-24

2.1.2 文書ユニットの選択

Choosing a document unit

  • 次のフェーズはインデックスする文書ユニット(document unit)を決定すること
    • 例えば伝統的なメールファイルはメール列を1つのファイルに格納しているが、別々の文書として扱いたいだろう
    • メールに添付された文書やzipファイルなど
    • 逆にlatexなどの複数のファイルは1つとして扱いたい
  • より一般的に、非常に長い文書ではインデクスの粒度問題が起こる
    • 本のコレクションでは、本全体を1つの文書としてインデクスするのは悪いアイディア
    • 章や段落をミニ文書としたい、そうすればマッチがより適切になるだろう
    • でもなぜそこで止めるのか?個々の文をミニ文書として扱うこともできるのに。それは精度とリコールのトレードオフがある。ユニットをあまり小さくしすぎると重要なパッセージを見過ごす可能性がある。あまり大きくしすぎるとおかしなマッチが得られてしまい、ユーザが関連する情報を見つけるのが困難になる。
  • 大きな文書ユニットの問題は明示的または暗黙的な近傍サーチ(7.2.2)、トレードオフは8章で扱う。
    • インデクスの粒度や複数レベルの粒度での連続したインデクス文書の必要性は、XMLの復元で登場し、10章で取り上げる。
  • ここでは適切なサイズの文書ユニットが選ばれているものとする。