imHo RSSフィード

2011-01-12

1. 真偽値復元

ウェブ上でかなり公開されているIntroduction to Information Retrievalを読もう。

1. Boolean retrieval

  • IR: 構造化されてない(unstructured)テキストから情報を取り出す
  • フィルタ、クラスタリング、分類
  • スケールによって3つに分ける:
    • ウェブサーチ(billion)
    • 個人情報回復:スパムフィルタ
    • エンタープライズ、機関、特定領域のサーチ: 社内文書、特許データベースとか