imHo RSSフィード

2011-01-16

1.4 拡張2値モデル対ランク付け復元

The extended Boolean model versus ranked retrieval

  • 2値復元モデルと対比して、ベクトルスペースモデル(6.3節)などのランク付け復元モデル(ranked retrieval models)自由テキストクエリ(free text queries)で広く使われていて、正確な言語と演算子でクエリを指定する代わりに何語か入力するだけで、システムはクエリを再考に満たす文書を決定する
  • 基本的なブーリアン演算子(AND, OR, NOT)だけでは、語順がめちゃくちゃな結果集合では、人々の情報ニーズは満たせない
  • 近傍演算子(proximity operator)で語句の近さを指定する
  • 動作例:コマーシャルブーリアンサーチ。www.westlaw.com
  • 多くのユーザ、特にプロフェッショナルはブーリアンクエリモデルを好む。ブーリアンクエリは正確だ
  • でも自由テキストクエリの方がいい結果を返す傾向がある

できた方がいいこと:

  1. スペルミスや一貫してない単語の選択も許してくれる
  2. 例えば"operating system"といった複数の単語やフレーズ
  3. 語句が何度出てきたか、重みを指定できる
  4. ブーリアンクエリはマッチした文書の集合を返すだけだけど、順序付けする有効な方法が欲しい

演習:

  • Westlaw文法でクエリを書け
  • メジャーなウェブサーチエンジンで、例えば(i)burglar (ii)burglar AND burglar (iii)burglar OR burglar を検索して結果を見てみよう。
Connection: close