imHo RSSフィード

2011-01-20

2.1.1 文書中の文字シーケンスの獲得

Obtaining the character sequence in a document

  • ウェブサーバにあるファイルのバイトシーケンスから文字の線形シーケンスに変換する
    • プレーンの英語ASCIIエンコードだけなら簡単だけど、そう簡単じゃない
    • エンコード判定:機械学習での分類問題を13章で
  • Microsoftワードドキュメントやzipファイルなどの圧縮フォーマットのデコード
    • XMLや&などのデコードも
  • postscriptやpdfも扱いたいだろうけど、この本では扱わない
  • テキストが文字の線形シーケンスだというアイディアはある書式系、アラビア語など、ある2次元やミックスされた順序の文字などで疑問である

2. 語句ボキャブラリと位置リスト

The term vocabulary and postings lists

  • おさらい:逆インデクスの構築は
    1. インデクスする文書を集める
    2. トークン化する
    3. トークンに言語的な前処理を施す
    4. 各語句が登場する文書をインデクス
Connection: close