固有表現抽出メモ
固有表現抽出とは?
- 自然言語理解で重要なことは「テキストの重要なポイントを抜き出す」こと
- →「情報抽出」
- 情報抽出で重要なものは「人名、地名、組織名、日付、時刻」など
- 研究で上のような固有名詞や時間にかんする情報が重要とわかってきた
- →「固有表現抽出」
- 文章中から固有名詞を高精度で抜き出すことが目標となる
- 抜き出すことができたら、それらの間にはどんな関係があるのか?
- →「関係抽出」
- 難しいところ
- いろんな表現がどんどんでてきていて辞書登録などが追いつかない
- 使われる文脈で意味がかわってしまう
- →前後の文章や単語からある程度推測できる→機械学習!!
固有表現抽出のアプローチ
- 1990年代前半は、正規表現使って人手でルールを作成
- 1990年代後半から、タグを人手で付与して、教師あり機械学習
- 決定木、決定ツリー
- 隠れマルコフモデル
- 最大エントロピーモデル
- サポートベクターマシン
- など
- 2つのサブタスク
- 固有表現の区切りを見つけること
- 固有表現の種類を識別すること
応用
- 情報抽出
- 産業スパイ活動(!?)
- 履歴書マイニング
- メディア分析
- 感情検出
- 特許検索
- メールスキャン
- 科学論文からの構造化データ抽出
参考文献
- 統計科学のフロンティア10「言葉と心理の統計」ことばと行動の確率モデルによる分析
- 入門「自然言語処理」