条件付き確率場(CRF)メモ
条件付き確率場とは?
- 対数線形モデルを系列ラベリング問題へ適用したもの
- 一般には、系列だけでなくグラフの頂点のラベルにも適用できる
- 系列の場合は、「linear-chain CRF」と呼ばれる
- 条件付き確率P(y|x)がMarkov確率場の構造を持つモデル
- これを仮定するので、一つ前のもののみを考えてもよいことになるっぽい
系列ラベリング
- 系列
- 要素が連なったもの(単語が並んでいる「文章」など)
- 系列ラベリング
- 系列の各要素にラベルを付けること
- 分類モデルでは、多クラス分類でも高々数十個に分類するだけ
- 系列ラベリングでは、分類の可能性はラベルの付け方だけあり得る
- 例えば、ラベルが10種類で要素が20個ならばラベル列は10^20通り(のクラス分類)になってしまう
- データの形式
- D={(x_1, y_1),(x_2, y_2),...,(x_n, y_n)}
- x_i : 素性ベクトル
- y_i : ラベルベクトル
条件付き確率場(CRF)
- 条件付き確率
- 対数線形モデルと一緒(dはxで表されるので、最初からxを使う)
- : 正規化のための係数
- 分類
- 対数線形モデル :
- このままだと、で最大になるyを求めるのに全部のラベル列の組み合わせを考えないといけない
- (ラベルの種類)^(ラベル列の長さ)通りできて多すぎぱない
- なので、以下の仮定をする
-
- ラベルyの全部を考えるのではなく、一個前のラベルとの組み合わせのみ(tとt-1のみ)を考慮
- すなわち、を解く
-
- ビタビアルゴリズムで高速に解ける
- 拡張として、t,t-1だけでなくt-2も考慮することができる