White scenery @showyou, hatena

If you have any comments, you may also send twitter @shsub or @showyou.

第7回自然言語処理勉強会に行ってきた

疲れてきたので途中で抜け出しましたが、参加してきました。

1.カーネル法 sleepy_yoshi

カーネルパーセプトロン
カーネルPA(Passive Agressive)
オンラインカーネル学習の問題点
 損失を生むサンプルの重みを増やしてしまうので、サポートベクタが増える
  cf.SVMはバッチで疎な解を求められる
 ・対策
   Budget法:サポートベクタの上限を付ける
Semantic similarity kernel[Sahami+06]
 短い文字列(short text snippet)同士の類似度をうまく測るためのカーネルを提案
 Sを検索エンジンに投げる
 Top n件のドキュメント取ってくる
 TF-IDFとる
 セントロイドを取る
 正規化する
 内積 QP(t)xQP(t)

カーネルを解くには双対問題を解く必要がある。
共役勾配法は無理

Q.カーネル関数の置換が数学的に問題ないことの証明
ToDo: カーネル法の定義

カーネル:どうすればカーネルになるのか
カーネル行列が半正定値
x^Tkx>=0 全ての固定値が非0

まとめ:カーネル法とは
非線形入力データを線形なものに変換する


2.文字列カーネルによるツイート分類 a_bicky
リプリゼンター定理:って一言で何?
文字列カーネル
文字列カーネルの種類
  Spectrum Kernel:文字ngramと同じ
  Gap-weighted String Kernel
  Mismatch String Kernel <- 不一致数
  String Alignment Kernel
>DPの話、1文字,2文字ってやっていった方が楽かも
Q:CVIM 見て書いた?
A:統数研のスライド 文書分類のスライド
日本語だと行列が疎になる
カーネルの変数は単語もありか?

a_bickyとmidoisanで判別:文字ngram とGap-weightedカーネルの値をSVMにかけて正か負かで
LDAとの比較はできそう?
編集距離、LCS


3.文章要約入門: hitoshi_ni
文章要約:プログラム作るのは楽だが評価は難しい。国防とか人件費削減で予算が下りることが多い
生成的要約:元文章にない文章を含む要約を行う。まだまだ難しい。

文分割
句点などを手がかりに文章を文に分割する

重要文抽出
要約なので原文章より短くしたい
どのくらい短くしたいかは外から与えられるとする
制限サイズにうまく収まるように文を選ぶ
問題1:目的関数fの設計  tf-idf 単一文章要約ならこれでよい
 複数文だと似た文章が高いスコアを出すことがある
 ->類似した文章が出たらスコアを下げるようにする Maximum Marginal Relevance(MMR) SIGIR
2:argmaxの操作
 greedy->組み合わせ最適化問題
 性能保証付き貪欲法(Khuller+ 1996)
 劣モジュラ最適化:あんまり取ってくと満足度が下がっていくような関数 高速に最適化が出来る
 文を並べる
   Sentence ordering
   タイムスタンプ順
   統計モデル 文の間に連接コストを挿入

 要約の評価
  ROUGE(Lin 2004)
 人間による要約とn-gram類似度を計算
  新聞以外は意外とダメなんじゃと言われている
  言語的品質まだまだ確立されていない(Pitler+ 2010)

要約のおもしろさ
文より大きい単位を扱う
文章が出てくる
計算量との闘い