第7回自然言語処理勉強会に行ってきた
疲れてきたので途中で抜け出しましたが、参加してきました。
1.カーネル法 sleepy_yoshi カーネルパーセプトロン カーネルPA(Passive Agressive) オンラインカーネル学習の問題点 損失を生むサンプルの重みを増やしてしまうので、サポートベクタが増える cf.SVMはバッチで疎な解を求められる ・対策 Budget法:サポートベクタの上限を付ける Semantic similarity kernel[Sahami+06] 短い文字列(short text snippet)同士の類似度をうまく測るためのカーネルを提案 Sを検索エンジンに投げる Top n件のドキュメント取ってくる TF-IDFとる セントロイドを取る 正規化する 内積 QP(t)xQP(t) カーネルを解くには双対問題を解く必要がある。 共役勾配法は無理 Q.カーネル関数の置換が数学的に問題ないことの証明 ToDo: カーネル法の定義 カーネル:どうすればカーネルになるのか カーネル行列が半正定値 x^Tkx>=0 全ての固定値が非0 まとめ:カーネル法とは 非線形入力データを線形なものに変換する 2.文字列カーネルによるツイート分類 a_bicky リプリゼンター定理:って一言で何? 文字列カーネル 文字列カーネルの種類 Spectrum Kernel:文字ngramと同じ Gap-weighted String Kernel Mismatch String Kernel <- 不一致数 String Alignment Kernel >DPの話、1文字,2文字ってやっていった方が楽かも Q:CVIM 見て書いた? A:統数研のスライド 文書分類のスライド 日本語だと行列が疎になる カーネルの変数は単語もありか? a_bickyとmidoisanで判別:文字ngram とGap-weightedカーネルの値をSVMにかけて正か負かで LDAとの比較はできそう? 編集距離、LCS 3.文章要約入門: hitoshi_ni 文章要約:プログラム作るのは楽だが評価は難しい。国防とか人件費削減で予算が下りることが多い 生成的要約:元文章にない文章を含む要約を行う。まだまだ難しい。 文分割 句点などを手がかりに文章を文に分割する 重要文抽出 要約なので原文章より短くしたい どのくらい短くしたいかは外から与えられるとする 制限サイズにうまく収まるように文を選ぶ 問題1:目的関数fの設計 tf-idf 単一文章要約ならこれでよい 複数文だと似た文章が高いスコアを出すことがある ->類似した文章が出たらスコアを下げるようにする Maximum Marginal Relevance(MMR) SIGIR 2:argmaxの操作 greedy->組み合わせ最適化問題 性能保証付き貪欲法(Khuller+ 1996) 劣モジュラ最適化:あんまり取ってくと満足度が下がっていくような関数 高速に最適化が出来る 文を並べる Sentence ordering タイムスタンプ順 統計モデル 文の間に連接コストを挿入 要約の評価 ROUGE(Lin 2004) 人間による要約とn-gram類似度を計算 新聞以外は意外とダメなんじゃと言われている 言語的品質まだまだ確立されていない(Pitler+ 2010) 要約のおもしろさ 文より大きい単位を扱う 文章が出てくる 計算量との闘い