今日は機械翻訳勉強会だったのだが、修士の人も入ってきてくれたので、一度基本的な論文からしっかり勉強しましょうか、という感じで原典を読むことに。(上記リンク先に eric-n さんが統計的機械翻訳の基礎的な論文のリストを作ってくれている)
今日は IBM Model 1 で終わり。そういえば M1 で入学したとき、一番初めに論文紹介したのはこの論文だった(入学した当初は機械翻訳の研究をするつもりだったので)。
Statistical Machine Translation
- 作者: Philipp Koehn
- 出版社/メーカー: Cambridge University Press
- 発売日: 2009/12/17
- メディア: ハードカバー
- 購入: 1人 クリック: 12回
- この商品を含むブログ (16件) を見る
2年くらい前から出る出る言っていた統計的機械翻訳のテキスト本だが、とうとう今年の8月に出るらしい。やはり本が出るとその分野も落ち着いてきたかな(研究にするには一工夫する必要がある)という感じかなぁ。
著者の Koehn は句を単位とする統計的機械翻訳を提案した人で、現在統計翻訳と言えば(フリーとかオープンソースで使えるものも含めて)この句ベースのものが標準となっている。語順が似ている言語、たとえば英語とスペイン語の間では、句ベースでもかなりうまく行くことが知られているので、日本語と英語の間みたいにかなり文法(語順)が違う言語間でないとそれ以上の構造を用いた統計翻訳に挑戦する動機がないんじゃないかなとは思った。
興味のある人は2004年の言語処理学会年次大会のチュートリアル統計的機械翻訳ことはじめおよび統計的機械翻訳入門などのスライドを見てみると、統計的機械翻訳の雰囲気分かるかも?