Hatena::ブログ(Diary)

アスペ日記

2016-11-12

機械翻訳と意味

ここ最近、Google翻訳リニューアルされ、性能が向上したという話が流れてきたので、さっそく試してみた。

ぼくが真っ先に試したのは、「母は、父が誕生日を忘れたので、怒っている。」だ。

なぜこの文が気にかかっていたかは後述する。


結果は次の通り。


f:id:takeda25:20161112215524p:image


"My mother is angry because my father forgot her birthday."


すばらしい。

では、「母は、父がを忘れたので、怒っている。」はどうだろうか。


f:id:takeda25:20161112215523p:image


"My mother is angry because my father forgot his bag."


完璧だ!

「誕生日を忘れた」の場合は「母の誕生日」と解釈し、「鞄を忘れた」の場合は「父の鞄」と解釈する。

これこそ、利用者が翻訳に求めるものじゃないだろうか。


しかし、ここまでだった。

次にぼくは、「父」と「母」を入れ替え、「父は、母が誕生日を忘れたので、怒っている。」を翻訳してみた。


f:id:takeda25:20161112215522p:image


"My father is angry because my mother forgot her birthday."


「誕生日」を「母の誕生日」と解釈している。

最初の文でうまくいっていたのは偶然だった。


さて、なぜぼくは「母は、父が誕生日を忘れたので、怒っている。」という文が気にかかっていたのか?

ぼくがこれを見たのはある語学教材の中でだったが、「誕生日」が「誰の」誕生日なのかを確定するために必要な知識・推論を考えると、なかなか複雑だということに気づいたからだ。

文字にすると、以下のようになる。


背景知識として、次のようなことがある。


1. 誕生日というのは、人間にとっての良いイベントである。

2. 誕生日を忘れるというのは、その誕生日がどの一日であるかを忘れるということである。

3. あるイベントがどの一日であるかを忘れると、そのイベントについてに行うべきことを正しい日に行えなくなる。

4. 父と母というのは、この文脈では話者の父親と母親を指す。

5. ある人間の父親と母親は夫婦の関係である。

6. 夫婦は親しい間柄である。

7. 親しい間柄の二人は、互いに良いイベントを祝うことをお互いに期待する。

8. 人は、自分が相手に期待することを相手がしないと怒る。


そして、これらから次のようなことが導かれる。


A. 4, 5, 6 より、「父」と「母」は親しい関係である。

B. A と 1 と 7 より、「母」は「父」が誕生日を祝うことを期待する。


ここで、「父が誕生日を忘れた」を「父が(母の)誕生日を忘れた」という仮説 X を導入する。

すると、次のことが導かれる。


C. 仮説 X と 2 より、父は母の誕生日がどの一日か忘れたということになる。

D. C と 3 より、父は母の誕生日について行うべきことを正しい日に行えない(行えなかった)ことになる。

E. B と D と 8 より、その仮説のもとでは「母」は怒ることになる。


というわけで、「父が(母の)誕生日を忘れた」という仮説が強力に支持される。

また、このほかに「人間は自分の誕生日を忘れることはあまりない」という背景知識もあり、それによって「父が(父の)誕生日を忘れた」という仮説はもっともらしくないことになる。

これらより、「父が誕生日を忘れた」は「父が(母の)誕生日を忘れた」という意味であることがほぼ確実であるといえる。


明示的にこういうことを考えているわけではないだろう。

しかし、「誕生日」を「鞄」に変えると自然な推論が「(父の)鞄」になることからわかるように、これに似た何らかの推論を行っていることは確かだ。

(「鞄」とすると「(父の)鞄」が自然な推論になることの背景には、「人が鞄を持ち歩く場合、それはたいてい自分の鞄だ」といったものがあるだろう)


さて、なぜぼくはこんなことを書いているのか。

それは、機械翻訳と、例えば自動運転コンピュータ将棋などとの違いを確認するためだ。

結論から書くと、後二者が人間を必要としなくなることは比較的近い将来に想定可能だが、機械翻訳はそうではないということだ。


人工知能について語るとき、よく次のようなことが言われる。

「飛行機は空を飛べるが、鳥を模倣しているわけではない。機械で何かを実現するにあたって、生物がそれを行っているようにやる必要はない」


これは妥当だろうか?

ぼくはそう思う。

目的さえ達成できるのであれば、その手段はどうでもいい。

これに賛成する人は多いだろう。

では、機械翻訳自動運転コンピュータ将棋のそれぞれの目的は何だろうか?


自動運転であれば、目的は出発地から目的地まで安全に移動することだ。

人間のように考える必要はない。

地図の情報や周囲の情報を、適切なハンドル・アクセル・ブレーキの動きに変換すればそれでいい。

(さらに言えば、車を運転する必要すらなく、どこでもドアが開発できればそれが一番望ましい)


コンピュータ将棋であれば、目的は相手に勝つように駒を移動することだ。

人間のように考えなくても、盤面の情報を適切な駒の動きに変換すればそれでいい。


これら二つの目的の中に、人間が入っていないということがポイントだ。


では、機械翻訳の目的は何か。

それは、原語の文によって人間が伝えたかったことを、人間に伝わるように、目的言語に翻訳することだ。


ここで問題になるのが、目的の中に人間が入ってしまっているということだ。

そうである以上、正しい翻訳をするためには、人間の思考を何らかの形でエミュレートせざるを得ない。

コンピュータ流の思考を通すわけにはいかない。

例えば、「父」と「母」を入れ替えた「父は、母が誕生日を忘れたので、怒っている。」という文を機械が翻訳するにあたって、機械は「誕生日を忘れて怒るのは普通女だから、この誕生日は『母の誕生日』ってことでいいでしょ」と言うことはできない。

正解の判定基準は人間にあるからだ。


これから言えるのは、人間の補助を必要としない機械翻訳ができるようになるのは、機械が人間のように考えることができるようになってからだということだ。

もちろん、ハードウェアは同じである必要はない。

ファミコンミニ*1を作るのにファミコンCPUを載せる必要がないのと同じことだ。

しかし、ファミコンミニが「ファミコンと同じように考える」必要があるのと同じように、人間の補助を必要としない機械翻訳ソフトは、「人間と同じように考える」必要がある。

つまり、上に書いたような人間的な思考ができるようになる必要があるということだ。

だが、それができるようになるということは、もっといろいろなこと(いま人間にしかできないようなことのほとんど)ができるようになるということだろう。

それが実現できたら、インパクトはとても機械翻訳だけにはとどまらない。

それを考えるのはまだまだ先でいいはずだ。


Google翻訳がよくなったことは確かだ。

ものすごくよくなっている。

それについては各所で書かれている/今後も書かれると思う。

しかし、ぼくが言いたいのは、人間と同じように考えられる機械ができるまでは、人間の補助を必要としない機械翻訳はできないということだ。


これは機械翻訳を貶めるために言っているわけではない。

機械翻訳が役に立つ領域はこれまでよりはるかに広がるだろうし、それはいいことだ。

しかし、機械が人間のように思考できない間は、人間であればしないような間違いをし続けるだろうし、それを発見・修正するという仕事はあり続けるということだ。

その点で、(現時点でそうかはともかく)人間の介入の必要性がゼロになりうる自動運転コンピュータ将棋とは違う。


この文を書いた動機のひとつとして、「Google翻訳がよくなったことで人工知能ペテン師(固有名詞)がはしゃぎそうだなぁ」と思ったからというのがある。

ここまで書いたように、言語の領域から人間が完全に必要なくなることは当面ないだろう。


しかし、その規模がどうなるかはわからない。

また、現在機械翻訳を補っているのは人間の翻訳家だが、コンピュータに足りないものは本質的に「人間的な思考」であるということを考えると、いつまでもそうであるかはわからない。


いつか、自分にわからない意味的な問題をクラウドソーシングで人間に聞きに行くようなソフトが出てきたりするかもしれない。

将来が楽しみだ。

*1:いま流行りのやつのほう。正式名称は別。

tai2tai2 2016/11/13 09:18 英語文法という専門知識自体には、あまり価値がなくなってくるということですかね。国語の選択問題を解かせていると見せかけて、実は裏側では英日翻訳が行われている、というシステムとかはどうだろう。

kukekkokukekko 2016/11/13 10:55 興味深く読ませてもらいました。
現在の英文法(学校文法)でも和訳のみを取り上げると、ほぼほぼ、単語の訳を当てはめるだけで英文を和文に変換できるので、技術としての厚みを感じます。
名詞によって数詞が変化するように、名詞によってどの動詞が選ばれるかが限定されます。そのあたりのパターンが積みあがれば、意外と早く翻訳システムが出来上がるのではと思っていたのです。
しかし、現在、機械学習の方にトレンドが移っているので、「初めからやり直し」していると思われます。
google翻訳は、機械翻訳がメインではなく、データベース翻訳がメインだと思っていました。つまり、ネット検索と同じで、ネットの向こうの誰かが修正した訳文が検索できる機能が主体だと思っていました。誰かが、訳して、修正してくれた文は、まともですが、それ以外は、他の翻訳エンジンと同じがそれ以下というイメージを持っています。
おそらく、今後、「機械翻訳しやすい文章を書くことを人間が学習する」ということになると思います。そして、「機械翻訳しにくい文章を書く奴は低能だ!」に変化するのだと思います。

通りすがり通りすがり 2016/11/13 14:13 父は、母が誕生日を忘れたので、怒っている。

「この情報だけ」だと、どっちがどっちかわからないでしょ?
でも翻訳の結果は返さないといけない

日本語の言語としての不得手と、
言葉は進化する→その原動とは

daidai 2016/11/13 15:22 日英の実務翻訳家です。仕事をするときに心がけているのは「想いを伝えること」。ある言語で書かれた文章の奥にある想いや心の層まで降りていって、そこから違う言語として表出させる。取説でも、パンフレットでも、広告であっても、それは同じ。心からいかに言葉が紡ぎ出されるのか、そして世界はどう定義されるのか。そこまで突き詰めていかないと翻訳はできないと思っているので、「心のない機械には無理でしょ」って思ってます。希望的観測かなあ?

akamemukanakamemukan 2016/11/13 17:37 日本語は英語ほど所有格(〜の)を重視しませんからね。
もっとも日本語だとしても私なら「自分(自身)の誕生日」とちゃんと書きます。
この「自分の」や「自身の」を機械がどう判定するか見物です。
文全体の主語が父だと常識的に考えれば父の誕生日としてくれそうですが、
直前の母を優先すると誤訳する可能性があります。

修正に来た通りすがり笑修正に来た通りすがり笑 2016/11/13 18:18 「日本語の言語としての得手不得手、」
と修正しに来たつもりだったが、、、的外れだった

情景や背景,話の流れ等の前以った情報がある時に通じる簡素に省いた表現と、
全くの予備情報の無い相手に伝える文字表現の違いでは。

機械翻訳を正確にするには、常に人とAIが情報を共有すると良いのかも

panda1100panda1100 2016/11/13 21:20 自動運転も同じでは?全部の車が同じアルゴリズムであることが保証されない限り、自動運転のアルゴリズムにも他者のモデルが必要になり、なかなか複雑ではないかと

key7x7key7x7 2016/12/25 11:43 専用道路、専用車両で統一した環境を整備すれば自動運転は可能。それ以外は補助、アシストという形で収まると予想。機械翻訳は自然発生的にPen Pineapple Apple Penみたいな言葉が生まれるし、システム化は困難。ただ、Google翻訳を一人のAIと捉えれば、AIも(意味を)間違えることはある、として実装は可能。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証