Hatena::ブログ(Diary)

elm200 の日記 このページをアンテナに追加 RSSフィード Twitter

2010-04-24

機械翻訳は語学学習の代用にはならない


ご好評いただいている「世界共通語シリーズ」(笑)。

英語は人類最後の世界共通語になるだろう - Rails で行こう!

中国語が世界共通語になる条件 - Rails で行こう!

私は繰り返し「これからもずっと英語は世界共通語であり、その重要性はますます増すので、若い人ほど一生懸命勉強するべきだ。これから生まれる子供たちについては、低年齢からの英語教育が必要だ」と主張してきた。

すると「機械翻訳の精度がこの先急速に上がるから、語学学習の必要はなくなる」という人が必ず出てくる。この点については識者の間ではすでに「無理」ということで合意ができているかと思っていたのだが、案外世間では知られていないようだ。

次のエントリは秀逸だ。

なんでも評点:なぜ自動翻訳は使い物にならないのか? ― 翻訳を生業とする立場と経験から分析してみる

女プログラマってどうよ? : 機械翻訳の実用化について

機械翻訳の歴史は古い。1940年代にコンピューターが発明されてまもなく、研究が始まっている。構文解析によって、原語を分析し、翻訳語を生成するルールベースの機械翻訳だった。それが行き詰ると、今度は統計的機械翻訳という分野が注目された。大量に用意された2つの言語の文の対に基づいて、最も確からしい翻訳結果を出力するシステムである(Google 翻訳がこの一例だ)。

機械翻訳では、文章が定型的で、2つの言語が文法的によく似ている場合、かなりよい精度で翻訳できる。英語とオランダ語フランス語イタリア語、日本語と韓国語などでは、ほぼ実用水準に達している。

しかし、文章が少しでも型を外れると、とたんに翻訳精度が下がる。また言語間の距離が遠ざかると、まともな文章が出力されない。日本語と英語などという関連性がほぼゼロの言語同士だと、惨めな結果しか得られない。

熱心に研究している人たちには気の毒だが、現在の手法では永遠に汎用的で精度の高い機械翻訳は不可能だろう。

なぜか。答えは簡単だ。機械に文章の「意味」が理解できないからだ

日本語と英語の間の翻訳をやったことのあるひとなら誰でも分かるはずだ。日本語と英語の間では逐語訳ができない。つまり単語を置き換え、語順を並び替えるだけでは翻訳不可能なのだ。まず文章の意味を理解し、文化的な差異を配慮したうえで、翻訳しなければ読者に理解できる文章にならない。

日本語の文章を英語に翻訳するのは非常に難しい。なぜなら、日本語は主語や動作対象の省略が通常なのに対して、英語ではそれらの要素を必ず指定しなければならないからだ。日本語の文章を英語に訳すとき「あれ?これは誰が言ってるんだ?」「この動作の対象は何か?」という疑問が湧いてくることが多い。つまり、その文章の意味を理解しないと、翻訳できないのである。

(ちなみに英語から日本語に訳すときは、英語では表現されていた多くの要素を切り捨てないと自然な日本語にならない。この点で、日本語というのは単位空間あたりで表現される情報量が少なくなってしまいがちな言語だな、と思う。「日本語が非論理的」と主張する人たちはこの現象を指しているのではないか)

私は永遠に機械翻訳が実現しないと言っているのではない。その必要条件は「意味が理解できる機械」の誕生だと言いたいだけだ。

「意味が理解できる機械」については、現在、まったく実用化のメドが立っていない。現在のノイマン型と呼ばれる動作原理のコンピュータがいくら進歩しても、意味が理解できる機械にはならないだろう。私たちは、「意味が理解できる機械」の実用化を待っているという意味では、コンピュータ発明以前の人たちとなんら変わらない立場にいるのだ。

というわけで、ごく限定的な用途を除くと、機械翻訳が私たちの生活を大きく変えることは(残念ながら)当分ないだろう。日本人は、機械翻訳に期待せず、自分の頭を使って英語を学ぶべきだ。

P.S.

現在、定型的な文章の翻訳者の間では「翻訳メモリ」と呼ばれる翻訳支援ソフトウェアが使われるのがあたりまえになっているとのこと。これは、大量の対訳を段落単位に用意しておいて、原語の段落に最も適合する対訳を検索表示できるシステムらしい。統計的手動翻訳というところか。これは、現在のコンピュータの動作原理に忠実なソフトウェアであり、この方向の進化は期待できるのではないだろうか。

minazuki6minazuki6 2010/04/24 17:11 私は費用対効果の臨界点の問題だと思います。

機械翻訳の研究開発も無限の予算を与えられてるわけではないでしょう
Googleもメインの食い扶持は欧米のインターネットですからね

十分に非印欧語圏のネット産業が発達してきて、「よしこれからは異言語間翻訳の時代」だ
となったときにGoogleあたりがガッとマンハッタン計画のごときプロジェクトを組んで
それなりのレベルのものを作っちゃうんじゃないかと思っています。

ていうか願っています

匿名希望匿名希望 2010/04/25 00:10 僕は今23歳です。僕は貴方からみてまだ若い部類に入りますか?

僕は勿論若いと思ってます。なので英語の習得に勤しんでいるのですが…

elm200elm200 2010/04/25 00:22 >僕は今23歳です。僕は貴方からみてまだ若い部類に入りますか?

ははは、若さは主観的なものです。自分が若いと思えば若いですよ。
私は今年40歳になりますが、まだ若いと思っていますよ・・・(笑)
It's never too late!

shiroshiro 2010/04/25 03:57 前エントリのコメントでもちょっと気になったんですが、ノイマン型じゃ駄目、っていうのはチューリングマシンでは計算量的に爆発するから、という意図ですか?

taktak 2010/04/25 08:38 「まず文章の意味を理解し、文化的な差異を配慮したうえで、翻訳しなければ読者に理解できる文章にならない。」
違います。
これは、翻訳者にありがちな意味の捏造行為です。


そういう翻訳者の作為的工作を含めて翻訳と呼ぶのであれば、それはありでしょうが、
それは、意味を忠実に翻訳しているわけではありません。

doomdoom 2010/04/25 12:58 >これは、翻訳者にありがちな意味の捏造行為です。

確かに、洋画などの字幕で意訳をしすぎて原文とまったく違う
訳になってるのをしばしば見ますが、かといって原典に忠実にしすぎると
日本人が理解できないという欠点が・・・

mkzmkz 2010/04/25 21:48 こんばんは。翻訳関連業に従事してます。
takさんのおっしゃることですが、
>意味を忠実に翻訳しているわけではありません
これは在りませんね。いわゆる直訳をしていると、翻訳後の言語のほうは意味不明になりがちです。
そこをなんとか妥当なところまで持っていくのが実際の翻訳で、完璧な翻訳というのは在りえません。
優秀な翻訳者ほどこの「作為的工作」が上手いですが、なんとか妥当なところでということしかできないので、完璧主義の人にとてはけっこうストレスが溜まる仕事ですね...

ミクロンミクロン 2010/04/28 06:33 もし完璧な機械翻訳が完成したら、英語圏全体の競争力が急激に落ちちゃいますから、理論上の問題が解決されても、現実的な観点から見て、実現は難しいと思います。
たぶん彼らにとっては大量破壊兵器なんかより、そっちの方がよっぽど恐ろしいものでしょうから(笑)

石水石水 2010/05/02 23:39 >現在のノイマン型と呼ばれる動作原理のコンピュータがいくら進歩しても

elm200さんは意図的に使用を避けているのだと思いますが、要するにAIが実用化されないと、翻訳ソフト自身が「文章の意味」を理解できないので、自動翻訳は困難だという事ではないでしょうか。今のところ、ノイマン型コンピュータによるAIの未来は絶望的なようですね。

ところで上の話とからめて、機械翻訳が困難な理由を挙げます。言葉はそれを話す人々の文化と強い関連を持ちます。ある文化に固有の慣習を表す言葉は、別の文化圏では、それを置き換える言葉がみあたらない事が在り得ます。たとえば冠婚葬祭や宗教に関連する言葉には、そういう言葉が多く含まれるのではないでしょうか。日本の「結納」をBetrothal presentsと訳すと文化的な背景が失われます。キリスト教のEternal lifeを「永遠のいのち」と訳しても、キリスト教徒でない日本人には意味が伝わりません。ある文化に属する言葉を、まったく別の文化に属する言葉へ翻訳するには、翻訳元の文化的と、翻訳先の文化を理解していないと、十分な翻訳ができません。翻訳ソフトが文章の意味を「理解」するには、AIが必要である事を先に述べました。そういう理由で、異なった文化間での精度の高い機械翻訳は、いまのところ困難であろうと考えています。

shiroshiro 2010/05/03 09:12 >石水さん

私の質問を受けてのコメントでしょうか。
何らかのAIが必要ということには異存は無くて、私が確かめたかったのは、

* 通常、ノイマン型コンピュータの限界というとメモリのボトルネックのことを指すのでは
* しかし、AIの限界というなら、むしろ計算量の限界の方がありそうに思える
* チューリングマシンでモデル化できる計算であれば、ノイマン型だろうと超並列のデータフローマシンだろうとニューロだろうと(素子数の上限が決まっていれば)計算量は変わらないんじゃないかなあ
* そういう根本的な限界のことを言っているのであれば、チューリングマシンでは実現できないアルゴリズムで計算量のオーダーを変えられる計算モデルを持ってくる必要なんじゃなかろうか。量子計算とか。(量子計算でAIが可能になるとか言いたいわけじゃありません。念のため)

つまり、AIが実現できない原因としてノイマン型コンピュータを持ってくるというのはレイヤが違うのではないかと感じたのです。けれども私が知らないだけで、メモリボトルネックが最大の問題だと既に知られているとか、あるいは別の形のノイマン型コンピュータの限界があるのかもしれないなと思って質問した次第です。

石水石水 2010/05/03 23:56 wikiでAIを調べてみましたが将来に期待のもてそうなモデルは何も無いようです。現在実用化されている、AIのベースになるコンピュータはノイマン型以外に無いと思ったので、かのような表現をさせて頂きました。

記事本題から外れますが、面白そうなのでAIが実現できそうもない理由について考察してみました。(elm200さん、ごめんなさい)

外部記憶装置に格納されたプログラム(データを含む)と、それを実行する演算装置が分離されている事(ノイマン型コンピュータの定義そのもの)がAIの限界を示しているように思えます。帰納的判断を行う為に、学習結果をもとに自身を構築し直して事象へ最適化する能力自体がすでにAIに相当すると思われますので、学習によって帰納的な判断を行うプログラムは、ノイマン式では存在し得ない事になると思われます。

帰納的判断をギブアップした場合、個別の学習結果から、あらゆる個別の判断コードを自己増殖させ得るようなノイマン式コンピュータは可能性がありそうです。しかし、実世界において無限に近い個別判断コードを蓄積するには、無限に近い外部メモリと演算処理能力を要するので、これもまた困難と言えそうです。

ところで人間の幼児は知能ゼロで生まれますが、脳が本能(ROM?)として備えていると思われる学習機能によって、後天的に知能を獲得するようです。その際に、脳は記憶とプログラムと演算機能が一体になっているように感じます。データは分離可能としても、プログラムと演算機能が一体化したようなコンピュータ方式であって、自発的好奇心を持ち、好奇心にドライブされた学習機能の結果により演算アルゴリズムを自己増殖させられるような能力を付与できれば、AIの可能性が見えるかもしれませんね。(勝手な妄想で失礼しました)

外界への好奇心、学習意欲、アルゴリズム自体を生み出して自己増し得る能力が必要ではないかと、素人考えで推論してみました。

fkniigatafkniigata 2010/06/13 17:22 私は、人間の脳でできていることは、将来必ずできるようになると思います。
翻訳について言えば、5歳の子供同士の会話を翻訳するのであれば、比較的
少ないデータと遅い計算速度でもかなり正確な翻訳が可能だと思います。
しかし、40歳のシステムエンジニアの会話を正確に翻訳できるようにする
ためには、両者が生まれてから得たすべての経験則データをインプットし
なければならず、かつそうした想像もできないような膨大なデータを処理
する速度が必要となります。経験則データの中には、もしかすると3歳以前
の記憶に残っている以前に獲得した経験則データを必要としているかもしれず、
そうした翻訳機は当分実現しないだろうと思います。その点でelm200さんの
考えに同意します。
必要となります。
するくらいの想像を絶する

kyunkyunkyunkyun 2010/08/02 22:00 はじめまして!
つい最近、「マイクロソフト、機械翻訳の精度向上に向け豊橋技科大と連携 - CTFの試験導入開始 」 というニュースを目にしました。

http://journal.mycom.co.jp/news/2010/07/27/015/
http://itpro.nikkeibp.co.jp/article/NEWS/20100726/350699/

例えばこのような試みの積み重ねによって、機械翻訳の精度向上に、期待は持てるでしょうか?

fufufufu 2011/06/01 04:02 う〜ん
残念ながら英語と日本語の機械翻訳もここ数年飛躍的に精度が上昇してますよ
これはコンピュータ処理能力の上昇が要因です

ぼくは20年後は語学教育なんて無くなってると思ってます

fufufufu 2011/06/01 14:55 http://www.youtube.com/watch?v=wDoEYe-mzWs
将来的には音声認識・音声合成・機会翻訳・拡張現実・ウェアラブルコンピュータを組み合わせた機械によってリスニング・リーディング・ライディング・スピーキングがフォローされると思います、リーディングだけなら10年後にはいけるかと
現在のCPU・メモリ・HDの進歩が停滞しない限りですが

少し訂正しておきますとまったく語学教育が無くなるってことは無いと思いますよ
外国語を勉強したい人がいる限り学問はなくならないでしょうし
でも今のように皆がキッチリ勉強するものではなくなるでしょうね
初歩は皆がやって後は選択科目として好きな人がやるようになるかと

まあ指をくわえて見ててください
すぐですから

はてなユーザーのみコメントできます。はてなへログインもしくは新規登録をおこなってください。