Hatena::ブログ(Diary)

huixingの日記 RSSフィード

Subscribe to me on FriendFeed Subscribe with livedoor Reader

2012-12-02

自分の北辞郎のエントリーが5万語台に 自分の北辞郎のエントリーが5万語台にを含むブックマーク

北辞郎が19万語を突破し*1、自分のエントリーした単語も5万語を超えたので、気のついた事を書いてみようと思う。

成語とことわざについて

まず気を付けなければならないのは、中国語の成語をそのまま日本語のことわざから拾って無理に当てはめようとすること。これはぜひ避けなければならないことで、まず平易な説明があって、そのあとで日本語のことわざに当たりそうなものを付け加えればいいのであって、中国語成語=日本語ことわざありきではない。例えば、顺水推舟のエントリーではもともと日本語訳は「流れに掉さす」のみだけが記されていた。しかしたいていの日本人は、「流れに掉さす」を耳で聞いた場合、流れを止める、水を差すという意味に取ることが多い。googleで「流れに掉さす」を検索すると、ほとんどが誤用例である。たまに正しい例があると、大抵は正しい日本語とかいうサイトのページだったりする。それで中国語成語=日本語ことわざだけにすれば、正しい理解が難しいばかりでなく、ユーザーを混乱させることになる。よって中国語の成語には、まず日本語の平易な説明をし、そのあとで日本語のことわざに当たりそうなものを付け加えるのが妥当だと思われる。

前回3万エントリーをした時に動植物のエントリーの難しさを書いた。その後化学物質や動植物のエントリーがかなりまとまって登録されるようになり充実してきた。やはり専門用語は専門に従事する人間が書いたほうが良いが行き過ぎはダメである。専門家は得てして過剰に書きがちだが、簡潔であることが大切だ。一方で、北辞郎がiphoneのアプリケーションとして出て以降、注目されるようになったためか、ユーザーの裾野が広がっていくにつれ、共同編集という機能も裏目に出て、弊害も出てきた。日本語に理解のないユーザーが奇妙な日本語を辞書からひっぱってきては登録するようになっている。誰かがこうしたどうでもいいエントリーを注視していないと、北辞郎は品質低下していくことになるだろう。

例文について

よく英辞郎を引き合いに出して、北辞郎の登録単語に例文のないことが悪いような書き込みを見ることがある。でも北辞郎に例文のないことは弱点にはならない。今ではグーグルなどインターネット全体をある単語のコーパスとして使えるので、わざわざ適当にそのなかから一つ選び出して記述することはあまり意味がないばかりか、意味をただ単に例文の中で復唱するような例文は却って邪魔である。例文が欲しいのならインターネットから数例をながめて見当をつけたほうが賢明で、ただ例文のための例文は必要ない。例文をつけるのは分離動詞となる場合やごく限られた例に限られるべきである。

方言について

紙の辞書にある方言ではよく南方方言とかしているが、南方とは何だろうか。恐らく上海以南の地方を指すのであろうか。日本の辞書編纂者自身も、ただ中国の辞書をそのまま翻訳しているにすぎないので、具体的にどこの地方で話されてるのをさして気にしないのだろう。あるいは全く知らないのどちらかだ。ある言葉は上海語で話されている。ある言葉は広東語で使われる。ある言葉は上海語でも広東語でも使われる。これは旧時に上海で商売をしていた粤商から広東語に入ったのか、上海から香港に逃げてきた上海人から広東語に入ったのか詳しいことは分からない。しかしこれをただ南方方言と片付けるのは相当いい加減であると言わざるを得ない。それで北辞郎に記述するときには、現実に即して現実に使用例を見た時に北辞郎に加えていくことにする。

広東語と標準中国語を混ぜて書く場合はいくつか考えられる。第一に、標準中国語の中にたまに広東語を挿入する場合で、この場合は広東語の数も極めて少ない。時には気がつかずに広東語を挿入している場合もあるだろう。第二に、「三及第」のような広東語と古典中国語と標準中国語を混ぜて書く場合で、この場合は広東語が他の2つの文体と同様の比率で使われる。第三に、ランダムに広東語と標準中国語が使われる場合。第四に、ナレーションは標準中国語でせりふは広東語が使われる場合。第五に、完全に広東語の口語に沿って書かれる場合である。以上の場合においては、グーグル翻訳などで使われる統計的機械翻訳はほとんど役に立たない。

また、もともと広東語の成語や慣用句を標準中国語に開いて書かれている場合、元の広東語を知っていないと意味が取れない場合がある。こうした場合も機械翻訳は完全にお手上げである。宁可犯天条不可犯众憎は広東語の唔怕犯天条,最怕犯众憎を普通語に開いたものだし、不穷不教学,不饿不舔壳は唔穷唔教学,唔饿唔舔饭壳を普通語に開いたものだし、好话不好听は好话唔好听を普通語に開いたものだし、帮理不帮亲は帮理唔帮亲を普通語に開いたものだし、一本通书读到老は一本通书睇到老を普通語に開いたものである。以上のことを見ても、北辞郎において広東語上海語を標準語と混ぜて記述することの利点は言うまでもない。

パーサーについて

北辞郎に必要なのは文章のパーサーParserである。テキスト・グロシングText Glossingと言ってもいい。テキストエリアがあってそこに中国語のテキストを貼り付けてボタンを押すと、北辞郎のデータベースに登録されている語に注釈が入るようになるものだ。このパーサーは、ボランティアによる辞書データベース・サイトであればあったほうが良いもので、これによってまだ未登録の単語や語句があることが知れる。実際、中国語広東語や日本語の辞書データベースサイトにはこれがある。また、naver中国語辞書にも単語分析ツールがあるが、これはすでに登録されている単語を確認するのには向いていないのでダメである。特にドイツのテキスト・アノテーションは秀逸で、ワンセンテンスごとにテキストを分かち書きしたうえで英語の注釈をつけ、辞書に未登録の単語まで示して辞書登録に導くところまでしてくれる。また辞書に登録されている数に限りあるため、単語の境界が全て精確に区切られるわけではないが、辞書に単語を加えていくことで精確さが増していくとも注意書きがしてある。こうした例を見ても、北辞郎サイトにはパーサーを兼備したほうがいいのではと思うのである。


http://www.cantonese.sheik.co.uk/scripts/parse_chinese.php?action=parse

http://www.csse.monash.edu.au/cgi-bin/cgiwrap/jwb/wwwjdic?9T

http://www.handedict.de/chinesisch_deutsch.php?mode=mu


可視化について

最後に、登録単語が増えていくと面白いことも出来るようになる。それは登録単語の可視化である。単語と単語のネットワークを可視化するに当たり、以下のサイト記事を参考に可視化してみる。

http://readingmonkey.blog45.fc2.com/blog-entry-636.html


まず今回は簡単に「一」と「多」という親字に関連する言葉を集めて可視化し、「一」と「多」の両方を含む10の単語、「一举多得」「一夫多妻制」「一心多用」「一石多鸟」「一稿多投」「多一事不如少一事」「多此一举」「多此一虑」「多此一问」「多背一公斤」がきちんと表現できれば良いとする。次に一と一を含む単語をコンマで区切っただけのcsvファイルを作る。次に多と多を含む単語をコンマで区切っただけのcsvファイルを作り前者とマージする。

例は以下のようになる。

"一","风行一时"

"一","风靡一时"

"一","饮一杯凉茶,不用找医家"

"一","首屈一指"

"一","高人一等"

"一","高人一筹"

"一","齐聚一堂"

"多","一举多得"

"多","一夫多妻制"

"多","一心多用"

"多","一石多鸟"

"多","一稿多投"

"多","丁咁多"

"多","三多"

データができたので、Gephiの最新のベータ版Version 0.8.1-betahttps://gephi.org/users/download/からダウンロードする。

インストールしたらメニューのファイルの開くから先ほどのcsvファイルを取り込む。なにやらグラフが出てくるので概観のレイアウトから胡一凡を選んで実行する。少しずつ変化していくので、適当なところで中止する。これだと文字同士の間隔がとれていないので、更にFruchterman Reingoldを実行する。次にプレビューに移ってデフォルトの状態でフォントを黒体、フォントサイズを48にする。他に線の色など好きなように設定すればいい。

以下にデータファイルと書きだしたpdfを置いておくので設定を変えていろいろ遊んでみて欲しい。

http://dl.dropbox.com/u/29457156/yi00.csv

http://dl.dropbox.com/u/29457156/yi_duo3.pdf


最後にこうしたことは、gexf-jsとかsigma.jsを使えば、Hanzi Network / 汉字网のようにウェブ上でインタラクティブなネットワーク図を公開できるので、北辞郎のデータを使ってこうしたことが出来れば面白いと思うのである。

Connection: close