Hatena::ブログ(Diary)

さり海馬 このページをアンテナに追加 RSSフィード

2013-07-09

中国語っぽい英単語が出てきたら(2016/6/6追記)

f:id:thalion:20130709164726p:image:w210:right

今回はすごくニッチ用途向けの記事ですw。

中国語が分からないけど、サプリ読んでて中国語っぽい単語に出くわしたらどうしたらいいか」がテーマ

シャドウラン英語サプリなんか読んでいると、明らかにこれ中国語だろ、って単語が出てくることがあります。たとえば十大メガコーポの一つ、wuxing とか。

たぶん「うーしん」って読むんだろうなってあたりまでは見当がつくのですが、日本語に訳そうとすると漢字にまで落としたくなるのが人情。そんな時どうするか、というお話

基本的には:

  1. そのままググってみる
  2. ピンインにばらして文字検索する

の順番になります

そのままググってみる

実在する地名歴史上の人物人名などの一般的固有名詞なら、そのまま入力して google さまにおすがりすると、それっぽい検索結果を返してくれます*1

ピンインにばらして文字検索

でも、それっぽい結果が見つからない時にはどうするか。

漢字の一文字っぽいあたりでぶった切り、該当する文字を探し、組み合わせます。この例だと wu + xing だろうとあたりをつけ、それぞれを調べます

ピンイン

アルファベットを使った中国語発音表記は「ピンイン」って言うらしいんですが。中国語には声調(高い低い)が4種類あるので、同じアルファベット表記でも4種類の違った字になりますピンイン表記だと、これを1〜4の数字をつけて表現するそうです。

たとえば wuxing の wu だけでも

ピンイン表記対応する漢字(一部)
wu1屋、巫、汚、など
wu2吾、无、など
wu3午、五、伍、武、舞、など
wu4務、物、悟、など

とかあります。声調が同じでもいろんな字が当てはまります。たいていのウェブサービスでは、この声調が分からないと文字検索できません*2

英語サプリメントには声調が書いてない

でも、英語サプリメントにはこんな数字書いてないです。

声調が分からなくても調べてくれるサービスがあります

そんな時、いつも頼りにするのがここ

2016/6/6追記

上記のサイトは2009で更新が止まっていて、今アクセスすると表示がちょっと変みたいです。代わりのサイトを探しましたので、今後はそっちを使います

声調の数字が分からなくても、アルファベット入力すれば、それに該当する文字を全部出してくれます

あとはそこにある文字を組み合わせて、それっぽい文字列を作りましょう。

そしてまたググる

作り終わったら、今度はまたその文字を使ってググってみて、該当する文字列があるかどうか、一応確かめてみましょう。念のために。

追記:よくある姓

探すのが人名場合、以下のよくある姓のリストが頼りになります

追記2:中国人名から探す

上の「よくある姓」のエントリからリンクですが、人名探すならこちらの方がいいかもです。

このページにある "Name Search" という欄に人名の一部を入れると、それに合致する実在人名リスト漢字を含んで*3表示されます人名のあたりをつけるのに便利です。

*1:ちなみに wuxing は見つかります

*2:あと、どうやら前の音に引きずられて後ろの音の声調が変わることもあるみたいです…

*3写真つきで!

2012-03-03

みんなで発音を教えあうサイト forvo が便利

翻訳なんかやってると、明らかに英語以外の単語が出てきて、それを日本語に落とす必要に迫られるときがあります特に問題なのが人名地名なんかの固有名詞で、アルファベットで書かれてはいても、発音は現地の言葉のものカタカナで書き下すこといなります

たとえば、英語の文章の途中に "Henri Gilbert" って名前が出てきて、その人がフランス人であることがわかっていた場合に、フランス語ができない俺にはお手上げです。今まではそれっぽい単語を入れて、ググる、という作業が必要でした。

でも、forvo を使うと(ポピュラーな名前や、そうでなくても運よく登録されていれば)ネイティブな人の発音を聞きながら、とりあえずは安心してカタカナに落とすことができます。もちろん、日本語で定訳が決まっているケースもあるので、そっちも気にしなきゃならないのですが。

で、受けた恩を返すという意味で、自分日本語発声者として登録し、いくつか吹き込んでみました。「端」と「橋」とか言い分けるの面白かった。このサイト面白いところは、発声者のイントネーションがどこのものかを地図に登録する機能があるところです。だから、さっきの「端と橋」の例だと、俺は関東イントネーションですが、関西の方の人だとちょっと違った結果になることがはっきりわかります

あと、同じつづりの単語でも、国や言語発音が違うというのがひと目でわかって面白いです。さっきの "Henri Gilvert" だと、英語だと「ヘンリー・ギルバート」だけど、フランス語だと「アンリジュベール」です。検索文字で行うので、いろいろな国の読み方が一覧になった検索結果が出てきます。それを聞き比べるのも面白いです。

おまけ:Pdic の自動検索ダイアログに「forvoで検索」を追加する

英辞郎などで使われている辞書ブラウザソフトpdicですが、クリップボードコピーした単語自動的に検索する「自動検索」という機能があります。そして、そのダイアログには、他のサーチエンジン検索することを選択できる箇所があります

これに forvo で検索するためのメニューを追加してみました。

設定は簡単。

  1. pdic を起動する
  2. tools > 設定 > 自動検索 > Web検索 を選択
  3. 追加 を選択
  4. 名前に ”forvoで検索”を入れる
  5. URLhttp://ja.forvo.com/search/&C($w,utf8)/ と書き込む
  6. おしまい

以上、メモでした。

2009-09-11

母親が自転車で痴漢されたんだが

だ、大脳がねじれるwww。あの迷スレ「モスバーガーのきれいな食べ方」以来の衝撃が。

1 :以下、名無しにかわりましてVIPがお送りします:2009/08/07(金) 17:47:39.63 ID:spsuUm1m0

こういうのって名誉棄損で逮捕とかできんのかな

駅のホームの隣だったらしいけどさ

自転車で痴漢された母親が…なんか泣いて帰ってきてさ

すごいつらい…駅のホームを憎む

母親が自転車で痴漢されたんだが | ハムスター速報 2ろぐ

亀どん亀どん 2009/09/11 16:17 thalionさん、ご無沙汰です。

H-IIB、無事上がりましたね。まったくの新規開発では無いとはいえ、メインエンジンのクラスタ化、燃料タンクやフェアリングの大型化も決して簡単では無いわけで。打ち上げ成功、ほんとうに目出度いです。

ところで、ATVについて補足をば。
ええと、HTVの搬送重量とATVの搬送重量についてですが、じつは単純に優劣はつけにくかったりします。というのも、ATVの場合、HTVと違って、荷物の重量のほかに燃料や水なども運べるので、その分の重さを入れるとATVの方がたくさん荷物を運べます。そのうえ、搭載燃料とATVのエンジンにより、ISS全体の高度上昇(リブースト)が可能です。もっともリブーストはロシアのソユーズ/プログレスでも出来ますから、ATVならではの特徴は、プログレスを上回るその積載能力だといえるでしょう。
しかしHTVの場合、搬送重量こそ多少ATVに劣るとはいえ、荷物室が与圧部分と暴露部分に分かれており、なおかつ与圧部分のハッチがATVよりも広いため、かさばる荷物も運べます。暴露部にてISSの外に設置する各種機材も運べます。そのかわり、ISSの軌道維持に必須のリブーストも燃料補給も出来ません。

つまり、スペースシャトル退役後は、ISS維持にはATVもHTVもどちらも必要で、つまりは役割分担がなされているというわけです…

無事起動にのったHTVですが、JAXAのプレスキットによると初号機なのでこれから様々なテストを繰り返したのち、ISSへのドッキングに向かうのだそうで、うまくゆく事を心から願っています。

thalionthalion 2009/09/14 10:25 いらっしゃいませ
>亀どん
お久しぶりです。いやー、慶賀慶賀。詳しい情報をありがとうございます。私は JAXA のニュースリリースを読みながら書いたんですが、やっぱ半可通はいけませんね。反省。ATV と HTV は目的(と、従って設計コンセプト)が違っているんですね。よく分かりました。

2009-08-11

メモ:英語のPDF文書を翻訳メモリ(OmegaT)を使って訳したい時の課題とか

…について、課題をメモしておきます。なお、今回は課題について整理するために考えただけなので、その解決方法については書きません。あしからず。

従来

英語のPDF文書を日本語に訳すとき、これまでは主に、1台のPC上で:

を動かしながら、手作業でやってきました。

この環境はそれなりに快適だったのですが、ぶっちゃけ何か新しいことを始めたくなって(笑)、翻訳メモリの導入を考えてみることにしました。その場合の課題をまとめます

前提

前提として、

  • ソースは市販TRPGのPDF版
  • 出力はテキスト形式
  • 翻訳メモリは OmegaT を使う

こととしします

作業工程

作業工程は基本的に以下のようになります

  1. PDF からテキストを取り出す
  2. テキストを OmegaT に食わせる
  3. 翻訳する
  4. OmegaT からテキストを吐かせる
PDF からテキストを取り出す

まず最初の工程。実は最初に結構大きな課題があります。それはテキストの抽出が難しいということです。

PDFからテキストを抽出する方法にもいろいろあります*1が、そのいずれにも共通する問題として:

  • 表・カコミなどのテキストがごちゃごちゃになり易い
  • ヘッダーやフッター、ページ数などの不要な情報まで一緒に出てきてしまう
  • 取り出しの方法によっては、出力できない文字コードが含まれていることがある*2
  • テキスト中に不要な空白が混じるように設定されていることがある*3

です。まっとうな方法でコレを回避するには、そのファイルのマスターパスワードを入手して、原文の情報を取り出す必要があるのでしょうが、相手にしているのが商品なので、それは難しいでしょう。

実際問題として、この部分を回避するには「得られたテキストを手でしかるべき形に修正する」という作業をせざるをえません。ある程度はテキスト置換などのツールを使えば楽ができますが、やはり最終的には手作業になるでしょう。この部分の作業量が結構馬鹿にならないんじゃないかと危惧しています

翻訳する

一度テキストに落とせてしまえば、あとは OmegaT に食わせるだけなのです。ただ、翻訳作業を進める上で、問題になりそうだと考えていることがあります

  • 新しい訳語の追加
  • 訳語の変更

です。

新しい訳語を追加する場合、それをOmegaTに反映させるためには、一度プログラムを停止し、再起動する必要があるようですプロジェクトの再読み込みを行う必要があります(2009/08/12 訂正)。この部分はチュートリアルでも「OmegaTの一番プリミティブなところ」と書いてあります

また、訳語の変更が起こった場合、上記に加えて、これまでの訳文を全て検索し、置き換え作業をしなければなりません。これは手作業(そりゃまぁ、検索&置換機能を使いますけどね)になります*4

どっちも「面倒くさい」といったレベルの話なのが幸いかも知れませんが。

Omega-Tにテキストを吐かせる

このこと自体は問題にはならないのですが、翻訳の過程でもともとの文書構造(表、カコミ)や文字情報の一部(斜体や強調などの文字情報)が落ちているので、これを手作業で補う必要があります

実際には出力がテキスト形式なので、この情報を入れるためには、タグなどのマークアップを使う必要がありそうです。

課題まとめ

課題をまとめると以下のようになりそうです。

  • PDF からテキスト情報を取り出す作業に手間がかかる
  • PDF からテキスト情報を取り出した場合、その文書構造や文字飾り情報を訳文に反映させるのに手間がかかる
  • 訳語の管理や訳語の変更が起こった場合に手間がかかる

f:id:thalion:20090811133032j:image*5

さて、これからこういう課題をどう解決していくのか(あるいは解決しないという選択をするのか)を考えていかなくては。

*1:Acrobatのテキスト書き出し機能を使う、テキスト抽出ソフトを使う、選択してコピペする、など

*2特にコピペをするとき。 WINDOWS の日本語コード内に含まれない文字列があると、そこは化けてしまう

*3:特定の文字並びの間に空白を混ぜ込むように作られている。手元に市販のPDF文書がある方は、ためしに一部を選択してエディタなんかにコピーしてみてください。

*4:2009/08/12 追記:ただ、この作業自体は従来のやり方でも行ってきたことですから、別にOmegaTを使ったせいで起きる問題というわけじゃありません。また、OmegaT自体にもエディタ相当なら検索&置換機能がありますので、作業自体は従来と同じですね

*5:肝心の訳文メモリがここには書いてませんが、それについては今は置いておくことにします

ggincgginc 2009/08/12 18:05 ほかに言うことがない感じのAAが(笑)。

thalionthalion 2009/08/13 21:15 いらっしゃいませ。
>gginc
ニュアンスが伝わってうれしいですw

pipechairpipechair 2009/08/20 00:04 世の中、どんなモノでもちゃんと褒めて感想をいい、中の情報を蓄積して一覧化する作業ってのが必要なんですよね、と聖龍伝説本を作ってるときに思ったので、この映画も見るべきかと思った。でも本は作らない。

thalionthalion 2009/08/24 10:20 >pipechair
それはいわゆる「後世の歴史家」の仕事って奴なんじゃないでしょうかw。そういう意味ではきみ、確かに歴史家だよな、うん。

2009-04-21

津軽弁講座

  • でっただ ちゃぺかででらな
  • まんだ、びろたれで
  • あの人、ぐためぐっきゃ
  • わさ おづげ け
津軽弁講座 | JAごしょがわら市

ダメだ、ぜんぜんわからない…orz。

TareObjectsTareObjects 2009/04/21 20:38 タイトルだけ見て「それは[lang]なのか?」と突っ込むつもりだったけど、
これは確かにlangだ…一つもわからん。うちの親は東北人なのだが。

Fighter-KOUFighter-KOU 2009/04/22 13:17 きっとそのリベラルな議員は、種子島は対馬列島に有るとでも思っているんですよ(棒読み) 民主オワタ。
無知や妄言もここまで来ると、ある種の犯罪ですな。

まぁ、ハトの『日本列島は日本人だけの所有物じゃない』に比べれば、軽い方ではありますが。