さり海馬

Thoughts walk away, blog stays.

ペルセウス座流星群は13日未明が観測好適

2009年のペルセウス座流星群は、8月13日の午前2時ごろにピークを迎えると予測されています(日本流星研究会による)。8月12日から14日の間、とりわけ13日の未明が観察に最適です。

観測できるかどうかは微妙。この期間の横浜は、昼は晴れ間があるものの、夜は主に曇りになることが多いようです。あと、晴れても近くに月があるのが悪条件か。

メモ:英語のPDF文書を翻訳メモリ(OmegaT)を使って訳したい時の課題とか

…について、課題をメモしておきます。なお、今回は課題について整理するために考えただけなので、その解決方法については書きません。あしからず。

従来

英語のPDF文書を日本語に訳すとき、これまでは主に、1台のPC上で:

を動かしながら、手作業でやってきました。

この環境はそれなりに快適だったのですが、ぶっちゃけ何か新しいことを始めたくなって(笑)、翻訳メモリの導入を考えてみることにしました。その場合の課題をまとめます。

前提

前提として、

  • ソースは市販TRPGのPDF版
  • 出力はテキスト形式
  • 翻訳メモリは OmegaT を使う

こととしします。

作業工程

作業工程は基本的に以下のようになります:

  1. PDF からテキストを取り出す
  2. テキストを OmegaT に食わせる
  3. 翻訳する
  4. OmegaT からテキストを吐かせる
PDF からテキストを取り出す

まず最初の工程。実は最初に結構大きな課題があります。それはテキストの抽出が難しいということです。

PDFからテキストを抽出する方法にもいろいろあります*1が、そのいずれにも共通する問題として:

  • 表・カコミなどのテキストがごちゃごちゃになり易い
  • ヘッダーやフッター、ページ数などの不要な情報まで一緒に出てきてしまう
  • 取り出しの方法によっては、出力できない文字コードが含まれていることがある*2
  • テキスト中に不要な空白が混じるように設定されていることがある*3

です。まっとうな方法でコレを回避するには、そのファイルのマスターパスワードを入手して、原文の情報を取り出す必要があるのでしょうが、相手にしているのが商品なので、それは難しいでしょう。

実際問題として、この部分を回避するには「得られたテキストを手でしかるべき形に修正する」という作業をせざるをえません。ある程度はテキスト置換などのツールを使えば楽ができますが、やはり最終的には手作業になるでしょう。この部分の作業量が結構馬鹿にならないんじゃないかと危惧しています。

翻訳する

一度テキストに落とせてしまえば、あとは OmegaT に食わせるだけなのです。ただ、翻訳作業を進める上で、問題になりそうだと考えていることがあります:

  • 新しい訳語の追加
  • 訳語の変更

です。

新しい訳語を追加する場合、それをOmegaTに反映させるためには、一度プログラムを停止し、再起動する必要があるようですプロジェクトの再読み込みを行う必要があります(2009/08/12 訂正)。この部分はチュートリアルでも「OmegaTの一番プリミティブなところ」と書いてあります。

また、訳語の変更が起こった場合、上記に加えて、これまでの訳文を全て検索し、置き換え作業をしなければなりません。これは手作業(そりゃまぁ、検索&置換機能を使いますけどね)になります。*4

どっちも「面倒くさい」といったレベルの話なのが幸いかも知れませんが。

Omega-Tにテキストを吐かせる

このこと自体は問題にはならないのですが、翻訳の過程でもともとの文書構造(表、カコミ)や文字情報の一部(斜体や強調などの文字情報)が落ちているので、これを手作業で補う必要があります。

実際には出力がテキスト形式なので、この情報を入れるためには、タグなどのマークアップを使う必要がありそうです。

課題まとめ

課題をまとめると以下のようになりそうです。

  • PDF からテキスト情報を取り出す作業に手間がかかる
  • PDF からテキスト情報を取り出した場合、その文書構造や文字飾り情報を訳文に反映させるのに手間がかかる
  • 訳語の管理や訳語の変更が起こった場合に手間がかかる

*5

さて、これからこういう課題をどう解決していくのか(あるいは解決しないという選択をするのか)を考えていかなくては。

*1:Acrobatのテキスト書き出し機能を使う、テキスト抽出ソフトを使う、選択してコピペする、など

*2:特にコピペをするとき。 WINDOWS の日本語コード内に含まれない文字列があると、そこは化けてしまう

*3:特定の文字並びの間に空白を混ぜ込むように作られている。手元に市販のPDF文書がある方は、ためしに一部を選択してエディタなんかにコピーしてみてください。

*4:2009/08/12 追記:ただ、この作業自体は従来のやり方でも行ってきたことですから、別にOmegaTを使ったせいで起きる問題というわけじゃありません。また、OmegaT自体にもエディタ相当なら検索&置換機能がありますので、作業自体は従来と同じですね

*5:肝心の訳文メモリがここには書いてませんが、それについては今は置いておくことにします

ドラゴンボール・エボリューション

…いやぁ、SFXの技術ってずいぶん進歩したんですねぇ、というのが感想ですか。一番の見所は、ポイポイカプセルからバイクが出てくる所です(断言)。

( ゚Д゚)y─┛~~