Hatena::ブログ(Diary)

さり海馬 このページをアンテナに追加 RSSフィード

2013-08-06

翻訳メモリ OmegaT の分節化規則指定

f:id:thalion:20130806101141j:image:left

しばらく前に挫折して、また今導入を検討している翻訳メモリ "OmegaT" についてのメモを。

OmegaTは、ソースとなるテキストを読み込ませると、一つの文ごとに「分節」として分割し、それを単位として作業を行います。この分節化は割と頭がよくて、普通の文章だときちんと認識してはくれるのですが、ものによっては一部例外を設定する必要があります

たとえば、文中でページ番号を指定する "p. 123" とかの記述があると、"p"の後のピリオドを文末と認識してしまいます。この例外を指定するのが「分節化規則の指定」です。この機能については詳しい説明がこちらにあります

で、これに従って、先ほどのページ番号の分節化規則を指定してみます。要は「"p"または"P"の直後にピリオドがついていて、そのあとにスペース1文字と数字が続くときには、そのピリオド分節切っちゃダメ」という例外規則を指定する訳です。

分節化前の構図」はピリオドとその直前の部分の規則。つまり" [pP]\."

分節化後の構図」はピリオド直後の部分の規則。つまり "\s\d"

で、設定画面ではこんな感じに。

f:id:thalion:20130806100910p:image

この設定をした後にテキストを読み込ませると、"p"直後のピリオドで区切らずに、こんな風に1つの分節として認識されます

f:id:thalion:20130806102431p:image

おしまい

OmegaTのトークナイザーのインストール

トークナイザーというのは、OmegaTが原文の形態素分析をするための機能です。3.x より前の、現在一般に配布されているパッケージでは、このトークナイザーが含まれていません。

こいつが無くても翻訳はできるのですが、たとえば英語で単数形と複数形区別がつかず、用語集なんかでも別々に登録しなきゃならなかったりと、微妙ダサいです。ので、インストールすることにします

手順はこちらに書いてあります

おしまい…と言いたいところなのですが、やってみて引っかかった箇所があったので、メモしておきます。あ、環境windows XP です。古くてすいません。

インストールして、指定された通りバッチファイルから起動しようとすると、環境次第ではこういうエラーを吐くときがあります

Exception in thread "main" java.lang.UnsupportedClassVersionError:....(中略)...

in (Unsupported major.minor version 49.0)

at java.lang.ClassLoader.defineClass0(Native Method)

....

以下略

これを吐いている時には、使っているJava処理系が古すぎるか、複数のjava処理系インストールされていて、古い方が動いてます

ので、前者の場合javaサイトにいって新しいのをダウンロードインストールます後者場合は、環境変数PATHを変更して、新しい方が先に呼ばれるようにします

たいてい java実体はここらへんにあります

C:\Program Files\Java\

この下に複数のディレクトリがある場合後者です。きっと。