2100-12-20

　対訳データベース

Vacuumで抽出された原文と訳文の対訳データは、対訳データベースへと保存されます。

編集メニューの「対訳DBの検索」*1を実行すると、対訳データベースを検索するためのコマンドバーが表示されます。「原文」または「訳文」を検索対象として指定し、検索語句を入力して「対訳DBを検索」ボタンを押します。

検索結果の書式：

元のファイルのパスと対訳番号
原文
訳文
編集日時

ファイルのパスをダブルクリックすると、ファイルを開き、対訳番号で指定されたところまでジャンプして内容を表示します。ファイルのパスと対訳番号は、当該ファイルにVacuumを行った際の情報ですので、Vacuumをかけた後にファイルを編集した場合、指定行まで正しくジャンプすることができません。ファイルが削除されている場合は、ファイルを表示することもできません（削除したファイルを復元する方法はこちらを参照ください）。

データベースの本体は「db」フォルダの「trm.db」です。データベースには、原文、訳文、編集時のファイル名（パス）、日時が登録されます。

検索結果は100件までに制限されています。

現在、対訳データベースの検索機能は開発過程にあります。元のファイルの表示、ファジーマッチ、正規表現検索、条件による絞り込み、並び替え機能などを追加する予定です。

条件による絞り込み

下記のオプションを指定することで検索結果を絞り込むことができます。

-file:ファイルのパスに含まれる文字列
「-file:」に続いてファイルのパスに含まれる文字列（フォルダ名やファイル名）を入力します。検索を実行すると、検索語句とファイルパスの条件に該当する対訳データのみが表示されます。たとえば、ファイル名が「環境問題.txt」の対訳データのみを検索対象とする場合は「-file:環境問題.txt」と入力します。

-time:（数字）+（hour, day, week, month, yearのいずれか*2）
「-time:」に続いて「数値＋時間の単位」形式の文字列を入力します。時間の単位にはhour（時間）、day（日）、week（週）、month（月）、year（年）を利用することができます。たとえば、過去1週間の間に登録したデータのみを検索対象とする場合は「-time:1week」と入力します。

※なお、ファイルおよび時間のオプションは、それぞれ1つしか指定できません。

対訳DBの設定用コマンドバー

バージョン1.10にて廃止

ファイルの復元

対訳DBの検索を行うと、検索結果にファイルのパスが表示されます。このパスをダブルクリックすることでファイルの内容を表示することができますが、ファイルを削除したり、保存場所を移したり、名前を変更したりしていると確認することができません。こういう場合は、「ファイルの復元」を行うことでそのファイルを復元することができます。

表示されているファイルパスをコピーします
メニューから「ファイルの復元」を実行し、入力欄に貼り付けます。
「復元」ボタンを押します。
指定したファイルが対訳DBに保存されていれば、新しいタブにそのファイルの内容が表示されます。

なお、対訳DBからの復元では、原文と訳文を上下に表示するGhost形式でファイルの復元が行われます。そのため、元のファイルと完全に同じ体裁にはなりません。

対訳データのインポート

通常、対訳データベースへのデータの登録は、Vacuumを利用して行いますが、「ファイルからデータをインポート」を実行することでTSVファイルから対訳データをインポートすることができます。

「設定」メニューから「対訳DBの設定」を実行します。
メニューから「インポート」を実行します。
ダイアログが表示されますので、対訳データが登録されているファイルを指定します。

なお、この機能で処理することができるファイルの形式は以下の通りです。

テキストファイル
文字コードはUTF-8
原文データと訳文データがタブで区切られ、1行に1データが登録されている形式であること

例えば、次のようなデータがあるとして、原文と訳文の間をタブで区切り、各1行にまとめるとインポート用データの完成です。

原文	訳文
子曰、	子曰く、
吾十有五而志于学、	吾十有五にして学に志し、
三十而立。	三十にして立つ。
四十而不惑、	四十にして惑はず、
五十而知天命。	五十にして天命を知る。
六十而耳順、	六十にして耳順ひ、
七十而従心所欲不踰矩。	七十にして心の欲する所に従ひて矩を踰えず。

これをまとめたファイルがこちらです。ご参照ください。

中国語の新聞を読んでいると、古典から引用された言い回しがよく出てきます。上の論語のようなデータを対訳DBに登録しておけば、簡単に出典を確認できるので便利です。

*1:ショートカットはCtrl+T

*2:hours, daysのように複数形にしても検索することができます。

2100-12-20

　翻訳メモリ機能

編集中のファイルまたは対訳データベースから、指定した文字列に類似する文字列を検索することができます。同じような表現が繰り返し出現する特許やマニュアル、法律などの翻訳作業の負担を大幅に軽減し、訳文の整合性を保つ上で力を発揮する機能です。

翻訳メモリ

編集状態で検索したい文字列（行）の上で右クリックし、表示されるメニューから「ファジー検索」を選択します。
検索用のサイドバーが表示されますので、類似度を設定し、検索対象（現在のファイルまたは対訳データベース）を選択した上で「Search」ボタンを押します。
類似する文字列が見つかった場合は、サイドバー下方のテキストボックス内に該当する文字列が表示されます。編集中のテキストに類似文字列を挿入するためのリンクも表示されますので、この部分をダブルクリックすると、カーソル行の次の行に類似文字列が挿入されます。

処理の仕組みと検索結果

現在のファイルを検索する際、検索対象の文字列の先頭が「#」である場合は、行頭に「#」がある行（原文）だけを対象に検索が行われます。検索結果では、先頭が#の行とその次の行を原文と訳文のペアと見なして対訳表示を行います。行の先頭が「#」でない場合は、ファイル全体を対象に検索が行われ（ただし、空白行やxinで改行を示すは無視されます）、ヒットした文字列が検索結果に表示されます。
対訳データベースの検索では、常にデータベースの原文カラムを検索対象としてファジー検索が実行されます*1（検索結果は対訳形式で表示されます）。
対訳データベースの検索では、検索結果は50件までしか表示されません。該当件数が多く、期待した結果が得られない場合は、類似度の数値を上げて絞り込みを行って下さい。

検索例

左側の画像は、検索文字列として「任重道远，士不可以不弘毅」を選択し、対訳データベースを検索したところです*2。
1件のデータがヒットしていて、この検索文字列と論語のデータが類似していることが分かります。実際の論語のデータでは「士不可以不弘毅，任重而道远」（論語・泰伯）なのですが、語順が入れ替わっていたり、「任重而道远」が「任重道远」になっていたりしても類似していると判断し、検索結果に表示されます。
古典を少しもじったような言い回しは、現代中国語でもよく出てきますので、このように対訳データベースに古典データを保存しておくと何かと便利です。

注意事項

ファジー検索で検索される文字列は、サイドバー上部のテキストボックスに表示されている文字列です。この文字列は編集することができます。
検索結果に表示される挿入用のリンクは、とてもシンプルな仕組みで動いています。具体的には、挿入のためにダブルクリックしたリンクの2行上の文字列をコピーし、それをメイン画面のカーソル行の次の行に挿入するという仕組みになっています。そのため、検索結果を編集するとうまく挿入できなくなることがあります。
検索結果では検索文字列と一致した部分が強調表示されますが、対訳表示では原文にも訳文にも強調表示処理が適用されます。少し見難いですがシステムの仕様ということでご容赦ください。
対訳データベースが大きくなると検索もそれだけ時間がかかります。コンピュータにも負荷がかかりますので、処理が終わるまでのんびりとお待ち下さい。

*1:つまり、訳文部分の検索はできません。

*2:対訳データベースへのデータ登録は自分で行う必要があります。