Hatena::ブログ(Diary)

Xin Support Page

2100-12-15

 応用編1:中英辞書を作成

ファイルから一括置換

ファイルから一括置換を利用し、Xinのユーザー辞書で使える中国語-英語辞典を作成してみましょう。

1.一括置換メニューからファイルから一括置換を実行し、サイドバーを表示します。「処理オプション」の「前処理を行う」をチェックし、「一括置換を行う」のチェックを外します。今回は正規表現による前処理のみを行います。

2.CEDICTのサイトからcedictu8.zipをダウンロードします。このZIPファイルを解凍すると「cedict_ts.u8」という辞書ファイルができます。これが今回の処理対象ですので「処理対象ファイル」として指定します。

3.前処理用のパターンファイルを作成します。CEDICTのフォーマットは以下のようになっています。

繁体字<space>簡体字<space>[発音]<space>/訳語/訳語/

このフォーマットを単純なタブ区切り形式に変換しますので、以下のパターンを利用します。


([1-5]) ([A-z])	\1\2
([一-龠]) ([一-龠])	\1\t\2
([一-龠]) \[([A-z])	\1\t\2
([A-z1-5])\] /	\1\t
/\n	\n
/	<//>
\[	
\]	

置換結果

正規表現の内容について細かい説明は省きますが、スペースやスラッシュ、ブラケットなど不要な記号を取り除き、「繁体字<tab>簡体字<tab>発音<tab>訳語<//>訳語」に整形しています*1。上のパターンをファイルにまとめたものをこちらに用意しましたので右クリックからダウンロードした上で「前処理用ファイル」として指定します。

これで準備は完了です。今回は処理終了後に対訳エディタに処理結果を表示したいので「処理オプション」の「処理結果を表示する」をチェックした上で「実行」ボタンをクリックしてください。

処理が完了すると、処理結果の保存先を指定するためのダイアログが表示されます。適宜ファイル名を入力すると対訳エディタに結果が表示されます。CEDICTは2MB強の比較的大きなファイルですので、環境によっては開くのに時間がかかりますが気長にお待ちください。

処理結果が表示されたら、右のようにCEDICT先頭行のコメントを取り除き、代わりに「繁体字<tab>簡体字<tab>発音<tab>訳語」と入力して上書き保存してください(これは辞書のフィールド名となります。<tab>の部分はタブ記号に置き換えてください)。以上でユーザー辞書のソースファイルの作成作業が完了しました。

辞書の検索

設定メニューの「ユーザー辞書」→「ユーザー辞書の新規作成」を実行します。

  1. ファイル選択ダイアログが表示されますので、先ほど保存したテキストファイルをソースファイルとして選択します。
  2. 次に辞書ファイルの保存先を指定します。辞書ファイル名は「cedict.dic」などにしておくと良いでしょう。
  3. データとフィールド名の確認を促すダイアログが表示されます。問題なければ「OK」をクリックします。
  4. データの登録が始まり、ステータスバーに処理状況が表示されます。
  5. 処理が完了すると辞書検索用のサイドバーが表示されます。
  6. 以下のように検索できれば成功です。

関連:辞書の作成


*1:訳語と訳語の間の<//>は改行を表すXin内部処理用の記号です。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証

トラックバック - http://d.hatena.ne.jp/Ctrans/21001215/cedict