Online西洋法制史辞典をJammingで引く:独和編

前口上

冬休みにやりたかったこと。上智大学の松本尚子氏が作成・公開されている参加型Online西洋法制史辞典(独和/羅和)*1。こいつをローカルPCの辞書引きソフトで引けるようにしたい。HTMLファイルを保存すれば、ネットに接続できない状態でも検索可能だが、その都度ブラウザで表示してページ内検索をするのは面倒だ。ほかの辞書と一緒に串刺し検索できるようにならんもんかと。
辞書データとしてはEPWING形式にできれば最も汎用性が高くなるが、公開されているものが追記・改訂されることも考えて、さしあたり今回はテキストファイルによるユーザ辞書作成を試みる。一度ここで要領が分かれば、後で別の形式に変換する場合にも足がかりになるので。Jammingでは

■見出し語
本文
というリストを作って、DicToolsにかければ、インデックスを作成して引けるようにしてくれるらしいので、適当に検索置換でテキストを整形することにした。

公開されている辞典は、フレームを使って出典が分かるように工夫されている。誰がどの文献でどういった訳語を使っているのかということが分かるので、どうせなら、これも辞書本文と一緒にひとつのテキストにまとめてから辞書データ化した方が便利だし、面白い。

というわけで、

  1. 辞書本文にある出典記号を文献名に置換するための準備
  2. 本文ファイルの整形および出典の置換
  3. 本文ファイルの辞書データ化

の三段階を踏むことにした。どちらもHTMLファイルからやるのは面倒なので、エディタにコピペするところから始める。>実にスマートではない。

用意するもの

  • EmEditor正規表現で検索置換ができるエディタなら何でもいいと思うけど)
  • Jamming
    • JammingDicTools(辞書データのインデックス作成のため)
  • Speeeeed(出典を一括置換するのに使用)

出典ファイルの整形

まず、置換用に出典ファイルをSpeeeeedの一括置換ファイルとして整形する。ヘルプによると、

検索文字列<タブ>置換文字列<タブ>オプション<改行>
という形でリストにして、拡張子lstをつけてSpeeeeedと同じディレクトリにおいてやればよいみたい(Shift-JISで)。オプションは指定しなくても行けそうなのでここでは省略する。ちなみに、見易さのためと後で処理し易くするために、出典名を隅付き括弧でくくる。

本文ファイルの整形と置換

検索置換で整形する。Speeeeedがユニコードを扱えないので、独仏の特殊文字はいったん実体参照に書き換える。行頭に■を挿入し、原語と訳語を改行で区切るなどの操作をしてから、Speeeeedにかけ、その後実体参照を戻す。Speeeeedにかけると、5,000項目以上を置換した。これは手作業ではできないね…。

辞書データ化

これでようやく辞書データに変換できる…と思いきや、特殊文字が入っているとインデックス作成ができないらしい。くそぅ。しかたがないので、とりあえず、見出し語はウムラウトがとんだ状態で検索し易くして、本文一行目に特殊文字をaeとかszとかe'とかで表記した形を載せて我慢する。残りの特殊文字を適当に置換してから、DicToolsにかける。

和独の作成

DicToolsを使うと、本文から日本語インデックスを抽出して、和独代わりにも使えるようになる。出典や注記をインデックスしないように除くにはフィルタをかければ良いらしい。ユーザーズガイドによると、

除外したい括弧の左側 (タブ) 除外したい括弧の右側 (改行)
もしくは
除外したい記号 (タブ) ¥n (改行)
というフォーマットらしい。要するに、除外したい部分の左右の指標を、タブをはさむ形で指定すれば良いみたい。ということで、それに従って、墨つき括弧を除外するようにフィルタを作成する。これをDicToolsで読み込んで、実行。

中間報告

これで、読み込んで独和和独双方向で検索できる状態には一応なる。見出し語4,826*2、条件検索インデックス6,370。整形したテキストファイル672KB、インデックス作成後881KB、日本語インデックス追加後991KB*3
もちろん、まだカンマやスラッシュが入った見出し語に問題がありそうな気がするし、ほかの方法でウムラウトが(せめて本文に)入っていてもインデックスを作れないかも知りたいので、もうちょっと考えてみたい*4

追記

「インデックスを作成した後で、本文のウムラウトを戻してやったら行けるんじゃないか」と、ふと思いついて試してみたが、駄目だった…。Jamming自体がユニコードのテキストファイルをユーザ辞書として読まないみたい…。

*1:http://ha5.seikyou.ne.jp/home/geschu/

*2:改めて見ると凄い数だ。こんな大量のデータを公開して下さっていることに感謝!

*3:これがどれだけの分量なのかというのは、青空文庫でつい最近公開された『ドグラ・マグラ』のテキストファイル(http://www.aozora.gr.jp/cards/000096/card2093.html)が約917KBといえば、一目瞭然であろう。チャカポコ。

*4:EB Studioとか。