eliyaの日記

2008-12-08

[]自分専用の英語用例辞典 10:34

論文執筆のため、自分専用の小さな英語用例辞典(コーパス)をつくりました。たとえば、「異質的なエージェントのモデル」を英語にするとき、heterogeneous agents modelなのか、model of heterogeneous agentsなのかを自信を持って書くためのデータベースです。(じつはどちらも間違った英語ですが、何が間違っているかわかりますか?答えは本文で。)僕の環境(英語版WinXP)での作り方を書いておきます。日本語環境やVistaは試していませんが、問題なく動くと思います。


つくりかた

もとになる論文のPDFファイルを手に入れる

研究者ならハードディスクのどこかに大量のPDFが蓄えられていると思いますが、IDEAS(ここ)などでダウンロードするのもよいでしょう。ワーキングペーパーなら無料です。あなたが経済学の研究者でないのなら、自分の興味のある分野の雑誌のウェブサイトなど便利なのではないでしょうか。僕はだいたい300個ぐらいのファイルを使いました。


PDFファイルからテキストを抽出する

xdoc2txt(ここ)を使います。コマンドラインですが、使い方は簡単です。最新バージョンをダウンロードして、解凍したフォルダを開きます。そこにpdfという新規フォルダを作ってください。そのフォルダに先ほどダウンロードしたPDFファイルをコピーします。コマンドプロンプトを起動して、

cd [xdoc2txt.exeがあるフォルダのパス]

とタイプして、カレントディレクトリを変更します。そのあと、

xdoc2txt.exe -f .\pdf\*.pdf

とタイプすれば、それぞれのPDFファイルに対応したテキストファイルが作成されます。セキュリティの関係か、error.とだけ書かれたファイルもたくさんできると思いますが、英語用例辞典のためには問題ないでしょう。


テキストファイルを検索する

いくつかテキスト検索ソフトを試しましたが、AntConc(ここ)が僕には使いやすかったです。検索結果が見やすくていい。


AntConcで語の使われ方を調べる。

file -> Open Dirで先ほど作成したテキストファイルが入っているディレクトリを指定します。Search Termって書いてあるボックスから検索してください。検索したままでは見づらいので、Kwic Sortで並べ替えます。Levelっていうのは優先順位、1Lとか2Rっていうのは、それぞれ「左の一単語目」「右の二単語目」をキーとして並び替えすることをあらわします。


僕の環境では、なぜか正規表現(Regex)のチェックを入れると検索がずっと早くなります。正規表現について深入りするのは避けますが、いくつか例を。

 impl.*? that

これで検索すれば、imply thatと、implies thatと、implied thatと、implying thatを同時に検索できます。はじめのスペースにも注目。現在形、つまりimply thatとimplies thatだけ検索したければ、

 impl(y|ies) that

でよいです。heterogeneousとmodelが近くにあるような例文は、

(model.*heterogeneous)|(heterogeneous.*model)

で探せます。検索結果は以下のとおり。

f:id:eliya:20081208115709p:image

heterogeneousはどうやらwithを前につけ、a model with heterogeneous agents というのが標準的な書き方なようです。a heterogeneous agent modelという表現もあり、この場合はagentの's'が取れることがわかります。


他にもいろいろな機能があるようです。詳しくはここをどうぞ。

トラックバック - http://d.hatena.ne.jp/eliya/20081208/1228700095