PDFからの和訳

A・ルーミス先生のPDF大放出祭りだったので、これを和訳すれば史上初のパブリックドメインのお絵かきの教科書じゃね?
とか青臭いことを考えた

で、今色々試してるので今やってる手順を書くね

http://www.alexhays.com/loomis/
とかで十分に解像度の高いPDFを拾ってくる

http://www.freeocr.net/
で、FreeOCR.netを落としてきて、PDFを読みこませる
2段編成なので全選択でテキスト化しないで、適当に矩形選択してテキスト化する

そのままだとイタリック体とかページの角度のズレとかで上手く読み込めなかった分が誤字として大量に出てくるので、

OpenOffice.Writerでテキストを読み込んで、スペルチェッカを起動してプチプチ修正していく

ほんで、このあとに翻訳メモリに通すんだけど、翻訳メモリのセグメント認識は改行単位だったり、ハイフンの処理が怪しかったりする
ので、改行とハイフン(-)を取っ払った後.を.\nで置換して(ドット→ドット+改行コード)
セグメントとして扱いやすい単位に変換する
言うなれば、本としての体裁で見やすい単位で改行を入れて折り返していたセンテンスを、翻訳メモリが読みやすいように文末、つまりドット(.)の直後にのみ改行が存在する状態に変換する

そんでも機械まかせでは限界があるので、
例えば
Google翻訳者ツールキットのような翻訳メモリ
http://translate.google.com/toolkit/list?hl=ja#translations/active
に読み込ませて、明らかに単語として扱いが間違ってるものを見つけて、元のPDFと読み込ませる前のテキストと見比べて修正する

そんでエラーが出なくなった所で、エラーが出なくなった本番用のテキストをGoogle翻訳者ツールキットに読み込ませて翻訳開始

って試してた 他にいい方法ないかな