文献PDF化計画

文献をコピーするくらいなら、内容の検索ができるよう透明テキストPDFを作成してしまおう。スキャナからの出力をOCRにかける前にいくつか下処理を行う。

  1. マルチページTIFFをページ毎に分割(マルチページでスキャンするのはNASからMacへの移動を容易にするため)
  2. 回転(正位置でスキャンする方がページめくり動作が最適化されるため)
  3. 見開きの左右分割(OCRバッチ処理で見開きの傾き補正ができないため)
  4. 空白ページ・他の論文のページ等を削除(PDFファイルのサムネイル表示のため)

OCR前処理準備

手間を極力削減できるよう自動化を追求する。libtiffのtiffsplitで1.を、ImageMagickで2. 3.の処理を行う。
これらのツールのインストールはMacPortsで行うが、研究室がプロキシ環境下なのでしかるべき設定が必要。


まず、~/.bashrcにrsync(MacPortsのport file取得用)とhttp(tar ballのfetch用)のプロキシを設定し、

export RSYNC_PROXY="proxy.hoge.net:8080"
export http_proxy="http://proxy.hoge.net:8080"

次いで、これらの変数がsudo時に引き継がれるように、sudo visudoとして/etc/sudoersを編集する。

Defaults env_keep += "RSYNC_PROXY http_proxy"


libtiffはImageMagickに依存し一緒に導入されるため、明示的にインストールするのはImageMagickのみで良い。

sudo port selfupdate
sudo port sync
sudo port install imagemagick

libxml2インストールのトラブルシュート

MacPortsにてlibxml2のインストールに失敗するので調べてみると、バージョンが改まっているとのこと。

これのみtar ballを手動でダウンロードしておく。

cd /opt/local/var/macports/distfiles/libxml2
sudo curl http://xmlsoft.org/sources/old/libxml2-2.7.1.tar.gz -o "libxml2-2.7.1.tar.gz"