Hatena::ブログ(Diary)

メモ@inudaisho

2012-11-20 新:国会図書館デジタル化資料(近代デジタルライブラリ)pdf目次 このエントリーを含むブックマーク このエントリーのブックマークコメント

国会図書館デジタル化資料(近代デジタルライブラリ)から落したpdfを結合して目次もつけてくれるスクリプト

http://inudaisho.sakura.ne.jp/scripts/addOutlineToNdlPdf.py (2012/11/22 修正)

(国会図書館デジタル化資料(近代デジタルライブラリ)のpdfに目次 - メモ@inudaisho (2012/6/23)を改めました)

つかいかた

  1. なんらかの手段でサイトからpdfを全部落とす。順番をつけとくと吉。(ダウンローダは提供しません)
  2. python addOutlineToNdlPdf.py 123456 目次をつけたいPDF(複数可)
python addOutlineToNdlPdf.py 767097 01-20.pdf 21-40.pdf 41-60.pdf 61-80.pdf 81-92.pdf
python addOutlineToNdlPdf.py 767097 ~/Downloads/*.pdf

そうすると全部結合して目次がついた 西蔵探険_大秘密国_河口慧海_述他_又間精華堂_1903_767097.pdf みたいなpdfができる

注意:

  • ダウンローダは提供しません (ダウンロードする人が増えたら自分のダウンロードがおそくなるから)
  • 1ページでも欠けてると目次はつかない。
  • 与えるPDFはひとつでも大丈夫だができるファイルとおなじ名前のものがあったらうごかない

必要なライブラリ

ubuntu12.10の場合

sudo apt-get install python-reportlab python-pdfrw 

でok

f:id:inudaisho:20120623171904j:image:w640

f:id:inudaisho:20120623171905j:image:w640

トラックバック - http://d.hatena.ne.jp/inudaisho/20121120