日経Web刊、紙面ビューア用画像取得スクリプト(Python)改訂

日経Web刊紙面画像リサイズスクリプト(Python)のコメントで要望頂いた点などを反映し、画像取得スクリプトを改訂しました。

日経新聞社からのクレームにより削除いたしました。各位にお詫び申し上げます。

必要環境

  • Python2.5または2.6
  • lxml
  • PIL

変更点

  • ダウンロードした画像をリビルドし、1枚にして指定ディレクトリへ出力出来るようにした(出力時ファイル名は20100429_朝刊_01_1面.jpgというようになります)
  • 最大解像度の画像のみを取得し、転送量を削減した
  • エラー発生時のリトライを自動的に行うようにし、基本的に一度のコマンド実行で全面を取得出来るようにした

使い方

例によって契約せずにデータ取得を行うような用途のものではありませんので、正規のアカウント設定が必要となります。その他注意については日経Web刊、紙面ビューア用画像取得スクリプト(Python)を一読下さい。

settings = {
	'userAgent' : 'Mozilla/5.0 (Windows; U; Windows NT 6.1; ja; rv:1.9.2.2) Gecko/20100316 Firefox/3.6.2',
	'loginId' : 'username@example.com',
	'loginPass' : 'password',
	'dataDir' : 'C:\\Users\\testuser\\Desktop\\data',
	'rebuiltDir' : 'C:\\Users\\testuser\\Desktop\\nk_rebuilt',
	'outputSizeLevel1' : (500, 674),
	'outputSizeLevel2' : (1000, 1348),
	'outputSizeLevel3' : (1500, 2022),
	'classDef' : [(3000, 16)]
}

上記が設定部分です。
loginId, loginPassをそれぞれ指定、dataDirには取得した画像の元データ保存先を指定、rebuiltDirには1枚に結合した画像の出力先ディレクトリを指定して下さい。他はデフォルトのままでOKのはずです。