tabula-pyがpdf上の表をテキスト抽出できる優秀ツールであることは下記で述べたとおり。 kojikoji75.hatenablog.com kojikoji75.hatenablog.com (adsbygoogle = window.adsbygoogle || []).push({}); だが、値を抽出するといってもOCR処理ができるというわけではなく、あくまでpdf上の「テキストとして認識できるデータ」が対象。pdfの裏側についてはここでは深追いしない。試しに紙をスキャンして生成したpdfをtabulaに読み込ませ、printしてみる。 pdffile1="d:\複数テーブル_s…