tabula-pyがpdf上の表をテキスト抽出できる優秀ツールであることは下記で述べたとおり。 kojikoji75.hatenablog.com kojikoji75.hatenablog.com だが、値を抽出するといってもOCR処理ができるというわけではなく、あくまでpdf上の「テキストとして認識できるデータ」が対象。pdfの裏側についてはここでは深追いしない。試しに紙をスキャンして生成したpdfをtabulaに読み込ませ、printしてみる。 pdffile1="d:\複数テーブル_scan.pdf" dfs = tabula.read_pdf(pdffile1, lattice=Tr…