pyocr

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

fanta_orange_grapeの（日記というより）記事のつもり•3年前

pdfからテキストを剥ぐ場合の文字化けは、闘っても無駄なときもあります。その場合は、今時、OCRでしょう。

pdfからテキストを剥ぐ場合の文字化けは、闘っても無駄なときもあります。その場合は、今時、OCRでしょう。一瞬＋α（二瞬）で、ocrが使えます。コメント pdfからテキストを剥ぐ場合の文字化けは、闘っても無駄なときもあります。その場合は、今時、OCRでしょう。 pdfからテキストを剥ぐ場合の文字化けフォントとか、文字コードとか、そもそも、pdfにどうデータが格納されているかいろいろあって、テキストに素直にならない場合は、沢山あります。一瞬＋α（二瞬）で、ocrが使えます。ワタシは、windows10です。 from PIL import Image import pyocr i…

#pyocr

ネットで話題

6ブックマーク Pythonでpdfを画像として認識しテキストを抽出を試してみる(pyocr) | DevelopersIO

dev.classmethod.jp

5ブックマーク【python】OCR(tesseract-ocr / pyocr)で賞味期限を読み取る(画像→数列) 【お家IT#19】 - MotoJapan's Tech-Memo

motojapan.hateblo.jp

5ブックマーク World / OpenPaperwork / pyocr · GitLab A Python wrapper for Tesseract and Cuneiform - https://openpaper.work/en/projects/

gitlab.gnome.org

関連ブログ

collatz’s blog•4年前

PythonのpyocrでPDFの特定の位置から文字列を読み取って、そのファイル名を変更する

前提 PDFファイルが「pdf」ディレクトリに保存されている。読み取る文字列は英数字である。読み取る文字列はPDFの1ページ目に書かれている。 import pdf2image import pyocr import pyocr.builders import glob import os import pprint for file in glob.glob('pdf/*'): # PDFを画像に変換する(ページごとの画像のリストが得られる) img_list = pdf2image.convert_from_path(file) # PDFの1ページ目の画像 img = img_lis…

#Python#pyocr#OCR#文字認識