data:image/s3,"s3://crabby-images/a1181/a1181b1ad52e7557d67ddba77498327157e6be57" alt=""
Pythonで
画像ファイル内のテキストを・・・
data:image/s3,"s3://crabby-images/d8f90/d8f9050723dfb6ab57449d79dc1faf6ca16549f6" alt="画像ファイル内のテキスト"
data:image/s3,"s3://crabby-images/a1181/a1181b1ad52e7557d67ddba77498327157e6be57" alt=""
抽出できます!
※OCRできます。
※精度はそこそこです。
data:image/s3,"s3://crabby-images/a16c3/a16c37e9e967a8afeecb69d7b44fbd7281d9e3a2" alt="抽出されたテキスト"
data:image/s3,"s3://crabby-images/a1181/a1181b1ad52e7557d67ddba77498327157e6be57" alt=""
バッチファイルから
・無料のOCRエンジン「tesseract-ocr」
を実行することで実現します!
※「tesseract-ocr」のインストールが必要です。
tesseract-ocrのダウンロードとインストール
以下の記事の「tesseract-ocrのダウンロード」と「tesseract-ocrのインストール」をご確認ください。
Pythonライブラリのインストール
サードパーティのPythonライブラリである以下2つをインストールします。
・pytesseract
・Pillow
pip install pytesseract Pillow
コード
ここでは例として
・デスクトップ配下の画像ファイル「sample_gazou.png」から
・テキストを抽出
します。
※テキストファイルを出力します。
data:image/s3,"s3://crabby-images/d8f90/d8f9050723dfb6ab57449d79dc1faf6ca16549f6" alt="画像ファイル「sample_gazou.png」内のテキスト"
from PIL import Image
import pytesseract
# Tesseract OCRの実行ファイル
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
# 画像ファイル
image_path = r"C:\Users\lunch\Desktop\sample_gazou.png"
# 出力ファイル
output_file = r"C:\Users\lunch\Desktop\output.txt"
# 画像を開く
image = Image.open(image_path)
# 画像から文字を抽出
text = pytesseract.image_to_string(image, lang="jpn")
# 結果をファイル出力
with open(output_file, "w", encoding="shift_jis") as file:
file.write(text)
実行結果
画像ファイル内のテキストを抽出できました。
※テキストファイルを出力できました。
data:image/s3,"s3://crabby-images/e65e7/e65e7745023876e597611c2c6a3f37327830d259" alt="実行結果①"
data:image/s3,"s3://crabby-images/81f01/81f0106bc7f44850051b492dd99c430f6a2f6bea" alt="実行結果②"
data:image/s3,"s3://crabby-images/a16c3/a16c37e9e967a8afeecb69d7b44fbd7281d9e3a2" alt="実行結果③"
参考
上記で使用した以下の詳細は、公式サイトをご確認ください。
●サードパーティのPythonライブラリ「PIL(Pillow)」の「Image」モジュール
●サードパーティのPythonライブラリ「pytesseract」