実現したいこと
JupyterLabにてpyocr + tesseractを使ったOCR
前提
参考にしたURL
https://hituji-ws.com/code/python/tesseract-ocr/
発生している問題・エラーメッセージ
Runを押しても特に何も表示されない状態です。
該当のソースコード
Python
1from PIL import Image 2import pyocr 3import pyocr.builders 4import cv2 5import numpy as np 6 7def render_doc_text(file_path):8 9 # ツール取得10 pyocr.tesseract.TESSERACT_CMD = 'C:/Users/自身の環境/AppData/Local/Programs/Tesseract-OCR/tesseract.exe'11 tools = pyocr.get_available_tools()12 tool = tools[0]13 14 # 画像取得15 img = cv2.imread(file_path, 0)16 # 必要に応じて画像処理 線を消す17 ret, img = cv2.threshold(img, 150, 255, cv2.THRESH_BINARY)18 # img = cv2.adaptiveThreshold(img, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 5)19 img = cv2.bitwise_not(img)20 label = cv2.connectedComponentsWithStats(img)21 data = np.delete(label[2], 0, 0)22 new_image = np.zeros((img.shape[0], img.shape[1]))+25523 for i in range(label[0]-1):24 if 0 < data[i][4] < 1000:25 new_image = np.where(label[1] == i+1, 0, new_image)26 27 # ret, img = cv2.threshold(img, 80, 255, cv2.THRESH_BINARY)28 cv2.imwrite('sample_edited.png', new_image)29 img = Image.fromarray(new_image)30 31 # OCR32 builder = pyocr.builders.TextBuilder()33 result = tool.image_to_string(img, lang="jpn", builder=builder)34 35 # 結果から空白文字削除36 data_list = [text for text in result.split('\n') if text.strip()]37 data_list 38 39 return data_list
試したこと
モジュール不足やpathの設定などエラーの度に都度対応して
エラーを吐かない段階まで到達したのですが、エラーを吐かないにも関わらず動作せず手詰まり状態です。
補足情報(FW/ツールのバージョンなど)
JupyterLab 4.0.8
0 コメント