Python(Pycharm) 테서텍트(Tesseract)

2023. 8. 1. 14:51파이썬/OCR

# 1. OCR(Optical Character Recognition)
* 광학문자인식
* 이미지나 문서에서 텍스트를 자동으로 인식하고 컴퓨터가 이해할 수 있는 텍스트 데이터로 변환하는 프로세스

# 2. 테서렉트(Tesseract)
* 오픈소스 OCR 라이브러리로 구글에서 개발하고 현재는 여러 커뮤니티에 의해 유지보수함.
* 링크: https://github.com/UB-Mannheim/tesseract/wiki

 

Home

Tesseract Open Source OCR Engine (main repository) - UB-Mannheim/tesseract

github.com

 

 

✔ 설치 방법 및 설정
* 1. tesserarct-ocr-w64-setup-5.3.1.20230401.exe 다운로드
* 2. (설치중) Choose Components에서 Additional scirpt data(download)에서 Hangul script와 Hangul vertical script를 설치
* 3. Additional Language data(download)에서 korean을 체크
* 4. 설치경로 확인 C:\Program Files\Tesseract-OCR
* 5. 환경설정 6. path설정 7. window 탐색기 -> 시스템 환경 변수 설정 -> 환경변수 클릭 -> Path 선택 -> 편집 -> 새로만들기 -> C:\Program Files\Tesseract-OCR 입력

 

 

 


사용해보기

 

파일 읽어보기

hello.png
0.01MB

 

Tool: 파이참(Pycharm)

 

import cv2
import pytesseract
img = cv2.imread('./hello.png')
dst = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
text = pytesseract.image_to_string(dst, lang='kor+eng')
print(text)

 

실행해보기(ctrl+shift+f10)

728x90