Python(Pycharm) 테서텍트(Tesseract)
2023. 8. 1. 14:51ㆍ파이썬/OCR
# 1. OCR(Optical Character Recognition)
* 광학문자인식
* 이미지나 문서에서 텍스트를 자동으로 인식하고 컴퓨터가 이해할 수 있는 텍스트 데이터로 변환하는 프로세스
# 2. 테서렉트(Tesseract)
* 오픈소스 OCR 라이브러리로 구글에서 개발하고 현재는 여러 커뮤니티에 의해 유지보수함.
* 링크: https://github.com/UB-Mannheim/tesseract/wiki
Home
Tesseract Open Source OCR Engine (main repository) - UB-Mannheim/tesseract
github.com
✔ 설치 방법 및 설정
* 1. tesserarct-ocr-w64-setup-5.3.1.20230401.exe 다운로드
* 2. (설치중) Choose Components에서 Additional scirpt data(download)에서 Hangul script와 Hangul vertical script를 설치
* 3. Additional Language data(download)에서 korean을 체크
* 4. 설치경로 확인 C:\Program Files\Tesseract-OCR
* 5. 환경설정 6. path설정 7. window 탐색기 -> 시스템 환경 변수 설정 -> 환경변수 클릭 -> Path 선택 -> 편집 -> 새로만들기 -> C:\Program Files\Tesseract-OCR 입력
사용해보기
파일 읽어보기
Tool: 파이참(Pycharm)
import cv2
import pytesseract
img = cv2.imread('./hello.png')
dst = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
text = pytesseract.image_to_string(dst, lang='kor+eng')
print(text)
실행해보기(ctrl+shift+f10)
728x90