본문 바로가기
web

파이테서렉트로 이미지 텍스트 가져오기

by 애나 냥냥 2022. 8. 25.
반응형

파이썬을 이용해 이미지 텍스트 가져오기

먼저 Tesseract-ocr 버전을 다운 받는다. 사이트 접속 후 첫 화면에서 다운로드.

윈도우 사용자라면 버전에 맞춰서 다운로드.전 64비트라서 저는 64비트로 다운받았음.

설치할 때 스크린샷을 깜빡했는데 옵션에서 언어를 같이 다운 받아야 합니다.

체크 박스 아래쪽에 있음!

 

에디터를 열고 파이 테서렉트를 설치

 

pip install pytesseract

 

설치 후 언어팩이 설치되었는지 확인합니다.

 

import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'E:/Tesseract-OCR/tesseract.exe';
print(pytesseract.get_languages(config=''))

저는 테서렉트를 E드라이브에 설치해서 아래 경로를 E로 잡아줬습니다. 설치시 경로를 복사해두세요.

이처럼 나오면 성공

만약에 이렇게 나오지 않고 환경변수 관련 에러가 난다면

파이썬에서 환경변수를 잡아줍니다.

import os
os.environ['TESSDATA_PREFIX']='E:\Tesseract-OCR'

설치 경로를 잡아준 후 환경변수 에러가 사라졌는지 확인.

 

파이썬이 있는 폴더 내부에 한글이 있는 이미지를 넣고 출력 테스트

먼저 이미지를 불러오기 위에

 

from PIL import Image

전 콘다로 기본 설치가 되어 있지만 아니신 분들은

pip install pillow

후 임포트

 

일단 이미지를 대충 다운 받고 저는 포털사이트 화면 중 스크린샷 후 저장

 

(사진은 티스토리 올릴 때 모자이크 처리 한거)

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r'E:/Tesseract-OCR/tesseract.exe';
img_path = r"./asd.jpg"

text = pytesseract.image_to_string(Image.open(img_path), lang="kor")
print(text)

 

결과 : 

출력 생각보다 한글 인식률이 좋음. 사용시 한글과 다른 언어가 같이 있는 문서라면

같이 적절히 섞어서 쓰면됨 ( kor+eng ) 

 

반응형

댓글