반응형
파이썬을 이용해 이미지 텍스트 가져오기
먼저 Tesseract-ocr 버전을 다운 받는다. 사이트 접속 후 첫 화면에서 다운로드.
윈도우 사용자라면 버전에 맞춰서 다운로드.전 64비트라서 저는 64비트로 다운받았음.
설치할 때 스크린샷을 깜빡했는데 옵션에서 언어를 같이 다운 받아야 합니다.
체크 박스 아래쪽에 있음!
에디터를 열고 파이 테서렉트를 설치
pip install pytesseract
설치 후 언어팩이 설치되었는지 확인합니다.
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'E:/Tesseract-OCR/tesseract.exe';
print(pytesseract.get_languages(config=''))
저는 테서렉트를 E드라이브에 설치해서 아래 경로를 E로 잡아줬습니다. 설치시 경로를 복사해두세요.
이처럼 나오면 성공
만약에 이렇게 나오지 않고 환경변수 관련 에러가 난다면
파이썬에서 환경변수를 잡아줍니다.
import os
os.environ['TESSDATA_PREFIX']='E:\Tesseract-OCR'
설치 경로를 잡아준 후 환경변수 에러가 사라졌는지 확인.
파이썬이 있는 폴더 내부에 한글이 있는 이미지를 넣고 출력 테스트
먼저 이미지를 불러오기 위에
from PIL import Image
전 콘다로 기본 설치가 되어 있지만 아니신 분들은
pip install pillow
후 임포트
일단 이미지를 대충 다운 받고 저는 포털사이트 화면 중 스크린샷 후 저장
(사진은 티스토리 올릴 때 모자이크 처리 한거)
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r'E:/Tesseract-OCR/tesseract.exe';
img_path = r"./asd.jpg"
text = pytesseract.image_to_string(Image.open(img_path), lang="kor")
print(text)
결과 :
출력 생각보다 한글 인식률이 좋음. 사용시 한글과 다른 언어가 같이 있는 문서라면
같이 적절히 섞어서 쓰면됨 ( kor+eng )
반응형
'web' 카테고리의 다른 글
애드센스 신청 후 광고 게제가 준비되지 않은 사이트 ( 사이트가 다운되었거나 사용할 수 없음 ) (2) | 2022.09.17 |
---|---|
포털 사이트 빈 검색어 검색 결과 (0) | 2022.09.13 |
알아두면 좋은 php 코드 검사, 테스트, 코드 정리 사이트 (0) | 2022.08.24 |
워드프레스 퍼러링크 수정 후 404 not Found , Nginx (0) | 2022.08.22 |
우분투 nginx php-fpm 설치 후 502 에러 (0) | 2022.08.15 |
댓글