파이테서렉트로 이미지 텍스트 가져오기

파이썬을 이용해 이미지 텍스트 가져오기

먼저 Tesseract-ocr 버전을 다운 받는다. 사이트 접속 후 첫 화면에서 다운로드.

윈도우 사용자라면 버전에 맞춰서 다운로드.전 64비트라서 저는 64비트로 다운받았음.

설치할 때 스크린샷을 깜빡했는데 옵션에서 언어를 같이 다운 받아야 합니다.

체크 박스 아래쪽에 있음!

에디터를 열고 파이 테서렉트를 설치

pip install pytesseract

설치 후 언어팩이 설치되었는지 확인합니다.

import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'E:/Tesseract-OCR/tesseract.exe';
print(pytesseract.get_languages(config=''))

저는 테서렉트를 E드라이브에 설치해서 아래 경로를 E로 잡아줬습니다. 설치시 경로를 복사해두세요.

이처럼 나오면 성공

만약에 이렇게 나오지 않고 환경변수 관련 에러가 난다면

파이썬에서 환경변수를 잡아줍니다.

import os
os.environ['TESSDATA_PREFIX']='E:\Tesseract-OCR'

설치 경로를 잡아준 후 환경변수 에러가 사라졌는지 확인.

파이썬이 있는 폴더 내부에 한글이 있는 이미지를 넣고 출력 테스트

먼저 이미지를 불러오기 위에

from PIL import Image

전 콘다로 기본 설치가 되어 있지만 아니신 분들은

pip install pillow

후 임포트

일단 이미지를 대충 다운 받고 저는 포털사이트 화면 중 스크린샷 후 저장

(사진은 티스토리 올릴 때 모자이크 처리 한거)

import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r'E:/Tesseract-OCR/tesseract.exe';
img_path = r"./asd.jpg"

text = pytesseract.image_to_string(Image.open(img_path), lang="kor")
print(text)

결과 :

출력 생각보다 한글 인식률이 좋음. 사용시 한글과 다른 언어가 같이 있는 문서라면

같이 적절히 섞어서 쓰면됨 ( kor+eng )

저작자표시 (새창열림)

'web' 카테고리의 다른 글

애드센스 신청 후 광고 게제가 준비되지 않은 사이트 ( 사이트가 다운되었거나 사용할 수 없음 ) (2)	2022.09.17
포털 사이트 빈 검색어 검색 결과 (0)	2022.09.13
알아두면 좋은 php 코드 검사, 테스트, 코드 정리 사이트 (0)	2022.08.24
워드프레스 퍼러링크 수정 후 404 not Found , Nginx (0)	2022.08.22
우분투 nginx php-fpm 설치 후 502 에러 (0)	2022.08.15

파이테서렉트로 이미지 텍스트 가져오기

'web' 카테고리의 다른 글

댓글

티스토리툴바

파이테서렉트로 이미지 텍스트 가져오기

'web' 카테고리의 다른 글

관련글

댓글

티스토리툴바