python下的图片文本识别

2016-05-17 blog

python下最简单的图片-文本识别方法。
前段时间研究自动登陆广告系统的时候,涉及到简单的验证码识别,整理了下最基础的识别方法。

#pytesseract 是基于Tesseract OCR项目的python包,使用前必须先安装tesseract。
import pytesseract

from PIL import Image
from selenium import webdriver

driver=webdriver.Chrome()
driver.get('http://xxx.com')
driver.get_screenshot_as_file('ss.png')#将登录页面保存为图片


box=(702,335,792,377) #定位验证码在页面中的位置
img=Image.open('ss.png') #打开保存的图片
res=img.crop(box) #截图:将验证码截取出来
res.save('a.png') #输出验证码图片

code=pytesseract.image_to_string(res)#识别验证码中的文字
code=code.lower()#小写
print code
Comments
Write a Comment