Python验证码识别：利用pytesser识别简单图形验证码

发布于 2016-03-30 00:36:07 | 688 次阅读 | 评论: 0 | 来源: 分享

Python编程语言

Python 是一种面向对象、解释型计算机程序设计语言，由Guido van Rossum于1989年底发明，第一个公开发行版发行于1991年。Python语法简洁而清晰，具有丰富和强大的类库。它常被昵称为胶水语言，它能够把用其他语言制作的各种模块（尤其是C/C++）很轻松地联结在一起。

3.2 图片切割

识别验证码的重点和难点就在于能否成功分割字符，对于颜色相同又完全粘连的字符，比如google的验证码，目前是没法做到5%以上的识别率的。不过google的验证码基本上人类也只有30%的识别率。本文使用的验证码例子比较容易识别。可以不用切割，有关图片切割的方法参见这篇博客：http://www.cnblogs.com/apexchu/p/4231041.html

四、利用pytesser模块实现识别

pytesser是谷歌OCR开源项目的一个模块，在python中导入这个模块即可将图片中的文字转换成文本。
链接：https://code.google.com/p/pytesser/
pytesser 调用了 tesseract。在python中调用pytesser模块，pytesser又用tesseract识别图片中的文字。

4.1 pytesser安装

1、如果没有安装PIL，请到这里下载安装：http://www.pythonware.com/products/pil/
2、安装pytesser，下载地址：http://code.google.com/p/pytesser/ ，下载后直接将其解压到项目代码下，或者解压到python安装目录的Libsite-packages下，并将其添加到path环境变量中，不然在导入模块时会出错。
3、下载Tesseract OCR engine：http://code.google.com/p/tesseract-ocr/ ，下载后解压，找到tessdata文件夹，用其替换掉pytesser解压后的tessdata文件夹即可。
4、另外如果现在都是从PIL库中运入Image，没有使用Image模块，所以需要把pytesser.py中的import Image改为from PIL import Image, 其次还需要在pytesser文件夹中新建一个__init__.py的空文件。
ps：如果觉得后面两步比较麻烦，可以直接到云盘中下载 http://yun.baidu.com/s/1jHJvNiI ，操作如步骤2。

4.2 调用pytesser识别

pytesser提供了两种识别图片方法，通过image对象和图片地址，代码判断如下：


from PIL import Image
from pytesser import pytesser
image = Image.open('7039.jpg')
print pytesser.image_file_to_string('7039.jpg')
print pytesser.image_to_string(image)

同时pytesser还支持其他语言的识别，比如中文。具体参见：http://www.tuicool.com/articles/amQJR3

最新网友评论 共有(0)条评论发布评论返回顶部

Python验证码识别：利用pytesser识别简单图形验证码

Python编程语言

后端技术

前端技术

数据库

热门框架

常用IDE

其他