python怎么识别验证码_python验证码识别

1. python如何识别验证码

我们首先识别最简单的一种验证码，即图形验证码。这种验证码最早出现，现在也很常见，一般由4位字母或者数字组成。例如，中国知网的注册页面有类似的验证码，页面如下所示：

表单中最后一项就是图形验证码，我们必须完全正确输入图中的字符才可以完成注册。

更多有关验证码的知识，可以参考这些文章：

Python3爬虫进阶：识别图形验证码

Python3爬虫进阶：识别极验滑动验证码

Python3爬虫进阶：识别点触点选验证码

Python3爬虫进阶：识别微博宫格验证码

·本节目标以知网的验证码为例，讲解利用OCR技术识别图形验证码的方法。

·准备工作识别图形验证码需要库tesserocr，以mac安装为例：在mac下，我们首先使用Homebrew安装ImageMagick和tesseract库： brew install imagemagickbrew install tesseract 接下来再安装tesserocr即可：pip3 install tesserocr pillow这样我们就完成了 tesserocr的安装。

·获取验证码为了便于实验，我们先将验证码的图片保存到本地。打开开发者工具，找到验证码元素。验证码元素是一张图片，它的ser属性是CheckCode.aspk。所以我们直接打开如下链接就可以看到一个验证码，右键保存即可，将其命名为code.jpg：

这样我们就得到一张验证码图片，以供测试识别使用。

相关推荐：《Python教程》

识别测试

接下来新建一个项目，将验证码图片放到项目根目录下，用tesserocr库识别该验证码，代码如下所示：

这里我们新建了一个Image对戏那个，调用了tesserocr的image_to_text( )方法。传入该Image对象即可完成识别，实现过程非常简单，结果如下：

我们可以看到，识别的结果和实际结果有偏差，这是因为验证码内的多余线条干扰了图片的识别。

另外，tesserocr还有一个更加简单的方法，这个方法可以直接将图片文件转为字符串，代码如下：

不过这种方法的识别效果不如上一种的好。

验证码处理

对于上面的图片，我们可以看到其实并没有完全识别正确，所以我们需要对图像作进一步的处理，如灰度转换、二值化等操作。

我们可以利用Image对象的convert( )方法参数传入L，即可将图片转化为灰度图像，代码如下：

传入1即可将图片进行二值化处理，如下所示：

我们还可以指定二值化的阈值。上面的方法采用的是默认阈值127。不过我们不能直接转化原图，要将原图先转化为灰度图像，然后再指定二值化阈值，代码如下：

在这里，变量threshold代表二值化阈值，阈值设置为160，之后我们来看看我们的结果：

我们可以看到现在的二维码就比较方便我们进行识别了；那么对于一些有干扰的图片，我们做一些灰度和二值化处理，这会提高图片识别的正确率。

2. 如何用Python巧妙识别web验证码

3. python验证码识别

orc文字识别，现在比较流行的是通过人工智能训练CNN神经网络来识别。

大体流程

准备训练数据。训练数据可以自己写个程序生成验证码，和标准答案。
构建CNN模型。这个比较简单，使用keras框架，5分钟的事情。
训练。不停地把数据feed给程序，直到准确率达到你的期望，推荐使用GPU加速
预测。加载模型，把验证码图片feed给模型，得出结果

希望对你有帮助。

4. 如何用Python+人工识别处理知乎的倒立汉字验证码

这给Python爬虫的模拟登录带来了一定的难度，目前网络上的相关资料针对的都是普通的“英文+数字”验证码，针对“倒立汉字”验证码的文章较少。而且大家普遍采用的是requests库。经过几天的研究，我采用urllib.request实现了模拟登陆知乎，现将代码分享如下：

[python] view plain
# 登录知乎，通过保存验证图片方式
import urllib.request
import urllib.parse
import time
import http.cookiejar

webUrl = "l"#不能写因为不支持重定向

webheader = {
# 'Accept': 'text/html, application/xhtml+xml, */*',
# 'Accept-Language': 'zh-CN',
# 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko',
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Mobile Safari/537.36',
# 'User-Agent': 'Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5',
# 'DNT': '1',
# 'Connection': 'Keep-Alive'
}

postData = {
'email': '在这里写你的账号',
'captcha_type': 'cn',
'password': '在这里写你的密码',
'_xsrf': '',
'captcha': ''
}
localStorePath = "写你想保存的验证码图片的地址"

if __name__ == '__main__':
#声明一个CookieJar对象实例来保存cookie
cookie = http.cookiejar.CookieJar()
#创建opener
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)#建立opener对象，并添加头信息
urllib.request.install_opener(opener)

captcha_url = '?r=%d&type=login&lang=cn' % (time.time() * 1000)
# captcha_url = '/captcha.gif?r=%d&type=login' % (time.time() * 1000)#这样获得的是“字母+数字验证码”

#这个获取验证码图片的方法是不行的！
# urllib.request.urlretrieve(captcha_url, localStorePath + 'myCaptcha.gif')

#用urlopen函数保存验证图片
req = urllib.request.Request(url=captcha_url,headers=webheader)
content = urllib.request.urlopen(req)
# content = opener.open(req)
captcha_name = 'D:/Python学习/crawler_learning/知乎登录专题研究/知乎验证码图片/myNewCaptcha.gif'
content = content.read()
with open(captcha_name, 'wb') as f:
f.write(content)

postData['captcha'] = input('请输入验证码')
# postData['_xsrf'] = get_xsrf()
postData['_xsrf'] = ''
print(postData['_xsrf'])

#用urlopen函数传送数据给服务器实现登录
postData_encoded = urllib.parse.urlencode(postData).encode('utf-8')
req = urllib.request.Request(url=webUrl,data=postData_encoded,headers=webheader)
webPage = urllib.request.urlopen(req)
# webPage = opener.open(req)
data = webPage.read().decode('utf-8')

print(data)
with open("D:/知乎服务器反馈的内容.txt",mode='w',encoding='utf-8') as dataFile:
dataFile.write(data)

几点思考：
1、首先需要明确如何获得验证码图片的地址，利用Fiddler抓包获得的典型的验证码图片的地址如下：

这个“r”代表的是什么含义呢？经过查看知乎上的js代码可以确定，这个r指的是毫秒级的时间戳。
2、以验证码图片地址cn为例，不同时间访问同一个验证码图片地址，得到的验证码图片是不同的，那么知乎服务器是如何知道你获取的是那张验证码呢？
我认为是通过sessionID，换句话说，知乎把某个验证码图片给了你，同时知乎记录下了你的sessionID和这个验证码的“正确答案”，这样将来你输入验证码给知乎后，知乎就能判断你输入的验证码是否正确了。
由于sessionID保存在cookie之中，所以Python模拟登陆的代码必须使用cookie。
3、获取验证码图片的时候，我用的是content =urllib.request.urlopen (req)函数，经过我的验证，用
urllib.request.urlretrieve函数是不行的，因为urlopen函数可以传递headers参数，而这一个参数必须有。

4、获得了倒立汉字图片以后，如何确定要传递给知乎的captcha是什么呢？经过Fiddler抓包，
传递的参数类似于这样：
{"img_size":[200,44],"input_points":[[43.44,22.44],[115.72,22.44]]}
经过分析和试验确定：200指的是图片长度，44指的是图片高度，后面的input_points指的是打在倒立汉字上的点的坐标。由于每次出现7个汉字，这7个汉字的坐标是固定的，我全部进行捕获：
{"img_size":[200,44],"input_points":[[12.95,14.969999999999998],[36.1,16.009999999999998],[57.16,24.44],[84.52,19.17],[108.72,28.64],[132.95,24.44],[151.89,23.380000000000002]]}
然后，问题就简单了：将图片保存在本地之后，打开图片，确定哪几个汉字倒立，比如说第2个和第6个，那就在上面选取出2和6的坐标输入即可，即
{"img_size":[200,44],"input_points":[[36.1,16.009999999999998],[132.95,24.44]]}。
5、小窍门：以验证码图片地址

5. 如何python爬虫识别验证码

在用爬虫爬取网站数据时，有些站点的一些关键数据的获取需要使用账号登录，这里可以使用requests发送登录请求，并用Session对象来自动处理相关Cookie。
另外在登录时，有些网站有时会要求输入验证码，比较简单的验证码可以直接用pytesser来识别，复杂的验证码可以依据相应的特征自己采集数据训练分类器。
以CSDN网站的登录为例，这里用Python的requests库与pytesser库写了一个登录函数。如果需要输入验证码，函数会首先下载验证码到本地，然后用pytesser识别验证码后登录，对于CSDN登录验证码，pytesser的识别率很高。

6. 用python如何直接获取jsp生成的验证码图片

你只需要正常请求图片就行了，分析一下image的src，把它拼接成一个完整的URL去请求就好了，得到的有可能是BASE64编码串，或者是文件，把它保存下来就可以了。

7. 如何使用python识别验证码

第一种，将验证码保存本地，然后手动输入。
第二种，外包给验证码识别公司
第三种，学习算法识别

8. Python有什么好的库可以识别验证码

要安装pytesseract库，必须先安装其依赖的PIL及tesseract-ocr，其中PIL为图像处理库，而后面的tesseract-ocr则为google的ocr识别引擎。

pytesseract安装
直接使用pip install pytesseract安装即可，或者使用easy_install pytesseract

Python验证码识别代码:

import pytesseract
from PIL import Image
image = Image.open('vcode.png')
vcode = pytesseract.image_to_string(image)
print (vcode)

9. python怎样调用第三方平台识别验证码

一、pytesseract介绍

1、pytesseract说明

pytesseract最新版本0.1.6，网址：h

Python-tesseract is a wrapper for google's Tesseract-OCR
( ht-ocr/ ). It is also useful as a
stand-alone invocation script to tesseract, as it can read all image types
supported by the Python Imaging Library, including jpeg, png, gif, bmp, tiff,
and others, whereas tesseract-ocr by default only supports tiff and bmp.
Additionally, if used as a script, Python-tesseract will print the recognized
text in stead of writing it to a file. Support for confidence estimates and
bounding box data is planned for future releases.

翻译一下大意：

a、Python-tesseract是一个基于google's Tesseract-OCR的独立封装包；

b、Python-tesseract功能是识别图片文件中文字，并作为返回参数返回识别结果；

c、Python-tesseract默认支持tiff、bmp格式图片，只有在安装PIL之后，才能支持jpeg、gif、png等其他图片格式；

2、pytesseract安装

INSTALLATION:

Prerequisites:
* Python-tesseract requires python 2.5 or later or python 3.
* You will need the Python Imaging Library (PIL). Under Debian/Ubuntu, this is
the package "python-imaging" or "python3-imaging" for python3.
* Install google tesseract-ocr from hsseract-ocr/ .
You must be able to invoke the tesseract command as "tesseract". If this
isn't the case, for example because tesseract isn't in your PATH, you will
have to change the "tesseract_cmd" variable at the top of 'tesseract.py'.
Under Debian/Ubuntu you can use the package "tesseract-ocr".

Installing via pip:
See the [pytesseract package page](hi/pytesseract)
```
$> sudo pip install pytesseract

翻译一下：

a、Python-tesseract支持python2.5及更高版本；

b、Python-tesseract需要安装PIL（Python Imaging Library），来支持更多的图片格式；

c、Python-tesseract需要安装tesseract-ocr安装包，具体参看上一篇博文。

综上，Pytesseract原理：

1、上一篇博文中提到，执行命令行 tesseract.exe 1.png output -l eng ，可以识别1.png中文字，并把识别结果输出到output.txt中；

2、Pytesseract对上述过程进行了二次封装，自动调用tesseract.exe，并读取output.txt文件的内容，作为函数的返回值进行返回。

二、pytesseract使用

USAGE:
```
> try:
> import Image
> except ImportError:
> from PIL import Image
> import pytesseract
> print(pytesseract.image_to_string(Image.open('test.png')))
> print(pytesseract.image_to_string(Image.open('test-european.jpg'),))

可以看到：

1、核心代码就是image_to_string函数，该函数还支持-l eng 参数，支持-psm 参数。

用法：
image_to_string(Image.open('test.png'),lang="eng" config="-psm 7")

2、pytesseract里调用了image，所以才需要PIL，其实tesseract.exe本身是支持jpeg、png等图片格式的。

实例代码，识别某公共网站的验证码(大家千万别干坏事啊，思虑再三，最后还是隐掉网站域名，大家去找别的网站试试吧……)：

View Code

10. python抓取网页时是如何处理验证码的

python抓取网页时是如何处理验证码的？下面给大家介绍几种方法：

1、输入式验证码

这种验证码主要是通过用户输入图片中的字母、数字、汉字等进行验证。如下图：

解决思路：这种是最简单的一种，只要识别出里面的内容，然后填入到输入框中即可。这种识别技术叫OCR，这里我们推荐使用Python的第三方库，tesserocr。对于没有什么背影影响的验证码如图2，直接通过这个库来识别就可以。但是对于有嘈杂的背景的验证码这种，直接识别识别率会很低，遇到这种我们就得需要先处理一下图片，先对图片进行灰度化，然后再进行二值化，再去识别，这样识别率会大大提高。

导航:首页 > 编程语言 > python怎么识别验证码

python怎么识别验证码

与python怎么识别验证码相关的资料