python怎麼識別驗證碼_python驗證碼識別

1. python如何識別驗證碼

我們首先識別最簡單的一種驗證碼，即圖形驗證碼。這種驗證碼最早出現，現在也很常見，一般由4位字母或者數字組成。例如，中國知網的注冊頁面有類似的驗證碼，頁面如下所示：

表單中最後一項就是圖形驗證碼，我們必須完全正確輸入圖中的字元才可以完成注冊。

更多有關驗證碼的知識，可以參考這些文章：

Python3爬蟲進階：識別圖形驗證碼

Python3爬蟲進階：識別極驗滑動驗證碼

Python3爬蟲進階：識別點觸點選驗證碼

Python3爬蟲進階：識別微博宮格驗證碼

·本節目標以知網的驗證碼為例，講解利用OCR技術識別圖形驗證碼的方法。

·准備工作識別圖形驗證碼需要庫tesserocr，以mac安裝為例：在mac下，我們首先使用Homebrew安裝ImageMagick和tesseract庫： brew install imagemagickbrew install tesseract 接下來再安裝tesserocr即可：pip3 install tesserocr pillow這樣我們就完成了 tesserocr的安裝。

·獲取驗證碼為了便於實驗，我們先將驗證碼的圖片保存到本地。打開開發者工具，找到驗證碼元素。驗證碼元素是一張圖片，它的ser屬性是CheckCode.aspk。所以我們直接打開如下鏈接就可以看到一個驗證碼，右鍵保存即可，將其命名為code.jpg：

這樣我們就得到一張驗證碼圖片，以供測試識別使用。

相關推薦：《Python教程》

識別測試

接下來新建一個項目，將驗證碼圖片放到項目根目錄下，用tesserocr庫識別該驗證碼，代碼如下所示：

這里我們新建了一個Image對戲那個，調用了tesserocr的image_to_text( )方法。傳入該Image對象即可完成識別，實現過程非常簡單，結果如下：

我們可以看到，識別的結果和實際結果有偏差，這是因為驗證碼內的多餘線條干擾了圖片的識別。

另外，tesserocr還有一個更加簡單的方法，這個方法可以直接將圖片文件轉為字元串，代碼如下：

不過這種方法的識別效果不如上一種的好。

驗證碼處理

對於上面的圖片，我們可以看到其實並沒有完全識別正確，所以我們需要對圖像作進一步的處理，如灰度轉換、二值化等操作。

我們可以利用Image對象的convert( )方法參數傳入L，即可將圖片轉化為灰度圖像，代碼如下：

傳入1即可將圖片進行二值化處理，如下所示：

我們還可以指定二值化的閾值。上面的方法採用的是默認閾值127。不過我們不能直接轉化原圖，要將原圖先轉化為灰度圖像，然後再指定二值化閾值，代碼如下：

在這里，變數threshold代表二值化閾值，閾值設置為160，之後我們來看看我們的結果：

我們可以看到現在的二維碼就比較方便我們進行識別了；那麼對於一些有干擾的圖片，我們做一些灰度和二值化處理，這會提高圖片識別的正確率。

2. 如何用Python巧妙識別web驗證碼

3. python驗證碼識別

orc文字識別，現在比較流行的是通過人工智慧訓練CNN神經網路來識別。

大體流程

准備訓練數據。訓練數據可以自己寫個程序生成驗證碼，和標准答案。
構建CNN模型。這個比較簡單，使用keras框架，5分鍾的事情。
訓練。不停地把數據feed給程序，直到准確率達到你的期望，推薦使用GPU加速
預測。載入模型，把驗證碼圖片feed給模型，得出結果

希望對你有幫助。

4. 如何用Python+人工識別處理知乎的倒立漢字驗證碼

這給Python爬蟲的模擬登錄帶來了一定的難度，目前網路上的相關資料針對的都是普通的「英文+數字」驗證碼，針對「倒立漢字」驗證碼的文章較少。而且大家普遍採用的是requests庫。經過幾天的研究，我採用urllib.request實現了模擬登陸知乎，現將代碼分享如下：

[python] view plain
# 登錄知乎，通過保存驗證圖片方式
import urllib.request
import urllib.parse
import time
import http.cookiejar

webUrl = "l"#不能寫因為不支持重定向

webheader = {
# 'Accept': 'text/html, application/xhtml+xml, */*',
# 'Accept-Language': 'zh-CN',
# 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko',
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Mobile Safari/537.36',
# 'User-Agent': 'Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5',
# 'DNT': '1',
# 'Connection': 'Keep-Alive'
}

postData = {
'email': '在這里寫你的賬號',
'captcha_type': 'cn',
'password': '在這里寫你的密碼',
'_xsrf': '',
'captcha': ''
}
localStorePath = "寫你想保存的驗證碼圖片的地址"

if __name__ == '__main__':
#聲明一個CookieJar對象實例來保存cookie
cookie = http.cookiejar.CookieJar()
#創建opener
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)#建立opener對象，並添加頭信息
urllib.request.install_opener(opener)

captcha_url = '?r=%d&type=login&lang=cn' % (time.time() * 1000)
# captcha_url = '/captcha.gif?r=%d&type=login' % (time.time() * 1000)#這樣獲得的是「字母+數字驗證碼」

#這個獲取驗證碼圖片的方法是不行的！
# urllib.request.urlretrieve(captcha_url, localStorePath + 'myCaptcha.gif')

#用urlopen函數保存驗證圖片
req = urllib.request.Request(url=captcha_url,headers=webheader)
content = urllib.request.urlopen(req)
# content = opener.open(req)
captcha_name = 'D:/Python學習/crawler_learning/知乎登錄專題研究/知乎驗證碼圖片/myNewCaptcha.gif'
content = content.read()
with open(captcha_name, 'wb') as f:
f.write(content)

postData['captcha'] = input('請輸入驗證碼')
# postData['_xsrf'] = get_xsrf()
postData['_xsrf'] = ''
print(postData['_xsrf'])

#用urlopen函數傳送數據給伺服器實現登錄
postData_encoded = urllib.parse.urlencode(postData).encode('utf-8')
req = urllib.request.Request(url=webUrl,data=postData_encoded,headers=webheader)
webPage = urllib.request.urlopen(req)
# webPage = opener.open(req)
data = webPage.read().decode('utf-8')

print(data)
with open("D:/知乎伺服器反饋的內容.txt",mode='w',encoding='utf-8') as dataFile:
dataFile.write(data)

幾點思考：
1、首先需要明確如何獲得驗證碼圖片的地址，利用Fiddler抓包獲得的典型的驗證碼圖片的地址如下：

這個「r」代表的是什麼含義呢？經過查看知乎上的js代碼可以確定，這個r指的是毫秒級的時間戳。
2、以驗證碼圖片地址cn為例，不同時間訪問同一個驗證碼圖片地址，得到的驗證碼圖片是不同的，那麼知乎伺服器是如何知道你獲取的是那張驗證碼呢？
我認為是通過sessionID，換句話說，知乎把某個驗證碼圖片給了你，同時知乎記錄下了你的sessionID和這個驗證碼的「正確答案」，這樣將來你輸入驗證碼給知乎後，知乎就能判斷你輸入的驗證碼是否正確了。
由於sessionID保存在cookie之中，所以Python模擬登陸的代碼必須使用cookie。
3、獲取驗證碼圖片的時候，我用的是content =urllib.request.urlopen (req)函數，經過我的驗證，用
urllib.request.urlretrieve函數是不行的，因為urlopen函數可以傳遞headers參數，而這一個參數必須有。

4、獲得了倒立漢字圖片以後，如何確定要傳遞給知乎的captcha是什麼呢？經過Fiddler抓包，
傳遞的參數類似於這樣：
{"img_size":[200,44],"input_points":[[43.44,22.44],[115.72,22.44]]}
經過分析和試驗確定：200指的是圖片長度，44指的是圖片高度，後面的input_points指的是打在倒立漢字上的點的坐標。由於每次出現7個漢字，這7個漢字的坐標是固定的，我全部進行捕獲：
{"img_size":[200,44],"input_points":[[12.95,14.969999999999998],[36.1,16.009999999999998],[57.16,24.44],[84.52,19.17],[108.72,28.64],[132.95,24.44],[151.89,23.380000000000002]]}
然後，問題就簡單了：將圖片保存在本地之後，打開圖片，確定哪幾個漢字倒立，比如說第2個和第6個，那就在上面選取出2和6的坐標輸入即可，即
{"img_size":[200,44],"input_points":[[36.1,16.009999999999998],[132.95,24.44]]}。
5、小竅門：以驗證碼圖片地址

5. 如何python爬蟲識別驗證碼

在用爬蟲爬取網站數據時，有些站點的一些關鍵數據的獲取需要使用賬號登錄，這里可以使用requests發送登錄請求，並用Session對象來自動處理相關Cookie。
另外在登錄時，有些網站有時會要求輸入驗證碼，比較簡單的驗證碼可以直接用pytesser來識別，復雜的驗證碼可以依據相應的特徵自己採集數據訓練分類器。
以CSDN網站的登錄為例，這里用Python的requests庫與pytesser庫寫了一個登錄函數。如果需要輸入驗證碼，函數會首先下載驗證碼到本地，然後用pytesser識別驗證碼後登錄，對於CSDN登錄驗證碼，pytesser的識別率很高。

6. 用python如何直接獲取jsp生成的驗證碼圖片

你只需要正常請求圖片就行了，分析一下image的src，把它拼接成一個完整的URL去請求就好了，得到的有可能是BASE64編碼串，或者是文件，把它保存下來就可以了。

7. 如何使用python識別驗證碼

第一種，將驗證碼保存本地，然後手動輸入。
第二種，外包給驗證碼識別公司
第三種，學習演算法識別

8. Python有什麼好的庫可以識別驗證碼

要安裝pytesseract庫，必須先安裝其依賴的PIL及tesseract-ocr，其中PIL為圖像處理庫，而後面的tesseract-ocr則為google的ocr識別引擎。

pytesseract安裝
直接使用pip install pytesseract安裝即可，或者使用easy_install pytesseract

Python驗證碼識別代碼:

import pytesseract
from PIL import Image
image = Image.open('vcode.png')
vcode = pytesseract.image_to_string(image)
print (vcode)

9. python怎樣調用第三方平台識別驗證碼

一、pytesseract介紹

1、pytesseract說明

pytesseract最新版本0.1.6，網址：h

Python-tesseract is a wrapper for google's Tesseract-OCR
( ht-ocr/ ). It is also useful as a
stand-alone invocation script to tesseract, as it can read all image types
supported by the Python Imaging Library, including jpeg, png, gif, bmp, tiff,
and others, whereas tesseract-ocr by default only supports tiff and bmp.
Additionally, if used as a script, Python-tesseract will print the recognized
text in stead of writing it to a file. Support for confidence estimates and
bounding box data is planned for future releases.

翻譯一下大意：

a、Python-tesseract是一個基於google's Tesseract-OCR的獨立封裝包；

b、Python-tesseract功能是識別圖片文件中文字，並作為返回參數返回識別結果；

c、Python-tesseract默認支持tiff、bmp格式圖片，只有在安裝PIL之後，才能支持jpeg、gif、png等其他圖片格式；

2、pytesseract安裝

INSTALLATION:

Prerequisites:
* Python-tesseract requires python 2.5 or later or python 3.
* You will need the Python Imaging Library (PIL). Under Debian/Ubuntu, this is
the package "python-imaging" or "python3-imaging" for python3.
* Install google tesseract-ocr from hsseract-ocr/ .
You must be able to invoke the tesseract command as "tesseract". If this
isn't the case, for example because tesseract isn't in your PATH, you will
have to change the "tesseract_cmd" variable at the top of 'tesseract.py'.
Under Debian/Ubuntu you can use the package "tesseract-ocr".

Installing via pip:
See the [pytesseract package page](hi/pytesseract)
```
$> sudo pip install pytesseract

翻譯一下：

a、Python-tesseract支持python2.5及更高版本；

b、Python-tesseract需要安裝PIL（Python Imaging Library），來支持更多的圖片格式；

c、Python-tesseract需要安裝tesseract-ocr安裝包，具體參看上一篇博文。

綜上，Pytesseract原理：

1、上一篇博文中提到，執行命令行 tesseract.exe 1.png output -l eng ，可以識別1.png中文字，並把識別結果輸出到output.txt中；

2、Pytesseract對上述過程進行了二次封裝，自動調用tesseract.exe，並讀取output.txt文件的內容，作為函數的返回值進行返回。

二、pytesseract使用

USAGE:
```
> try:
> import Image
> except ImportError:
> from PIL import Image
> import pytesseract
> print(pytesseract.image_to_string(Image.open('test.png')))
> print(pytesseract.image_to_string(Image.open('test-european.jpg'),))

可以看到：

1、核心代碼就是image_to_string函數，該函數還支持-l eng 參數，支持-psm 參數。

用法：
image_to_string(Image.open('test.png'),lang="eng" config="-psm 7")

2、pytesseract里調用了image，所以才需要PIL，其實tesseract.exe本身是支持jpeg、png等圖片格式的。

實例代碼，識別某公共網站的驗證碼(大家千萬別干壞事啊，思慮再三，最後還是隱掉網站域名，大家去找別的網站試試吧……)：

View Code

10. python抓取網頁時是如何處理驗證碼的

python抓取網頁時是如何處理驗證碼的？下面給大家介紹幾種方法：

1、輸入式驗證碼

這種驗證碼主要是通過用戶輸入圖片中的字母、數字、漢字等進行驗證。如下圖：

解決思路：這種是最簡單的一種，只要識別出裡面的內容，然後填入到輸入框中即可。這種識別技術叫OCR，這里我們推薦使用Python的第三方庫，tesserocr。對於沒有什麼背影影響的驗證碼如圖2，直接通過這個庫來識別就可以。但是對於有嘈雜的背景的驗證碼這種，直接識別識別率會很低，遇到這種我們就得需要先處理一下圖片，先對圖片進行灰度化，然後再進行二值化，再去識別，這樣識別率會大大提高。

導航:首頁 > 編程語言 > python怎麼識別驗證碼

python怎麼識別驗證碼

與python怎麼識別驗證碼相關的資料