❶ python爬蟲,遇到403 forbidden,求助
之前做過很多爬蟲處理,其實你要懂,不是每個網站都那麼好爬蟲的。
對方:例如豆瓣為了防止訪問量過大,伺服器壓力的承受,所以就啪啪啪整個403給你(伺服器理解客戶的請求,但拒絕處理它)。
他給你返回403,就是告訴你一種狀態,根據他告訴你的態度,你作為男朋友的是不是應該改改自己的脾氣。例如,對方發現你沒有加header,對方發現你Cookies不對,或者是發現你的訪問速度過快,所以就直接block你了。
很多這樣衍生的問題,作為一個聰明的Crawler,你應該知道怎麼爬對方的東西,才讓對方伺服器把你判斷為人,而不是爬蟲程序。
總之一句,根據反饋的錯誤信息,去思考應該怎麼處理問題。這里沒有給出詳細的答案,但是你可以嘗試著去理解豆瓣的block機制。
❷ urllib2.HTTPError: HTTP Error 403: Forbidden 請高手指點,python菜鳥一枚
importurllib2,cookielib
site="http://www.nseindia.com/live_market/dynaContent/live_watch/get_quote/getHistoricalData.jsp?symbol=JPASSOCIAT&fromDate=1-JAN-2012&toDate=1-AUG-2012&datePeriod=unselected&hiddDwnld=true"
hdr={'User-Agent':'Mozilla/5.0(X11;Linuxx86_64)AppleWebKit/537.11(KHTML,likeGecko)Chrome/23.0.1271.64Safari/537.11',
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
'Accept-Encoding':'none',
'Accept-Language':'en-US,en;q=0.8',
'Connection':'keep-alive'}
req=urllib2.Request(site,headers=hdr)
try:
page=urllib2.urlopen(req)
excepturllib2.HTTPError,e:
printe.fp.read()
content=page.read()
printcontent
❸ python urllib2進行網頁源代碼扒取時,出現urllib2.HTTPError: HTTP Error 250: Forbidden問題
HTTP請求的Headers包含瀏覽器的信息、所使用的語言、請求的主機、COOKIE等信息。
其中最重要的兩項是瀏覽器的信息User-Agent,如果請求中沒有User-Agent,網站會認為不是人在瀏覽器的請求,是惡意攻擊
對於需要登錄的網站,請求中往往需要COOKIE來驗證用戶,來獲取打開某些網站的許可權。
使用firefox瀏覽器的開發者工具箱>網路選項,可以很容易獲取User-Agent等頭信息
headers={"User-Agent":"Mozilla/5.0Firefox/35.0",
"Cookie":"BDUSS=AAAAAAAAAAAAAAAAAAAAAAAA",}
request=urllib2.Request(url,postData,headers=headers)
response=urllib2.urlopen(request)
❹ 關於python自帶伺服器,
你可能應該訪問「localhost:81/cgi-bin/index.py」。因為「localhost:81/cgi-bin/」是一個目錄,不是一個python script。
❺ python編寫一個函數aviods 接受一個單詞以及一個包括禁止字母的字元串當單詞不含任何禁止字母時返回True
def avoids(target, forbidden):
for char in forbidden:
if (char in target):
return False
return True
❻ python爬蟲怎麼處理豆瓣網頁異常請求
1.URLError
首先解釋下URLError可能產生的原因:
網路無連接,即本機無法上網
連接不到特定的伺服器
伺服器不存在
在代碼中,我們需要用try-except語句來包圍並捕獲相應的異常。下面是一個例子,先感受下它的風騷
Python
1
2
3
4
5
6
7
import urllib2
requset = urllib2.Request('http://www.xxxxx.com')
try:
urllib2.urlopen(requset)
except urllib2.URLError, e:
print e.reason
我們利用了 urlopen方法訪問了一個不存在的網址,運行結果如下:
Python
1
[Errno 11004] getaddrinfo failed
它說明了錯誤代號是11004,錯誤原因是 getaddrinfo failed
2.HTTPError
HTTPError是URLError的子類,在你利用urlopen方法發出一個請求時,伺服器上都會對應一個應答對象response,其中它包含一個數字」狀態碼」。舉個例子,假如response是一個」重定向」,需定位到別的地址獲取文檔,urllib2將對此進行處理。
其他不能處理的,urlopen會產生一個HTTPError,對應相應的狀態嗎,HTTP狀態碼表示HTTP協議所返回的響應的狀態。下面將狀態碼歸結如下:
100:繼續 客戶端應當繼續發送請求。客戶端應當繼續發送請求的剩餘部分,或者如果請求已經完成,忽略這個響應。
101: 轉換協議 在發送完這個響應最後的空行後,伺服器將會切換到在Upgrade 消息頭中定義的那些協議。只有在切換新的協議更有好處的時候才應該採取類似措施。
102:繼續處理 由WebDAV(RFC 2518)擴展的狀態碼,代表處理將被繼續執行。
200:請求成功 處理方式:獲得響應的內容,進行處理
201:請求完成,結果是創建了新資源。新創建資源的URI可在響應的實體中得到 處理方式:爬蟲中不會遇到
202:請求被接受,但處理尚未完成 處理方式:阻塞等待
204:伺服器端已經實現了請求,但是沒有返回新的信 息。如果客戶是用戶代理,則無須為此更新自身的文檔視圖。 處理方式:丟棄
300:該狀態碼不被HTTP/1.0的應用程序直接使用, 只是作為3XX類型回應的默認解釋。存在多個可用的被請求資源。 處理方式:若程序中能夠處理,則進行進一步處理,如果程序中不能處理,則丟棄
301:請求到的資源都會分配一個永久的URL,這樣就可以在將來通過該URL來訪問此資源 處理方式:重定向到分配的URL
302:請求到的資源在一個不同的URL處臨時保存 處理方式:重定向到臨時的URL
304:請求的資源未更新 處理方式:丟棄
400:非法請求 處理方式:丟棄
401:未授權 處理方式:丟棄
403:禁止 處理方式:丟棄
404:沒有找到 處理方式:丟棄
500:伺服器內部錯誤 伺服器遇到了一個未曾預料的狀況,導致了它無法完成對請求的處理。一般來說,這個問題都會在伺服器端的源代碼出現錯誤時出現。
501:伺服器無法識別 伺服器不支持當前請求所需要的某個功能。當伺服器無法識別請求的方法,並且無法支持其對任何資源的請求。
502:錯誤網關 作為網關或者代理工作的伺服器嘗試執行請求時,從上游伺服器接收到無效的響應。
503:服務出錯 由於臨時的伺服器維護或者過載,伺服器當前無法處理請求。這個狀況是臨時的,並且將在一段時間以後恢復。
HTTPError實例產生後會有一個code屬性,這就是是伺服器發送的相關錯誤號。
因為urllib2可以為你處理重定向,也就是3開頭的代號可以被處理,並且100-299范圍的號碼指示成功,所以你只能看到400-599的錯誤號碼。
下面我們寫一個例子來感受一下,捕獲的異常是HTTPError,它會帶有一個code屬性,就是錯誤代號,另外我們又列印了reason屬性,這是它的父類URLError的屬性。
Python
1
2
3
4
5
6
7
8
import urllib2
req = urllib2.Request('httt/cqcre')
try:
urllib2.urlopen(req)
except urllib2.HTTPError, e:
print e.code
print e.reason
運行結果如下
Python
1
2
403
Forbidden
錯誤代號是403,錯誤原因是Forbidden,說明伺服器禁止訪問。
我們知道,HTTPError的父類是URLError,根據編程經驗,父類的異常應當寫到子類異常的後面,如果子類捕獲不到,那麼可以捕獲父類的異常,所以上述的代碼可以這么改寫
Python
1
2
3
4
5
6
7
8
9
10
11
import urllib2
req = urllib2.Request('hcqcre')
try:
urllib2.urlopen(req)
except urllib2.HTTPError, e:
print e.code
except urllib2.URLError, e:
print e.reason
else:
print "OK"
如果捕獲到了HTTPError,則輸出code,不會再處理URLError異常。如果發生的不是HTTPError,則會去捕獲URLError異常,輸出錯誤原因。
另外還可以加入 hasattr屬性提前對屬性進行判斷,代碼改寫如下
Python
1
2
3
4
5
6
7
8
9
10
11
12
import urllib2
req = urllib2.Request('httcqcre')
try:
urllib2.urlopen(req)
except urllib2.URLError, e:
if hasattr(e,"code"):
print e.code
if hasattr(e,"reason"):
print e.reason
else:
print "OK"
首先對異常的屬性進行判斷,以免出現屬性輸出報錯的現象。
以上,就是對URLError和HTTPError的相關介紹,以及相應的錯誤處理辦法,小夥伴們加油!
❼ python 的代碼中一直出現undifined的name 怎麼回事
是通過 UA 來判定網路爬蟲並返回 403 Forbidden 的。而網路爬蟲的 UA 一般是這樣的:
Mozilla/5會 ping 到 209.9.130.8 節點
好了,細心的同學應該已經發現問題所在了,網路爬蟲大部分的請求被導到了 209.9.130.6 節點,但是這個節點上沒有頁面的緩存!!
❽ Python模擬登錄知乎,為什麼403 forbidden了
1. 找到正確的登錄鏈接,應該是:self.baseUrl + '/login/email'
2. 這個request.Request(self.baseUrl + '/#signin', postdata.encode('utf-8'))沒用過不清楚,所以不知道有沒有帶上前兩個請求的cookies。我是改成:
self.opener.open(self.baseUrl + '/login/email', postdata.encode('utf-8'))這樣訪問的。
通常登錄403問題都是:
1. 登錄api不對,
2. 前後訪問沒有帶cookies,導致token無效、驗證碼無效。
附上改後的,只會用requests的我,請勿噴啊~~~:
import cookielib,urllib2
import re,urllib,json
class ZhiHuSpider(object):
def __init__(self):
self.baseUrl = 'http://www.hu.com/'
self.captchaUrl = 'http://www.hu.com/captcha.gif?r='
self.cookies = cookielib.CookieJar()
self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookies))
# 獲取網頁xsrf值
def getXsrf(self):
html = None
html = self.opener.open(self.baseUrl).read().decode('utf-8')
xsrf_match = re.search(r'name="_xsrf" value="(.*?)"/>', html)
if xsrf_match:
return xsrf_match.group(1).strip()
# 將驗證碼保存在本地
def getCaptchaCode(self):
data = self.opener.open(self.captchaUrl).read()
fName = self.captchaUrl.split('/')[3].split('?')[0]
f = open(fName, 'wb')
f.write(data)
f.close()
print(u'驗證碼已保存在本地!請查看!')
# 模擬登錄知乎
def login(self):
form = { '_xsrf': self.getXsrf(),
'email': '[email protected]',
'password': 'password' }
self.getCaptchaCode()
code = input(u'請輸入驗證碼:')
form['captcha'] = code
postdata = urllib.urlencode(form)#parse.urlencode(form)
op = self.opener.open(self.baseUrl + '/login/email', postdata.encode('utf-8'))
#req = request.Request(self.baseUrl + '/#signin', postdata.encode('utf-8'))
a = op.read().decode()
a=json.loads(a)
print a,type(a)
print a['msg']
if __name__ == '__main__':
spider = ZhiHuSpider()
spider.login()