導航:首頁 > 編程語言 > pythonforbidden

pythonforbidden

發布時間:2022-07-13 01:41:22

python爬蟲,遇到403 forbidden,求助

之前做過很多爬蟲處理,其實你要懂,不是每個網站都那麼好爬蟲的。
對方:例如豆瓣為了防止訪問量過大,伺服器壓力的承受,所以就啪啪啪整個403給你(伺服器理解客戶的請求,但拒絕處理它)。
他給你返回403,就是告訴你一種狀態,根據他告訴你的態度,你作為男朋友的是不是應該改改自己的脾氣。例如,對方發現你沒有加header,對方發現你Cookies不對,或者是發現你的訪問速度過快,所以就直接block你了。
很多這樣衍生的問題,作為一個聰明的Crawler,你應該知道怎麼爬對方的東西,才讓對方伺服器把你判斷為人,而不是爬蟲程序。
總之一句,根據反饋的錯誤信息,去思考應該怎麼處理問題。這里沒有給出詳細的答案,但是你可以嘗試著去理解豆瓣的block機制。

❷ urllib2.HTTPError: HTTP Error 403: Forbidden 請高手指點,python菜鳥一枚

importurllib2,cookielib

site="http://www.nseindia.com/live_market/dynaContent/live_watch/get_quote/getHistoricalData.jsp?symbol=JPASSOCIAT&fromDate=1-JAN-2012&toDate=1-AUG-2012&datePeriod=unselected&hiddDwnld=true"
hdr={'User-Agent':'Mozilla/5.0(X11;Linuxx86_64)AppleWebKit/537.11(KHTML,likeGecko)Chrome/23.0.1271.64Safari/537.11',
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
'Accept-Encoding':'none',
'Accept-Language':'en-US,en;q=0.8',
'Connection':'keep-alive'}

req=urllib2.Request(site,headers=hdr)

try:
page=urllib2.urlopen(req)
excepturllib2.HTTPError,e:
printe.fp.read()

content=page.read()
printcontent

❸ python urllib2進行網頁源代碼扒取時,出現urllib2.HTTPError: HTTP Error 250: Forbidden問題

HTTP請求的Headers包含瀏覽器的信息、所使用的語言、請求的主機、COOKIE等信息。

其中最重要的兩項是瀏覽器的信息User-Agent,如果請求中沒有User-Agent,網站會認為不是人在瀏覽器的請求,是惡意攻擊

對於需要登錄的網站,請求中往往需要COOKIE來驗證用戶,來獲取打開某些網站的許可權。

使用firefox瀏覽器的開發者工具箱>網路選項,可以很容易獲取User-Agent等頭信息

headers={"User-Agent":"Mozilla/5.0Firefox/35.0",
"Cookie":"BDUSS=AAAAAAAAAAAAAAAAAAAAAAAA",}
request=urllib2.Request(url,postData,headers=headers)
response=urllib2.urlopen(request)

❹ 關於python自帶伺服器,

你可能應該訪問「localhost:81/cgi-bin/index.py」。因為「localhost:81/cgi-bin/」是一個目錄,不是一個python script。

❺ python編寫一個函數aviods 接受一個單詞以及一個包括禁止字母的字元串當單詞不含任何禁止字母時返回True

def avoids(target, forbidden):
for char in forbidden:
if (char in target):
return False
return True

❻ python爬蟲怎麼處理豆瓣網頁異常請求

1.URLError

首先解釋下URLError可能產生的原因:

❼ python 的代碼中一直出現undifined的name 怎麼回事

是通過 UA 來判定網路爬蟲並返回 403 Forbidden 的。而網路爬蟲的 UA 一般是這樣的:
Mozilla/5會 ping 到 209.9.130.8 節點
好了,細心的同學應該已經發現問題所在了,網路爬蟲大部分的請求被導到了 209.9.130.6 節點,但是這個節點上沒有頁面的緩存!!

❽ Python模擬登錄知乎,為什麼403 forbidden了

1. 找到正確的登錄鏈接,應該是:self.baseUrl + '/login/email'
2. 這個request.Request(self.baseUrl + '/#signin', postdata.encode('utf-8'))沒用過不清楚,所以不知道有沒有帶上前兩個請求的cookies。我是改成:
self.opener.open(self.baseUrl + '/login/email', postdata.encode('utf-8'))這樣訪問的。

通常登錄403問題都是:
1. 登錄api不對,
2. 前後訪問沒有帶cookies,導致token無效、驗證碼無效。

附上改後的,只會用requests的我,請勿噴啊~~~:
import cookielib,urllib2
import re,urllib,json

class ZhiHuSpider(object):
def __init__(self):
self.baseUrl = 'http://www.hu.com/'
self.captchaUrl = 'http://www.hu.com/captcha.gif?r='
self.cookies = cookielib.CookieJar()
self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookies))
# 獲取網頁xsrf值
def getXsrf(self):
html = None
html = self.opener.open(self.baseUrl).read().decode('utf-8')
xsrf_match = re.search(r'name="_xsrf" value="(.*?)"/>', html)
if xsrf_match:
return xsrf_match.group(1).strip()

# 將驗證碼保存在本地
def getCaptchaCode(self):
data = self.opener.open(self.captchaUrl).read()
fName = self.captchaUrl.split('/')[3].split('?')[0]
f = open(fName, 'wb')
f.write(data)
f.close()
print(u'驗證碼已保存在本地!請查看!')

# 模擬登錄知乎
def login(self):
form = { '_xsrf': self.getXsrf(),
'email': '[email protected]',
'password': 'password' }
self.getCaptchaCode()
code = input(u'請輸入驗證碼:')
form['captcha'] = code
postdata = urllib.urlencode(form)#parse.urlencode(form)
op = self.opener.open(self.baseUrl + '/login/email', postdata.encode('utf-8'))
#req = request.Request(self.baseUrl + '/#signin', postdata.encode('utf-8'))
a = op.read().decode()
a=json.loads(a)
print a,type(a)
print a['msg']

if __name__ == '__main__':
spider = ZhiHuSpider()
spider.login()

閱讀全文

與pythonforbidden相關的資料

熱點內容
朱藝彬的所有電影 瀏覽:683
李麗珍與徐錦江的電影 瀏覽:254
程序員介紹自己的能力 瀏覽:248
extjs源碼下載 瀏覽:793
古典文學txt 瀏覽:699
三級美電影 瀏覽:621
天浩列印伺服器怎麼修改ip地址 瀏覽:469
二龍湖浩哥系列觀看順序 瀏覽:158
哪個播放器英語影視劇多 瀏覽:964
和小矮人有關的電影 瀏覽:501
歐洲啪啪最多的電影 瀏覽:11
加密兔可以玩嗎 瀏覽:332
反編譯後怎麼找到伺服器地址 瀏覽:977
保險app上哪裡買 瀏覽:809
關於緬北的電影有哪些 瀏覽:147
看片網站不下載 瀏覽:398
win埠重啟命令 瀏覽:621
哪部電影有分娩鏡頭 瀏覽:30
韓國R級朴銀狐 瀏覽:238
在沈陽做app推廣地址在哪裡好 瀏覽:209