Ⅰ python 爬蟲 怎麼處理 ajax
ajax一定會有javascript,你只要分析這些javascript,弄明白它們做了什麼動作,就可以用python模擬出來。
Ⅱ python爬蟲遇到的問題
這個是http頭文件,發送request請求,通過它定義一些相關的規范參數。
Accept-Charset:瀏覽器可接受的字元集。
Accept-Encoding:瀏覽器能夠進行解碼的數據編碼方式,比如gzip。Servlet能夠向支持gzip的瀏覽器返回經gzip編碼的HTML頁面。許多情形下這可以減少5到10倍的下載時間。
Accept-Language:瀏覽器所希望的語言種類,當伺服器能夠提供一種以上的語言版本時要用到。
Authorization:授權信息,通常出現在對伺服器發送的WWW-Authenticate頭的應答中。
Connection: 表示是否需要持久連接。如果Servlet看到這里的值為「Keep-Alive」,或者看到請求使用的是HTTP 1.1(HTTP 1.1默認進行持久連接),它就可以利用持久連接的優點,當頁麵包含多個元素時(例如Applet,圖片),顯著地減少下載所需要的時間。要實現這一 點,Servlet需要在應答中發送一個Content-Length頭,最簡單的實現方法是:先把內容寫入 ByteArrayOutputStream,然後在正式寫出內容之前計算它的大小。
Content-Length:表示請求消息正文的長度。
Cookie:這是最重要的請求頭信息之一,參見後面《Cookie處理》一章中的討論。
From:請求發送者的email地址,由一些特殊的Web客戶程序使用,瀏覽器不會用到它。
Host:初始URL中的主機和埠。
If-Modified-Since:只有當所請求的內容在指定的日期之後又經過修改才返回它,否則返回304「Not Modified」應答。
Pragma:指定「no-cache」值表示伺服器必須返回一個刷新後的文檔,即使它是代理伺服器而且已經有了頁面的本地拷貝。
Referer:包含一個URL,用戶從該URL代表的頁面出發訪問當前請求的頁面。
User-Agent:瀏覽器類型,如果Servlet返回的內容與瀏覽器類型有關則該值非常有用。
UA-Pixels,UA-Color,UA-OS,UA-CPU:由某些版本的IE瀏覽器所發送的非標準的請求頭,表示屏幕大小、顏色深度、操作系統和CPU類型。
Ⅲ python爬蟲怎麼抓取ajax返回的json
網頁提交的數據吧? 網頁或者外界提交過來的數據都是字元串格式的。需要用json.loads()轉成json格式 你試試: import jsonprint json.loads(request.body)
Ⅳ python 爬蟲問題 幫忙看一下 需要怎麼解決 謝謝 >>>
一隻python Ctrl+C Ctrl+V狗路過……,python的交互功能是很人性化的,如果看不懂英文可以用度娘翻譯(命令通常是引號''或者``或者`'括起來的,不用翻譯,打開cmd,復制它,粘貼到cmd,回車,然後python一通操作,大概一兩分鍾,問題就自己解決了)
對這個問題 你只要打開cmd,輸入
python setup.py build_ext --inplace --force
然後回車,等一兩分鍾就行了(當然得它的console版進度條跑完才行)
如果不行,可以改在IDLE里使用以下命令
import sys,os;os.system(sys.exec_prefix+'python setup.py build_ext --inplace --force ');
Ⅳ 如果我用python爬蟲爬本站內容,會遇到哪些問題
爬哪個站呀,網路嗎,那你會遇到數據量特別大的問題
其實應當沒什麼吧,網路的網頁還是挺標準的,直接抓取,然後處理就行了
Ⅵ 一個簡單的python爬蟲出現問題,求解
<img src=""/>這種img標簽解析錯誤了,正則式需要改進
Ⅶ python爬蟲頁面遇到的問題
import urllib2
proxy_support = urllib2.ProxyHandler({'http':'http://XX.XX.XX.XX:XXXX'})
opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)
urllib2.install_opener(opener)
content = urllib2.urlopen('http://XXXX').read()