python網頁嗅探_如何用python抓取網頁特定內容

❶ 如何用python抓取網頁特定內容

Python用做數據處理還是相當不錯的，如果你想要做爬蟲，Python是很好的選擇，它有很多已經寫好的類包，只要調用，即可完成很多復雜的功能，此文中所有的功能都是基於BeautifulSoup這個包。
1 Pyhton獲取網頁的內容(也就是源代碼)
page = urllib2.urlopen(url)
contents = page.read()
#獲得了整個網頁的內容也就是源代碼 print(contents)
url代表網址，contents代表網址所對應的源代碼，urllib2是需要用到的包，以上三句代碼就能獲得網頁的整個源代碼
2 獲取網頁中想要的內容(先要獲得網頁源代碼，再分析網頁源代碼，找所對應的標簽，然後提取出標簽中的內容)

❷ python的scapy模塊，嗅探時輸出的[TCP].payload亂碼如何解決

scapy 模塊安裝

今天因為要用到scapy 模塊就進行安裝：
windows:
pip install scapy
成功安裝。
mac:

pip install scapy1

竟然提示許可權問題，於是

sudo pip install scapy1

還是報錯permission denied
於是上網查詢，發現原來是mac 系統的sip 機制導致。
參考：參考鏈接

sudo pip install scapy --user -U1

安裝成功。

scapy 模塊使用
安裝完成，進行使用。

>>python >>import scapy12

沒有問題，我以為安裝成功，於是開始寫代碼。
參考代碼鏈接：
結果發現在導入模塊的時候後出錯：

from scapy.all import *1

如果遇到模塊不存在的錯誤，只需要 pip install XX 安裝對應的模塊即可。
mac就遇到此類錯誤：

importError: No mole named pcapy1

那就安裝pcapy模塊,遇到同樣的許可權問題，使用：

pip install pcapy --user -U1

安裝完之後還出現錯誤：

ImportError: No mole nam

❸ 如何用python寫爬蟲來獲取網頁中所有的文章以及關鍵詞

所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，保存到本地。
類似於使用程序模擬IE瀏覽器的功能，把URL作為HTTP請求的內容發送到伺服器端，然後讀取伺服器端的響應資源。

在Python中，我們使用urllib2這個組件來抓取網頁。
urllib2是Python的一個獲取URLs(Uniform Resource Locators)的組件。

它以urlopen函數的形式提供了一個非常簡單的介面。

最簡單的urllib2的應用代碼只需要四行。

我們新建一個文件urllib2_test01.py來感受一下urllib2的作用：

import urllib2
response = urllib2.urlopen('http://www..com/')
html = response.read()
print html

按下F5可以看到運行的結果：

我們可以打開網路主頁，右擊，選擇查看源代碼（火狐OR谷歌瀏覽器均可），會發現也是完全一樣的內容。

也就是說，上面這四行代碼將我們訪問網路時瀏覽器收到的代碼們全部列印了出來。

這就是一個最簡單的urllib2的例子。

除了"http:"，URL同樣可以使用"ftp:"，"file:"等等來替代。

HTTP是基於請求和應答機制的：

客戶端提出請求，服務端提供應答。

urllib2用一個Request對象來映射你提出的HTTP請求。

在它最簡單的使用形式中你將用你要請求的地址創建一個Request對象，

通過調用urlopen並傳入Request對象，將返回一個相關請求response對象，

這個應答對象如同一個文件對象，所以你可以在Response中調用.read()。

我們新建一個文件urllib2_test02.py來感受一下：

import urllib2
req = urllib2.Request('http://www..com')
response = urllib2.urlopen(req)
the_page = response.read()
print the_page

可以看到輸出的內容和test01是一樣的。

urllib2使用相同的介面處理所有的URL頭。例如你可以像下面那樣創建一個ftp請求。

req = urllib2.Request('ftp://example.com/')

在HTTP請求時，允許你做額外的兩件事。

1.發送data表單數據

這個內容相信做過Web端的都不會陌生，

有時候你希望發送一些數據到URL(通常URL與CGI[通用網關介面]腳本，或其他WEB應用程序掛接)。

在HTTP中,這個經常使用熟知的POST請求發送。

這個通常在你提交一個HTML表單時由你的瀏覽器來做。

並不是所有的POSTs都來源於表單，你能夠使用POST提交任意的數據到你自己的程序。

一般的HTML表單，data需要編碼成標准形式。然後做為data參數傳到Request對象。

編碼工作使用urllib的函數而非urllib2。

我們新建一個文件urllib2_test03.py來感受一下：

import urllib
import urllib2
url = 'http://www.someserver.com/register.cgi'
values = {'name' : 'WHY',
'location' : 'SDU',
'language' : 'Python' }
data = urllib.urlencode(values) # 編碼工作
req = urllib2.Request(url, data) # 發送請求同時傳data表單
response = urllib2.urlopen(req) #接受反饋的信息
the_page = response.read() #讀取反饋的內容

如果沒有傳送data參數，urllib2使用GET方式的請求。

GET和POST請求的不同之處是POST請求通常有"副作用"，

它們會由於某種途徑改變系統狀態(例如提交成堆垃圾到你的門口)。

Data同樣可以通過在Get請求的URL本身上面編碼來傳送。

import urllib2
import urllib
data = {}
data['name'] = 'WHY'
data['location'] = 'SDU'
data['language'] = 'Python'
url_values = urllib.urlencode(data)
print url_values
name=Somebody+Here&language=Python&location=Northampton
url = 'http://www.example.com/example.cgi'
full_url = url + '?' + url_values
data = urllib2.open(full_url)

這樣就實現了Data數據的Get傳送。

2.設置Headers到http請求

有一些站點不喜歡被程序（非人為訪問）訪問，或者發送不同版本的內容到不同的瀏覽器。

默認的urllib2把自己作為「Python-urllib/x.y」(x和y是Python主版本和次版本號,例如Python-urllib/2.7)，

這個身份可能會讓站點迷惑，或者乾脆不工作。

瀏覽器確認自己身份是通過User-Agent頭，當你創建了一個請求對象，你可以給他一個包含頭數據的字典。

下面的例子發送跟上面一樣的內容，但把自身模擬成Internet Explorer。

（多謝大家的提醒，現在這個Demo已經不可用了，不過原理還是那樣的）。

import urllib
import urllib2
url = 'http://www.someserver.com/cgi-bin/register.cgi'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
values = {'name' : 'WHY',
'location' : 'SDU',
'language' : 'Python' }
headers = { 'User-Agent' : user_agent }
data = urllib.urlencode(values)
req = urllib2.Request(url, data, headers)
response = urllib2.urlopen(req)
the_page = response.read()

以上就是python利用urllib2通過指定的URL抓取網頁內容的全部內容，非常簡單吧，希望對大家能有所幫助。

❹ 【Python爬蟲】分析網頁真實請求

1、抓取網頁、分析請求
2、解析網頁、尋找數據
3、儲存數據、多頁處理

翻頁有規律：
很多網址在第一頁時並沒有變化，多翻下一頁後規律就出來，比如豆瓣第一頁和豆瓣第三頁

發現start為40，limit=20，所以猜測start=0就是第一頁，每頁顯示20條數據，對於第三頁顯示的參數可以一個個刪除驗證，可以減去不必要的參數， 但是刪除前一定要做好數據的對比

（1） 文本框輸入後產生一個請求，如常見的登錄、注冊頁面
Referer：表示當前請求的來源
Request URL：表示實際請求地址

翻頁後URL不變，該如何尋找請求？
如： http://www.zkh360.com/zkh_catalog/3.html

通過對比可以發現網站是通過pageIndex參數控制翻頁的，？表示連接

接下來用抓包工具分析下，從第四頁開始看URL就知道了，但是前面幾面需要查看請求的參數，這里偏多，就切換到【Inspectors--Webforms】選項，看的比較直觀

類似的網站還有今日頭條，有興趣的朋友可以去研究下
（可通過獲取max_behot_time的值而改變as和cp）

❺ 如何利用Python嗅探數據包

一提到Python獲取數據包的方式，相信很多Python愛好者會利用Linux的libpcap軟體包或利用Windows下的WinPcap可移植版的方式進行抓取數據包，然後再利用dpkt軟體包進行協議分析，我們這里想換一個角度去思考：1.Python版本的pcap存儲內存數據過小，也就是說緩存不夠，在高並發下容易發生丟包現象，其實C版本的也同樣存在這樣的問題，只不過Python版本的緩存實在是過低，讓人很郁悶。2.dpkt協議分析並非必須，如果你對RFC791和RFC793等協議熟悉的話，完全可以使用struct.unpack的方式進行分析。如果你平常習慣使用tcpmp抓取數據包的話，完全可以使用它來代替pcap軟體包，只不過我們需要利用tcpmp將抓取的數據以pcap格式進行保存，說道這里大家一定會想到Wireshark工具，具體命令如下：tcpmpdst10.13.202.116andtcpdstport80-s0-ieth1-w../pcap/tcpmp.pcap-C1k-W5我們首先需要對pcap文件格式有所了解，具體信息大家可以參考其他資料文檔，我這里只說其重要的結構體組成，如下：sturctpcap_file_header{DWORDmagic;WORDversion_major;WORDversion_minor;DWORDthiszone;DWORDsigfigs;DWORDsnaplen;DWORDlinktype;}structpcap_pkthdr{structtimevalts;DWORDcaplen;DWORDlen;}structtimeval{DWORDGMTtime;DWORDmicroTime;}這里需要說明的一點是，因為在Python的世界裡一切都是對象，所以往往Python在處理數據包的時候感覺讓人比較麻煩。Python提供了幾個libpcapbind,這里有一個最簡單的。在windows平台上,你需要先安裝winpcap,如果你已經安裝了Ethereal非常好用。一個規范的抓包過程:importpcapimportdpktpc=pcap.pcap()#注，參數可為網卡名，如eth0pc.setfilter('tcpport80')#設置監聽過濾器forptime,pdatainpc:#ptime為收到時間，pdata為收到數據printptime,pdata#對抓到的乙太網V2數據包(rawpacket)進行解包:p=dpkt.ethernet.Ethernet(pdata)ifp.data.__class__.__name__=='IP':ip='%d.%d.%d.%d'%tuple(map(ord,list(p.data.dst)))ifp.data.data.__class__.__name__=='TCP':ifdata.dport==80:printp.data.data.data一些顯示參數nrecv,ndrop,nifdrop=pc.stats()返回的元組中，第一個參數為接收到的數據包，第二個參數為被核心丟棄的數據包。至於對於如何監控tcpmp生成的pcap文件數據，大家可以通過pyinotify軟體包來實現，如下：classPacker(pyinotify.ProcessEvent):def__init__(self,proct):self.proct=proctself.process=Nonedefprocess_IN_CREATE(self,event):logger.debug("createfile:%sinqueue"%self.process_IF_START_THREAD(event))defprocess_IN_MODIFY(self,event):self.process_IF_START_THREAD(event)logger.debug("modifyfile:%sinqueue"%self.process_IF_START_THREAD(event))defprocess_IN_DELETE(self,event):filename=os.path.join(event.path,event.name)logger.debug("deletefile:%s"%filename)defprocess_IF_START_THREAD(self,event):filename=os.path.join(event.path,event.name)iffilename!=self.process:self.process=filenameself.proct.put(filename)ifself.proct.qsize()>1:try:logger.debug("createconsumerproct.qsize:%s"%self.proct.qsize())consumer=Consumer(self.proct)consumer.start()exceptException,errmsg:logger.error("createconsumerfailed:%s"%errmsg)returnfilenameclassFactory(object):def__init__(self,proct):self.proct=proctself.manager=pyinotify.WatchManager()self.mask=pyinotify.IN_CREATE|pyinotify.IN_DELETE|pyinotify.IN_MODIFYdefwork(self):try:try:notifier=pyinotify.ThreadedNotifier(self.manager,Packer(self.proct))notifier.start()self.manager.add_watch("../pcap",self.mask,rec=True)notifier.join()exceptException,errmsg:logger.error("createnotifierfailed:%s"%errmsg)exceptKeyboardInterrupt,errmsg:logger.error("factoryhasbeenterminated:%s"%errmsg)在獲得要分析的pcap文件數據之後，就要對其分析了，只要你足夠了解pcap文件格式就可以了，對於我們來講只需要獲得TCP數據段的數據即可，如下：classWriter(threading.Thread):def__init__(self,proct,stack):threading.Thread.__init__(self)self.proct=proctself.stack=stackself.pcap_pkthdr={}defrun(self):whileTrue:filename=self.proct.get()try:f=open(filename,"rb")readlines=f.read()f.close()offset=24whilelen(readlines)>offset:self.pcap_pkthdr["len"]=readlines[offset+12:offset+16]try:length=struct.unpack("I",self.pcap_pkthdr["len"])[0]self.stack.put(readlines[offset+16:offset+16+length])offset+=length+16exceptException,errmsg:logger.error("unpackpcap_pkthdrfailed:%s"%errmsg)exceptIOError,errmsg:logger.error("openfilefailed:%s"%errmsg)在獲得TCP數據段的數據包之後，問題就簡單多了，根據大家的具體需求就可以進行相應的分析了，我這里是想分析其HTTP協議數據，同樣也藉助了dpkt軟體包進行分析，如下：defworker(memcache,packet,local_address,remote_address):try:p=dpkt.ethernet.Ethernet(packet)ifp.data.__class__.__name__=="IP":srcip="%d.%d.%d.%d"%tuple(map(ord,list(p.data.src)))dstip="%d.%d.%d.%d"%tuple(map(ord,list(p.data.dst)))ifp.data.data.__class__.__name__=="TCP":tcpacket=p.data.dataiftcpacket.dport==80anddstip==local_address:srcport=tcpacket.sportkey=srcip+":"+str(srcport)iftcpacket.data:ifnotmemcache.has_key(key):memcache[key]={}ifnotmemcache[key].has_key("response"):memcache[key]["response"]=Noneifmemcache[key].has_key("data"):memcache[key]["data"]+=tcpacket.dataelse:memcache[key]["data"]=tcpacket.dataelse:ifmemcache.has_key(key):memcache[key]["response"]=dpkt.http.Request(memcache[key]["data"])try:stackless.tasklet(connection)(memcache[key]["response"],local_address,remote_address)stackless.run()exceptException,errmsg:logger.error("connectremoteremote_addressfailed:%s",errmsg)logger.debug("oldheaders(nonecontent-length):%s",memcache[key]["response"])memcache.pop(key)exceptException,errmsg:logger.error("dpkt.ethernet.Ethernetfailedinworker:%s",errmsg)如果大家只是想單純的獲取IP地址、埠、流量信息，那麼問題就更簡單了，這里只是拋磚引玉。另外再提供一段代碼供參考:importpcap,dpkt,structimportbinasciidefmain():a=pcap.pcap()a.setfilter('udpportrange4000-4050')try:fori,pdataina:p=dpkt.ethernet.Ethernet(pdata)src='%d.%d.%d.%d'%tuple(map(ord,list(p.data.src)))dst='%d.%d.%d.%d'%tuple(map(ord,list(p.data.dst)))sport=p.data.data.sportdport=p.data.data.dport =int(binascii.hexlify(p.data.data.data[7:11]),16)print' :%d,From:%s:%d,To:%s:%d'%( ,src,sport,dst,dport)exceptException,e:print'%s'%en=raw_input()if__name__=='__main__':main()

❻ 怎樣用python抓取百度網頁

抓取網頁，模陵就是通過程序去獲取網頁內容，你可以看看伍差python的urllib和urllib2模塊，這兩個是腔碼皮python自帶的，可以幫你把網頁抓下來，後面的解析你看看bs4，它能幫你從網頁中解析出你要的內容。

❼ 如何用Python爬蟲抓取網頁內容

首先,你要安裝requests和BeautifulSoup4,然後執行如下代碼.

importrequests
frombs4importBeautifulSoup

iurl='http://news.sina.com.cn/c/nd/2017-08-03/doc-ifyitapp0128744.shtml'

res=requests.get(iurl)

res.encoding='utf-8'

#print(len(res.text))

soup=BeautifulSoup(res.text,'html.parser')

#標題
H1=soup.select('#artibodyTitle')[0].text

#來源
time_source=soup.select('.time-source')[0].text


#來源
origin=soup.select('#artibodyp')[0].text.strip()

#原標題
oriTitle=soup.select('#artibodyp')[1].text.strip()

#內容
raw_content=soup.select('#artibodyp')[2:19]
content=[]
forparagraphinraw_content:
content.append(paragraph.text.strip())
'@'.join(content)
#責任編輯
ae=soup.select('.article-editor')[0].text

這樣就可以了

導航:首頁 > 編程語言 > python網頁嗅探

python網頁嗅探

與python網頁嗅探相關的資料