python抓包教程_python爬蟲什麼教程最好

1. 如何利用python2.7實現網頁的抓包攔包改包功能有沒有範例

登陸其實就是將賬號密碼之類的POST到那個網站的伺服器。你可以通過抓包看到你點擊登陸時發的POST包。那麼你用python也模擬發一個一樣的包給伺服器，就實現了模擬登陸唄。

2. Python爬蟲教程和Python學習路徑有哪些

現在之所以有這么多的小夥伴熱衷於爬蟲技術，無外乎是因為爬蟲可以幫我們做很多事情，比如搜索引擎、採集數據、廣告過濾等，以Python為例，Python爬蟲可以用於數據分析，在數據抓取方面發揮巨大的作用。
但是這並不意味著單純掌握一門Python語言，就對爬蟲技術觸類旁通，要學習的知識和規范還有喜很多，包括但不僅限於HTML 知識、HTTP/HTTPS 協議的基本知識、正則表達式、資料庫知識，常用抓包工具的使用、爬蟲框架的使用等。而且涉及到大規模爬蟲，還需要了解分布式的概念、消息隊列、常用的數據結構和演算法、緩存，甚至還包括機器學習的應用，大規模的系統背後都是靠很多技術來支撐的。
零基礎如何學爬蟲技術？對於迷茫的初學者來說，爬蟲技術起步學習階段，最重要的就是明確學習路徑，找准學習方法，唯有如此，在良好的學習習慣督促下，後期的系統學習才會事半功倍，游刃有餘。
用Python寫爬蟲，首先需要會Python，把基礎語法搞懂，知道怎麼使用函數、類和常用的數據結構如list、dict中的常用方法就算基本入門。作為入門爬蟲來說，需要了解 HTTP協議的基本原理，雖然 HTTP 規范用一本書都寫不完，但深入的內容可以放以後慢慢去看，理論與實踐相結合後期學習才會越來越輕松。關於爬蟲學習的具體步驟，我大概羅列了以下幾大部分，大家可以參考：
網路爬蟲基礎知識:
爬蟲的定義
爬蟲的作用
Http協議
基本抓包工具(Fiddler)使用
Python模塊實現爬蟲：
urllib3、requests、lxml、bs4 模塊大體作用講解
使用requests模塊 get 方式獲取靜態頁面數據
使用requests模塊 post 方式獲取靜態頁面數據
使用requests模塊獲取 ajax 動態頁面數據
使用requests模塊模擬登錄網站
使用Tesseract進行驗證碼識別
Scrapy框架與Scrapy-Redis：
Scrapy 爬蟲框架大體說明
Scrapy spider 類
Scrapy item 及 pipeline
Scrapy CrawlSpider 類
通過Scrapy-Redis 實現分布式爬蟲
藉助自動化測試工具和瀏覽器爬取數據：
Selenium + PhantomJS 說明及簡單實例
Selenium + PhantomJS 實現網站登錄
Selenium + PhantomJS 實現動態頁面數據爬取
爬蟲項目實戰：
分布式爬蟲+ Elasticsearch 打造搜索引擎

3. python爬蟲什麼教程最好

可以看這個教程：網頁鏈接

此教程通過三個爬蟲案例來使學員認識Scrapy框架、了解Scrapy的架構、熟悉Scrapy各模塊。

此教程的大致內容：

1、Scrapy的簡介。

主要知識點：Scrapy的架構和運作流程。

2、搭建開發環境：

主要知識點：Windows及Linux環境下Scrapy的安裝。

3、Scrapy Shell以及Scrapy Selectors的使用。

4、使用Scrapy完成網站信息的爬取。

主要知識點：創建Scrapy項目(scrapy startproject)、定義提取的結構化數據(Item)、編寫爬取網站的Spider並提取出結構化數據(Item)、編寫Item Pipelines來存儲提取到的Item(即結構化數據)。

4. 想用Python抓包(keep APP)，進而修改數據，得到偽造的結果，有什麼具體方案嗎

用fiddler抓包，獲取post的地址，然後偽造表單，用requests.post()把表單內容發過去試試。

5. python2.7 怎麼進行抓包和解包

1、抓包，可以下載winpcapy 或者自己載入winpcap動態庫
2、解包，使用dpkt解析
參考程序，基於進程抓包QPA工具

6. python 如何抓取動態頁面內容

下面開始說一下本文抓取動態頁面數據的相關工具和庫：
1. python 2.7
2. pyqt

3. spynner （在安裝過程中，其他的一些依賴庫也會自動上網下載安裝）
4. BeautifulSoup
5. ide工具是pycharm（當然這個只是個人喜好，也可以使用其他的ide工具）

以上幾個工具都可以網路找到，python現在出了3.x版本的，但是由於眾多第三方庫或架構都沒有兼容，並且後續要使用到的爬蟲框架scrapy也是沒有支持3.x版本，因此還是建議使用2.7版本吧。
spynner和BeautifulSoup下載後，都可以cd到解壓出來的目錄，然後使用python setup.py install來完成安裝，需要注意的是spynner依賴pyqt，所以一定要安裝pyqt，否則無法使用spynner。

下面使用一個具體是例子來說明一下spynner和BeautifulSoup的使用，我們就以爬取京東頁面上的一些產品數據來說明如何爬取動態頁面數據（當然，如果我們過於頻繁的爬京東，估計還是有可能被京東將我們ip拉黑的）。

7. 如何利用libpcap和Python嗅探數據包

一提到Python獲取數據包的方式，相信很多Python愛好者會利用Linux的libpcap軟體包或利用Windows下的WinPcap可移植版的方式進行抓取數據包，然後再利用dpkt軟體包進行協議分析，我們這里想換一個角度去思考：
1. Python版本的pcap存儲內存數據過小，也就是說緩存不夠，在高並發下容易發生丟包現象，其實C版本的也同樣存在這樣的問題，只不過Python版本的緩存實在是過低，讓人很郁悶。
2. dpkt協議分析並非必須，如果你對RFC 791和RFC 793等協議熟悉的話，完全可以使用struct.unpack的方式進行分析。
如果你平常習慣使用tcpmp抓取數據包的話，完全可以使用它來代替pcap軟體包，只不過我們需要利用tcpmp將抓取的數據以pcap格式進行保存，說道這里大家一定會想到Wireshark工具，具體命令如下：
tcpmp dst 10.13.202.116 and tcp dst port 80 -s 0 -i eth1 -w ../pcap/tcpmp.pcap -C 1k -W 5
我們首先需要對pcap文件格式有所了解，具體信息大家可以參考其他資料文檔，我這里只說其重要的結構體組成，如下：
sturct pcap_file_header
{
DWORD magic;
WORD version_major;
WORD version_minor;
DWORD thiszone;
DWORD sigfigs;
DWORD snaplen;
DWORD linktype;
}
struct pcap_pkthdr
{
struct timeval ts;
DWORD caplen;
DWORD len;
}
struct timeval
{
DWORD GMTtime;
DWORD microTime;
}
這里需要說明的一點是，因為在Python的世界裡一切都是對象，所以往往Python在處理數據包的時候感覺讓人比較麻煩。Python提供了幾個libpcapbind,http://monkey.org/~gsong/pypcap/這里有一個最簡單的。在windows平台上,你需要先安裝winpcap,如果你已經安裝了Ethereal非常好用。一個規范的抓包過程:
import pcap
import dpkt
pc=pcap.pcap() #注，參數可為網卡名，如eth0
pc.setfilter('tcp port 80') #設置監聽過濾器
for ptime,pdata in pc: #ptime為收到時間，pdata為收到數據
print ptime,pdata #...
對抓到的乙太網V2數據包(raw packet)進行解包:
p=dpkt.ethernet.Ethernet(pdata)
if p.data.__class__.__name__=='IP':
ip='%d.%d.%d.%d'%tuple(map(ord,list(p.data.dst)))
if p.data.data.__class__.__name__=='TCP':
if data.dport==80:
print p.data.data.data
一些顯示參數nrecv,ndrop,nifdrop=pc.stats()返回的元組中，第一個參數為接收到的數據包，第二個參數為被核心丟棄的數據包。
至於對於如何監控tcpmp生成的pcap文件數據，大家可以通過pyinotify軟體包來實現，如下：
class Packer(pyinotify.ProcessEvent):
def __init__(self, proct):
self.proct = proct
self.process = None
def process_IN_CREATE(self, event):
logger.debug("create file: %s in queue" % self.process_IF_START_THREAD(event))
def process_IN_MODIFY(self, event):
self.process_IF_START_THREAD(event)
logger.debug("modify file: %s in queue" % self.process_IF_START_THREAD(event))
def process_IN_DELETE(self, event):
filename = os.path.join(event.path, event.name)
logger.debug("delete file: %s" % filename)
def process_IF_START_THREAD(self, event):
filename = os.path.join(event.path, event.name)
if filename != self.process:
self.process = filename
self.proct.put(filename)
if self.proct.qsize() > 1:
try:
logger.debug("create consumer proct.qsize: %s" % self.proct.qsize())
consumer = Consumer(self.proct)
consumer.start()
except Exception, errmsg:
logger.error("create consumer failed: %s" % errmsg)
return filename
class Factory(object):
def __init__(self, proct):
self.proct = proct
self.manager = pyinotify.WatchManager()
self.mask = pyinotify.IN_CREATE | pyinotify.IN_DELETE | pyinotify.IN_MODIFY
def work(self):
try:
try:
notifier = pyinotify.ThreadedNotifier(self.manager, Packer(self.proct))
notifier.start()
self.manager.add_watch("../pcap", self.mask, rec = True)
notifier.join()
except Exception, errmsg:
logger.error("create notifier failed: %s" % errmsg)
except KeyboardInterrupt, errmsg:
logger.error("factory has been terminated: %s" % errmsg)
在獲得要分析的pcap文件數據之後，就要對其分析了，只要你足夠了解pcap文件格式就可以了，對於我們來講只需要獲得TCP數據段的數據即可，如下：
class Writer(threading.Thread):
def __init__(self, proct, stack):
threading.Thread.__init__(self)
self.proct = proct
self.stack = stack
self.pcap_pkthdr = {}
def run(self):
while True:
filename = self.proct.get()
try:
f = open(filename, "rb")
readlines = f.read()
f.close()
offset = 24
while len(readlines) > offset:
self.pcap_pkthdr["len"] = readlines[offset+12:offset+16]
try:
length = struct.unpack("I", self.pcap_pkthdr["len"])[0]
self.stack.put(readlines[offset+16:offset+16+length])
offset += length + 16
except Exception, errmsg:
logger.error("unpack pcap_pkthdr failed: %s" % errmsg)
except IOError, errmsg:
logger.error("open file failed: %s" % errmsg)
在獲得TCP數據段的數據包之後，問題就簡單多了，根據大家的具體需求就可以進行相應的分析了，我這里是想分析其HTTP協議數據，同樣也藉助了dpkt軟體包進行分析，如下：
def worker(memcache, packet, local_address, remote_address):
try:
p = dpkt.ethernet.Ethernet(packet)
if p.data.__class__.__name__ == "IP":
srcip = "%d.%d.%d.%d" % tuple(map(ord, list(p.data.src)))
dstip = "%d.%d.%d.%d" % tuple(map(ord, list(p.data.dst)))
if p.data.data.__class__.__name__ == "TCP":
tcpacket = p.data.data
if tcpacket.dport == 80 and dstip == local_address:
srcport = tcpacket.sport
key = srcip + ":" + str(srcport)
if tcpacket.data:
if not memcache.has_key(key):
memcache[key] = {}
if not memcache[key].has_key("response"):
memcache[key]["response"] = None
if memcache[key].has_key("data"):
memcache[key]["data"] += tcpacket.data
else:
memcache[key]["data"] = tcpacket.data
else:
if memcache.has_key(key):
memcache[key]["response"] = dpkt.http.Request(memcache[key]["data"])
try:
stackless.tasklet(connection)(memcache[key]["response"], local_address, remote_address)
stackless.run()
except Exception, errmsg:
logger.error("connect remote remote_address failed: %s", errmsg)
logger.debug("old headers(none content-length): %s", memcache[key]["response"])
memcache.pop(key)
except Exception, errmsg:
logger.error("dpkt.ethernet.Ethernet failed in worker: %s", errmsg)
如果大家只是想單純的獲取IP地址、埠、流量信息，那麼問題就更簡單了，這里只是拋磚引玉。另外再提供一段代碼供參考:
import pcap, dpkt, struct
import binascii
def main():
a = pcap.pcap()
a.setfilter('udp portrange 4000-4050')
try:
for i,pdata in a:
p=dpkt.ethernet.Ethernet(pdata)
src='%d.%d.%d.%d' % tuple(map(ord,list(p.data.src)))
dst='%d.%d.%d.%d' % tuple(map(ord,list(p.data.dst)))
sport = p.data.data.sport
dport = p.data.data.dport
qq = int( binascii.hexlify(p.data.data.data[7:11]) , 16 )
print 'QQ: %d, From: %s:%d , To: %s:%d' % (qq,src,sport,dst,dport)
except Exception,e:
print '%s' % e
n = raw_input()
if __name__ == '__main__':
main()

8. python 怎麼爬取app端數據

可以，但是不提倡這種行為 1，在手機上設置代理，代理到你的電腦上 2，再在電腦上用tcpmp或者其他圖形化的抓包工具獲得數據包，分析這些數據包找到你要的數據 3，根據前兩步的結果，寫代碼模擬app的操作獲得你需要的數據

9. python爬蟲怎麼抓包

方案：

自己通過request庫手動編寫
使用python的爬蟲庫scrapy

最推薦的一種：使用python的爬蟲庫scrapy

推薦理由：

應用最廣泛的爬蟲框架，沒有之一
成熟度最高的框架，沒有之一
利用成熟產品，避免重復「造輪子」，可以更快速的構建項目

導航:首頁 > 編程語言 > python抓包教程

python抓包教程

與python抓包教程相關的資料