Ⅰ 為什麼python爬蟲爬取評論的時候返回了空表格
錯誤分析:
1、使用類似requests模塊,請求的內容是當前頁未經渲染的response,評論一般為非同步載入,源碼中應該找不到該數據(可採用抓包,抓取評論介面,模擬訪問,直接介面爬取)
2、數據解析規則錯誤
3、載入未完成
Ⅱ python爬蟲能做什麼
Python是一門非常適合開發網路爬蟲的編程語言,相比於其他靜態編程語言,Python抓取網頁文檔的介面更簡潔;相比於其他動態腳本語言,Python的urllib2包提供了較為完整的訪問網頁文檔的API。此外,python中有優秀的第三方包可以高效實現網頁抓取,並可用極短的代碼完成網頁的標簽過濾功能。
Python爬蟲架構組成:
1. URL管理器:管理待爬取的url集合和已爬取的url集合,傳送待爬取的url給網頁下載器;
2. 網頁下載器:爬取url對應的網頁,存儲成字元串,傳送給網頁解析器;
3. 網頁解析器:解析出有價值的數據,存儲下來,同時補充url到URL管理器。
Python爬蟲工作原理:
Python爬蟲通過URL管理器,判斷是否有待爬URL,如果有待爬URL,通過調度器進行傳遞給下載器,下載URL內容,並通過調度器傳送給解析器,解析URL內容,並將價值數據和新URL列表通過調度器傳遞給應用程序,並輸出價值信息的過程。
爬蟲可以做什麼?
你可以用爬蟲爬圖片,爬取視頻等等你想要爬取的數據,只要你能通過瀏覽器訪問的數據都可以通過爬蟲獲取。
Python爬蟲常用框架有:
grab:網路爬蟲框架;
scrapy:網路爬蟲框架,不支持Python3;
pyspider:一個強大的爬蟲系統;
cola:一個分布式爬蟲框架;
portia:基於Scrapy的可視化爬蟲;
restkit:Python的HTTP資源工具包。它可以讓你輕松地訪問HTTP資源,並圍繞它建立的對象。
demiurge:基於PyQuery的爬蟲微框架。