導航:首頁 > 編程語言 > python爬蟲url怎麼看

python爬蟲url怎麼看

發布時間:2025-05-05 04:54:47

Ⅰ 【壹】Python爬蟲入門——認識URL

【系列前言】前段時間李響同學入門了一些Python的基礎知識,覺得一直在IDLE里print一些演算法題有一些枯燥,所以決定通過學習爬蟲來提高自己的興趣。而且最近確實有一些重復性勞動,想使用爬蟲簡化工作。遂打算邊自學邊寫自己自學的過程,一方面作為小白的我可以和其他Python大神交流,一方面也可以以此監督自己。
【本人使用Python版本:2.7.5】

首先按理解一下爬蟲(Spider),如果把一個站點比作一張縱橫交錯的蜘蛛網,那麼我們爬蟲要做的就是在這張網上爬來爬去,獲得這張網上的信息和資源。而Web上每種資源,比如HTML文檔、圖片、視頻等都由一個URI(Universal Resource Identifier,通用資源標志符)進行定位。 URL(Uniform Resource Locator,統一資源定位符)是URI的子集。採用URL可以用一種統一的格式來描述各種信息資源,包括文件、伺服器的地址和目錄等。而爬蟲主要的處理對象就是URL。所以務必要對URL有一定的熟悉。

URI通常由三部分組成:
1.訪問資源的命名機制;
2.存放資源的主機名;
3.資源自身 的名稱,由路徑表示。

URL的格式由三部分組成:
1.第一部分是協議(或稱為服務方式)。
2.第二部分是存有該資源的主機IP地址(有時也包括埠號)。
3.第三部分是主機資源的具體地址,如目錄和文件名等。
知乎:HTTP 協議中 URI 和 URL 有什麼區別?@西毒 的回答

最近在搞挑戰杯可能會有點忙,但還是希望自己能按照計劃學習,定期更新此系列。

Ⅱ 【Python爬蟲】分析網頁真實請求

1、抓取網頁、分析請求
2、解析網頁、尋找數據
3、儲存數據、多頁處理

翻頁有規律:
很多網址在第一頁時並沒有變化,多翻下一頁後規律就出來,比如 豆瓣第一頁 和 豆瓣第三頁

發現start為40,limit=20,所以猜測start=0就是第一頁,每頁顯示20條數據,對於第三頁顯示的參數可以一個個刪除驗證,可以減去不必要的參數, 但是刪除前一定要做好數據的對比

(1) 文本框輸入後產生一個請求,如常見的登錄、注冊頁面
Referer:表示當前請求的來源
Request URL:表示實際請求地址

翻頁後URL不變,該如何尋找請求?
如: http://www.zkh360.com/zkh_catalog/3.html

通過對比可以發現網站是通過pageIndex參數控制翻頁的,?表示連接

接下來用抓包工具分析下 ,從第四頁開始看URL就知道了,但是前面幾面需要查看請求的參數,這里偏多,就切換到【Inspectors--Webforms】選項,看的比較直觀

類似的網站還有 今日頭條 ,有興趣的朋友可以去研究下
(可通過獲取max_behot_time的值而改變as和cp)

閱讀全文

與python爬蟲url怎麼看相關的資料

熱點內容
新u盤怎樣加文件夾 瀏覽:718
linux屏幕鎖定 瀏覽:502
rar高壓縮軟體 瀏覽:855
linuxshell編程的作用 瀏覽:566
傳奇世界單機gm命令 瀏覽:966
遺傳演算法tsppython 瀏覽:281
單片機數字溫度 瀏覽:138
工行發工資app是什麼 瀏覽:846
程序員技術牛 瀏覽:713
浪潮雲伺服器山東虛擬主機 瀏覽:17
使用孤行控制命令 瀏覽:256
javaawtimage 瀏覽:748
命令方塊物品 瀏覽:410
愛好者游戲解壓碼 瀏覽:593
伺服器網路的局限性有什麼 瀏覽:570
b站解析伺服器地址 瀏覽:492
macpdf轉word 瀏覽:310
電路設計怎麼編譯結果 瀏覽:191
安卓伺服器怎麼設置語言 瀏覽:173
反編譯文件為什麼會錯誤 瀏覽:790