Ⅰ 【壹】Python爬蟲入門——認識URL
【系列前言】前段時間李響同學入門了一些Python的基礎知識,覺得一直在IDLE里print一些演算法題有一些枯燥,所以決定通過學習爬蟲來提高自己的興趣。而且最近確實有一些重復性勞動,想使用爬蟲簡化工作。遂打算邊自學邊寫自己自學的過程,一方面作為小白的我可以和其他Python大神交流,一方面也可以以此監督自己。
【本人使用Python版本:2.7.5】
首先按理解一下爬蟲(Spider),如果把一個站點比作一張縱橫交錯的蜘蛛網,那麼我們爬蟲要做的就是在這張網上爬來爬去,獲得這張網上的信息和資源。而Web上每種資源,比如HTML文檔、圖片、視頻等都由一個URI(Universal Resource Identifier,通用資源標志符)進行定位。 URL(Uniform Resource Locator,統一資源定位符)是URI的子集。採用URL可以用一種統一的格式來描述各種信息資源,包括文件、伺服器的地址和目錄等。而爬蟲主要的處理對象就是URL。所以務必要對URL有一定的熟悉。
URI通常由三部分組成:
1.訪問資源的命名機制;
2.存放資源的主機名;
3.資源自身 的名稱,由路徑表示。
URL的格式由三部分組成:
1.第一部分是協議(或稱為服務方式)。
2.第二部分是存有該資源的主機IP地址(有時也包括埠號)。
3.第三部分是主機資源的具體地址,如目錄和文件名等。
知乎:HTTP 協議中 URI 和 URL 有什麼區別?@西毒 的回答
最近在搞挑戰杯可能會有點忙,但還是希望自己能按照計劃學習,定期更新此系列。
Ⅱ 【Python爬蟲】分析網頁真實請求
1、抓取網頁、分析請求
2、解析網頁、尋找數據
3、儲存數據、多頁處理
翻頁有規律:
很多網址在第一頁時並沒有變化,多翻下一頁後規律就出來,比如 豆瓣第一頁 和 豆瓣第三頁
發現start為40,limit=20,所以猜測start=0就是第一頁,每頁顯示20條數據,對於第三頁顯示的參數可以一個個刪除驗證,可以減去不必要的參數, 但是刪除前一定要做好數據的對比
(1) 文本框輸入後產生一個請求,如常見的登錄、注冊頁面
Referer:表示當前請求的來源
Request URL:表示實際請求地址
翻頁後URL不變,該如何尋找請求?
如: http://www.zkh360.com/zkh_catalog/3.html
通過對比可以發現網站是通過pageIndex參數控制翻頁的,?表示連接
接下來用抓包工具分析下 ,從第四頁開始看URL就知道了,但是前面幾面需要查看請求的參數,這里偏多,就切換到【Inspectors--Webforms】選項,看的比較直觀
類似的網站還有 今日頭條 ,有興趣的朋友可以去研究下
(可通過獲取max_behot_time的值而改變as和cp)