『壹』 一個關於pythonrequests和ssl證書的問題
在面對如何使用 Python 爬蟲翻牆獲取全站 HTTPS 的網站,如 Facebook 等,時,一個普遍存在的問題是 Python2 不支持 SNI 功能。然而,這里有兩種解決辦法。
最直接的方法是關閉 SSL 驗證:
這可以通過在使用 requests 庫之前,添加相應的代碼來實現:
同時,若想讓 Python2 支持 SNI 功能,可以採取以下步驟:
首先,使用 pip 安裝必要的依賴:
接著,在使用 urllib3 庫(即在使用 requests 庫之前),插入以下代碼:
『貳』 Python requests+gevent+BeautifulSoup lxml 干點啥
最近工作中有個需求是抓一些數據 數據量上萬 講真 以前都是玩玩 沒實戰 所以來這個需求的時候 我內心其實有點激動
裝逼模式已開啟
然後 我開始裝逼了 用request + BeautifulSoup(html) 用這兩貨實現
requests請求網路數據載入
BeautifulSoup(html) 自在解析器 解析網路獲取數據
啪啦啪啦啪啦啪啦 沒幾下代碼擼完了 頓時感覺登上人生巔峰
開始運動 哦 不對 是運行 結果這貨第一頁(20個詳情)數據 用了快4分鍾
要不是中途有些log列印 我都以為他死了
find分析結構圖
find實現
跟就結構 分析 大題思路
1處是一個列表 ---> find_all("div",class__="className")--List
然後對每個集合中取出 img 和 div[class="content"]的內容 代碼如下
select實現
這里要先記住一點 select 每次返回都是list 在你能控制的住的情況下取[0]
同樣分析 你會發現其實差不多 只是寫法上有些不同 可以仔細看看兩者的寫法
文檔很多 但是下面這個我覺得看著最舒服BeautifulSoup 相關文檔
下面圖片所示的好像是正規文檔
不知道為啥 也許是配色 看的我頭暈