‘壹’ 一个关于pythonrequests和ssl证书的问题
在面对如何使用 Python 爬虫翻墙获取全站 HTTPS 的网站,如 Facebook 等,时,一个普遍存在的问题是 Python2 不支持 SNI 功能。然而,这里有两种解决办法。
最直接的方法是关闭 SSL 验证:
这可以通过在使用 requests 库之前,添加相应的代码来实现:
同时,若想让 Python2 支持 SNI 功能,可以采取以下步骤:
首先,使用 pip 安装必要的依赖:
接着,在使用 urllib3 库(即在使用 requests 库之前),插入以下代码:
‘贰’ Python requests+gevent+BeautifulSoup lxml 干点啥
最近工作中有个需求是抓一些数据 数据量上万 讲真 以前都是玩玩 没实战 所以来这个需求的时候 我内心其实有点激动
装逼模式已开启
然后 我开始装逼了 用request + BeautifulSoup(html) 用这两货实现
requests请求网络数据加载
BeautifulSoup(html) 自在解析器 解析网络获取数据
啪啦啪啦啪啦啪啦 没几下代码撸完了 顿时感觉登上人生巅峰
开始运动 哦 不对 是运行 结果这货第一页(20个详情)数据 用了快4分钟
要不是中途有些log打印 我都以为他死了
find分析结构图
find实现
跟就结构 分析 大题思路
1处是一个列表 ---> find_all("div",class__="className")--List
然后对每个集合中取出 img 和 div[class="content"]的内容 代码如下
select实现
这里要先记住一点 select 每次返回都是list 在你能控制的住的情况下取[0]
同样分析 你会发现其实差不多 只是写法上有些不同 可以仔细看看两者的写法
文档很多 但是下面这个我觉得看着最舒服BeautifulSoup 相关文档
下面图片所示的好像是正规文档
不知道为啥 也许是配色 看的我头晕