用python爬豆瓣数据_python爬虫怎么处理豆瓣网页异常请求

‘壹’ 一劳永逸！一步到位将python pip源换为豆瓣源，瞬间起飞！！！

提升Python pip安装速度，选择豆瓣源成为理想解决方案。

遇到pip安装包速度慢或失败的情况，你是否感到沮丧？别担心，有多种方法能让你迅速提升安装效率。

方法一：临时使用豆瓣源

只需在安装包前添加-i 豆瓣源指令，便可即刻提升速度。豆瓣源以其丰富的包资源和稳定的服务，成为众多开发者的选择。

使用示例：

pip install 包名 -i https://mirrors.163.com/pypi/simple

方法二：一劳永逸修改配置

对于Windows用户，推荐通过手动修改pip.ini配置文件实现豆瓣源设置。

步骤如下：

1. 打开命令提示符

2. 创建pip.ini文件

3. 添加豆瓣源信息至pip.ini文件

完成设置后，无需每次安装包时手动添加-i指令，实现一劳永逸的安装提速。

方法二（自动修改）：一键设置豆瓣源

通过安装特定工具，自动修改配置文件，简化设置过程。安装后，使用默认设置即可享受豆瓣源带来的高效体验。

验证安装速度，你将直观感受到显着提升。从此，pip安装包不再是困扰。

恭喜你，现在已实现一劳永逸的安装加速。享受高效编程体验，大赞！

‘贰’ 【Python爬虫】分析网页真实请求

1、抓取网页、分析请求
2、解析网页、寻找数据
3、储存数据、多页处理

翻页有规律：
很多网址在第一页时并没有变化，多翻下一页后规律就出来，比如豆瓣第一页和豆瓣第三页

发现start为40，limit=20，所以猜测start=0就是第一页，每页显示20条数据，对于第三页显示的参数可以一个个删除验证，可以减去不必要的参数， 但是删除前一定要做好数据的对比

（1） 文本框输入后产生一个请求，如常见的登录、注册页面
Referer：表示当前请求的来源
Request URL：表示实际请求地址

翻页后URL不变，该如何寻找请求？
如： http://www.zkh360.com/zkh_catalog/3.html

通过对比可以发现网站是通过pageIndex参数控制翻页的，？表示连接

接下来用抓包工具分析下，从第四页开始看URL就知道了，但是前面几面需要查看请求的参数，这里偏多，就切换到【Inspectors--Webforms】选项，看的比较直观

类似的网站还有今日头条，有兴趣的朋友可以去研究下
（可通过获取max_behot_time的值而改变as和cp）

‘叁’ python爬虫怎么处理豆瓣网页异常请求

1.URLError

首先解释下URLError可能产生的原因：

网络无连接，即本机无法上网
连接不到特定的服务器
服务器不存在

在代码中，我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子，先感受下它的风骚

Python

import urllib2

requset = urllib2.Request('http://www.xxxxx.com')

try:

urllib2.urlopen(requset)

except urllib2.URLError, e:

print e.reason

我们利用了 urlopen方法访问了一个不存在的网址，运行结果如下：

Python

[Errno 11004] getaddrinfo failed

它说明了错误代号是11004，错误原因是 getaddrinfo failed

2.HTTPError

HTTPError是URLError的子类，在你利用urlopen方法发出一个请求时，服务器上都会对应一个应答对象response，其中它包含一个数字”状态码”。举个例子，假如response是一个”重定向”，需定位到别的地址获取文档，urllib2将对此进行处理。

其他不能处理的，urlopen会产生一个HTTPError，对应相应的状态吗，HTTP状态码表示HTTP协议所返回的响应的状态。下面将状态码归结如下：

100：继续客户端应当继续发送请求。客户端应当继续发送请求的剩余部分，或者如果请求已经完成，忽略这个响应。

101：转换协议在发送完这个响应最后的空行后，服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。

102：继续处理由WebDAV（RFC 2518）扩展的状态码，代表处理将被继续执行。

200：请求成功处理方式：获得响应的内容，进行处理

201：请求完成，结果是创建了新资源。新创建资源的URI可在响应的实体中得到处理方式：爬虫中不会遇到

202：请求被接受，但处理尚未完成处理方式：阻塞等待

204：服务器端已经实现了请求，但是没有返回新的信息。如果客户是用户代理，则无须为此更新自身的文档视图。处理方式：丢弃

300：该状态码不被HTTP/1.0的应用程序直接使用，只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。处理方式：若程序中能够处理，则进行进一步处理，如果程序中不能处理，则丢弃
301：请求到的资源都会分配一个永久的URL，这样就可以在将来通过该URL来访问此资源处理方式：重定向到分配的URL

302：请求到的资源在一个不同的URL处临时保存处理方式：重定向到临时的URL

304：请求的资源未更新处理方式：丢弃

400：非法请求处理方式：丢弃

401：未授权处理方式：丢弃

403：禁止处理方式：丢弃

404：没有找到处理方式：丢弃

500：服务器内部错误服务器遇到了一个未曾预料的状况，导致了它无法完成对请求的处理。一般来说，这个问题都会在服务器端的源代码出现错误时出现。

501：服务器无法识别服务器不支持当前请求所需要的某个功能。当服务器无法识别请求的方法，并且无法支持其对任何资源的请求。

502：错误网关作为网关或者代理工作的服务器尝试执行请求时，从上游服务器接收到无效的响应。

503：服务出错由于临时的服务器维护或者过载，服务器当前无法处理请求。这个状况是临时的，并且将在一段时间以后恢复。

HTTPError实例产生后会有一个code属性，这就是是服务器发送的相关错误号。
因为urllib2可以为你处理重定向，也就是3开头的代号可以被处理，并且100-299范围的号码指示成功，所以你只能看到400-599的错误号码。

下面我们写一个例子来感受一下，捕获的异常是HTTPError，它会带有一个code属性，就是错误代号，另外我们又打印了reason属性，这是它的父类URLError的属性。

Python

import urllib2

req = urllib2.Request('httt/cqcre')

try:

urllib2.urlopen(req)

except urllib2.HTTPError, e:

print e.code

print e.reason

运行结果如下

Python

403

Forbidden

错误代号是403，错误原因是Forbidden，说明服务器禁止访问。

我们知道，HTTPError的父类是URLError，根据编程经验，父类的异常应当写到子类异常的后面，如果子类捕获不到，那么可以捕获父类的异常，所以上述的代码可以这么改写

Python

import urllib2

req = urllib2.Request('hcqcre')

try:

urllib2.urlopen(req)

except urllib2.HTTPError, e:

print e.code

except urllib2.URLError, e:

print e.reason

else:

print "OK"

如果捕获到了HTTPError，则输出code，不会再处理URLError异常。如果发生的不是HTTPError，则会去捕获URLError异常，输出错误原因。

另外还可以加入 hasattr属性提前对属性进行判断，代码改写如下

Python

import urllib2

req = urllib2.Request('httcqcre')

try:

urllib2.urlopen(req)

except urllib2.URLError, e:

if hasattr(e,"code"):

print e.code

if hasattr(e,"reason"):

print e.reason

else:

print "OK"

首先对异常的属性进行判断，以免出现属性输出报错的现象。

以上，就是对URLError和HTTPError的相关介绍，以及相应的错误处理办法，小伙伴们加油！

‘肆’ python爬虫--10-使用python爬取豆瓣正在上映的电影

使用Python进行网页爬取是一项实用技能，让我们通过实例学习如何获取豆瓣上正在上映的电影信息。下面，我将逐步解析爬取流程并提供代码示例。

首先，我们要明确目标内容，包括电影名字、年份、时长、地区、演员和封面图片。接下来，我们按照以下步骤进行。

1. 确定页面与内容定位：
- 通过浏览器的开发者工具，找到目标信息所在的HTML代码区块。确保能识别出包含所需数据的元素。

2. 确定XPath路径：
- 确定每个元素的XPath路径，以便在Python代码中精确定位。

3. 代码实现：
- 使用Python库如BeautifulSoup和requests获取网页HTML内容。
- 遍历页面中的列表元素（通常为

标签），并提取所需信息。
- 打印或输出提取的信息。

具体代码实现如下：

1. 获取整个页面HTML：
- 使用requests库获取网页内容。

2. 定位正在上映电影块：
- 使用BeautifulSoup解析HTML，定位到包含正在上映电影信息的Div区块。

3. 提取LI标签信息：
- 遍历Div内的所有

标签，提取并处理所需电影信息。

4. 输出结果：
- 将提取的信息打印或存储到文件中。

完整代码示例如下（仅展示部分关键代码）：

python
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/cinema/nowplaying/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
movie_blocks = soup.find_all('div', class_='lists')
for block in movie_blocks:
movie = block.find('li', class_='list-item')
title = movie.find('a').text.strip()
year = movie.find('span', class_='year').text.strip() if movie.find('span', class_='year') else ''
# ... 依次提取其他信息
print(f"电影名: {title}, 年份: {year}")

注意：此示例代码仅为简化版本，实际应用中可能需要根据目标网站结构调整代码。若需要完整的代码实现及更详细的教程，请参考相关在线教程或加入专业学习社区。

更多Linux相关知识，包括命令、操作系统管理与编程技巧等，可访问公众号“运维家”，回复“172”获取详细信息。

Linux技术领域覆盖广泛，从基本命令操作到高级系统管理、开发环境配置等，均可在“运维家”公众号中找到相应的资源和教程。

‘伍’ python 代码里如何判断成功登录豆瓣

#!py3
#_*_coding:utf-8_*_
importos
importsqlite3
importrequests
fromwin32.

defgetcookiefromchrome(host='.douban.com'):
'''最好还是从浏览器自动获取当前登录帐号的cookies，
然后再抓取内容，这里是演示从GoogleChrome中获取cookies的例子。
host登录服务器的主域名，注意要在前面加个点号。
'''
cookiepath=os.environ['LOCALAPPDATA']+r""
sql="selecthost_key,name,encrypted_valuefromcookieswherehost_key='%s'"%host
withsqlite3.connect(cookiepath)asconn:
cu=conn.cursor()
cookies={name:CryptUnprotectData(encrypted_value)[1].decode()forhost_key,name,encrypted_valueincu.execute(sql).fetchall()}
print(cookies)
returncookies

url='http://www.douban.com'

httphead={'User-Agent':('Mozilla/5.0(WindowsNT6.2;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/66.0.3359.181Safari/537.36'),}

r=requests.get(url,headers=httphead,cookies=getcookiefromchrome('.douban.com'),allow_redirects=1)
print(r.text)

需要安装的第三方模块：requests，pywin32

导航:首页 > 编程语言 > 用python爬豆瓣数据

用python爬豆瓣数据

与用python爬豆瓣数据相关的资料