python爬虫出现乱码_执行python脚本出现乱码怎么解决

A. 为什么python写的爬虫有时候抓取的数据是乱码

为什么Python写的爬虫有时候抓取的数据是乱码
写爬虫是经常会遇到这样的问题，这种问题很显然是编码问题，解决的方法其实也不难。

你可以用下面的两个方法来解决你的编码问题：
第一种是，通过浏览器打开你写的html之后，找到浏览器中的文字编码修改，将编码改为Unicode编码，即可修复。

xml takes all the pain out of XML. Stephan Richter lxml是Python语言里和XML以及HTML工作的功能最丰富和最容易使用的库

B. python爬虫抓取到的数据用网页打开时是乱码，怎么解决

写爬虫是经常会遇到这样的问题，这种问题很显然是编码问题，解决的方法其实也不难。
你可以用下面的两个方法来解决你的编码问题：
第一种是，通过浏览器打开你写的html之后，找到浏览器中的文字编码修改，将编码改为Unicode编码，即可修复。

第二种方法是修改你的前端代码：在你的代码output_html方法中，规定网页的文字编码即可

C. Python+requests 爬取网站遇到中文乱码怎么办

1. 遇到的中文乱码问题
1.1 简单的开始
使用requests来拔取网站内容十分方便，一个最简单的代码段只需要2-3行代码就行。

点击(此处)折叠或打开

url='http//www.pythonscraping.com/'
req= requests.get(url)
print(req.text)
tree= html.fromstring(req.text)
print(tree.xpath("//h1[@class='title']/text()"))
上面的代码段起作用的也就3行（2,4,5）代码就获取到我们想要的内容。当然还要导入一系列的包，比如说requests、lxml、html等。当然由于http//www.pythonscraping.com/是英文网站，不存在中文乱码问题。

1.2 麻烦的开始

本来当时的想法是写一些基础模块，方便之后开发的时候调用，减少重复性工作。为了保证代码在任何情况下都不会出现bug，所以想着用同样的代码爬取中文网站获取里面的文字

修改上面代码中的两行代码：

点击(此处)折叠或打开

url='http://sports.sina.com.cn/g/premierleague/index.shtml'
print(tree.xpath("//span[@class='sec_blk_title']/text()"))
运行程序可以发现，在语句print(req.text)输出的内容中，中文字体已经是乱码了。最后的结果输出是['?????©è§x86é?x91', '??x80?x9cx9f?x9bx9eé??']

2 乱码解决办法

2.1 试错

由于之前爬取csdn上一个网页没有出现乱码问题，但是在sina体育网站上出现了乱码，所以当时以为不是编码问题，以为是文档压缩问题。因为csdn获取的页面header里没有“Content-Encodings”属性，但是sina体育获取的页面header有“Content-Encodings”属性--“Content-Encoding: gzip”。

总结：参考上述文献，结果还是没有解决问题，但是就考虑是不是方向错了。不过这部分工作也没有白做，很多网站返回数据都会有压缩问题，之后的工作中也能用上。

2.2 乱码终极解决办法

后来查阅官方文档中response-content相关内容，说明了Requests会自动解码来自服务器的内容。Requests会基于HTTP头部对响应的编码作出有根据的推测，前提是响应文档的HTTP headers里面没有相关字符集说明。官方文档还说明了，如果你创建了自己的编码，并使用codecs模块进行注册，你就可以轻松地使用这个解码器名称作为r.encoding的值，然后由Requests来为你处理编码。（自己没有使用codecs模块，所以这里不贴代码了，不过按官方的说法使用codecs模块是最简单的一种方式。）

另一份官方文档片段明确说了reponse编码处理方式：

Requests遵循RFC标准，编码使用ISO-8859-1 。

只有当HTTP头部不存在明确指定的字符集，并且Content-Type头部字段包含text值之时， Requests才不去猜测编码方式。

现在直接上实验结果，在原始代码中添加以下代码片段：

点击(此处)折叠或打开

print(req.headers['content-type'])
print(req.encoding)
print(req.apparent_encoding)
print(requests.utils.get_encodings_from_content(page_content.text))
输出结果分别是：

text/html

ISO-8859-1#response内容的编码

utf-8#response headers里设置的编码

['utf-8']#response返回的html header标签里设置的编码

返回的内容是采用‘ISO-8859-1’，所以出现了乱码，而实际上我们应该采用‘utf-8’编码

总结：当response编码是‘ISO-8859-1’，我们应该首先查找response header设置的编码；如果此编码不存在，查看返回的Html的header设置的编码，代码如下：

点击(此处)折叠或打开

if req.encoding=='ISO-8859-1':
encodings= requests.utils.get_encodings_from_content(req.text)
if encodings:
encoding= encodings[0]
else:
encoding= req.apparent_encoding
encode_content= req.content.decode(encoding,'replace').encode('utf-8','replace')

D. python爬虫爬到的中文乱码怎么办

爬到的内容，肯定是某种编码格式（utf-8/gb2312等）的字符串。只需要对它相应的decode一下就可以了。
比如：如果网页内容是utf-8编码的，就：'xxx'.decode('utf-8')；
如果是gb2312编码的，就：'xxx'.decode('gb2312')

E. python编写爬虫爬到的中文字符总是乱码，r.encoding也不行

这个页面是gb2312编码的，不是utf-8

F. python3，pycharm,写爬虫时遇到打印的结果乱码，希望得到大神的帮助，谢谢啦

这个问题主要是编码问题，一般需要检查系统设置、ide设置、python代码里的编码，一致改成utf8一般就没问题。
windows中文默认是gbk，ide就要相应改成gbk才能显示完整

G. 为什么python写的爬虫有时候抓取的数据是乱码

1. 使用chrome浏览器，打开示例页面http://tieba..com/p/3295185529?see_lz=1
2. 在帖子标题处，右键选择"审查元素"，可以看到标题的源代码

3. 进行简单的分析，我们需要获取的是title后面的内容，根据页面实际内容，我们编写相应的正则表达式：
title_re=re.compile('<h1 class="core_title_txt " title="(.*?)"')
4. 同理，我们对帖子内容进行"审查元素"，得到内容的源代码

5. 编写相应的正则表达式如下：
content_re=re.compile('<div id="post_content_\d*" class="d_post_content j_d_post_content ">(.*?)</div>')
6. 这样通过urllib2打开页面后，使用上述的正则表达式进行匹配，再对标题和文本内容进行相应的处理即可

H. python爬虫抓下来的网页，中间的中文乱码怎么解决

对于python的中文编码问题可以参考下面的帖子
http : //python .jobbole. com/85482/
对于网页的中文乱码，建立使用requests模块代替urllib\urllib2
requests的content方法，对中文编码，支持比较好，基本不会出现乱码。
req=requests.get(url,cookies=mecookies)
print req.content
具体用法，参见下面两个帖子，较详细：
http :// blog.csdn . net/iloveyin/article/details/21444613
http : //blog .csdn . net/alpha5/article/details/24964009

I. 执行python脚本出现乱码怎么解决

执行python脚本出现乱码的解决方法：首先把中文解码为unicode，具体方法如：【decode('utf-8')】；然后再转化为gbk即可，具体方法如：【encode('gbk')】。
问题：
代码中指定了UTF-8编码，但是在cmd命令行窗口时打印的中文仍然会乱码。
（推荐教程：Python入门教程）
原因：
windows下中文默认的输出编码为gbk ，与脚本中定义的UTF-8不一样，所以出现了解码失败的情况。
解决方法：
可以先把中文解码为unicode，然后再转化为gbk来解决这个问题。
举例：
运行结果：

导航:首页 > 编程语言 > python爬虫出现乱码

python爬虫出现乱码

与python爬虫出现乱码相关的资料