python打印网页乱码_python命令行输入中文乱码怎么办

① python IDLE 控制台输出乱码问题怎样解决

在源代码开激拆始处加上如下这句：

# -*- coding: GBK -*-

...... 其他 Python 源代码 ......

然后，选择 IDLE 的菜单 Options ->
Configure IDLE... 打开 IDLE 的配置选项，切换到 General 选项卡，找到 Default Source
Encoding 设置项，选中 Locale-defined 选项，点击 Apply 按钮，再点击 OK 以便保存设置。

关闭退出 IDLE 并重写郑尺打开 IDLE 集成明丛枣开发环境，此时你再试一下：

② 璇锋暀鍏充簬python杈揿嚭涓鏂囦贡镰佺殑闂棰

浜哄剁绣椤甸噷锻婅瘔浣犱简

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

浣犲湪windows涓嬮粯璁ょ殑鏄疓BK锛屽綋铹秛tf-8镄勪腑鏂囨槸涔辩爜浜

print html3.decode('utf-8').encode('gbk')

浣犲啀璇曡瘯

③ 用python抓取的网页保存后为什么乱码

从你给的代码来是Python2。我下面给一个基于Python3的代码，可以参考一下：

romurllib.requestimporturlopen;
fromurllib.parseimportquote;
rawtext=urlopen('http://www.ccnu.e.cn',timeout=15).read();
print(rawtext)
rawtext=rawtext.decode('gbk')
print(rawtext)
f=open('ccnu.txt','w',encoding='utf8');
f.write(rawtext)

大概的原理是，在Python3下面，抓取到的页面默认是byte类型的（通过第4行输出的结果就可以看出来），我们需要根据网页的实际编码进行处理。本例中给的网页使用的是gb2312。所以，我要先以gbk的格式进行解码（gbk包含了gb2312，能够表示更多的汉语字符），解码后实际上得到的就是unicode码了，由于我的控制台编码设置的是utf8，在打印时系统会自动将字符串从unicode转为utf8，所以第6行控制台打印结果正常；第7行写入文件时也要指定文件的编码格式，我这里选择的是utf8，当然用gbk也是一切正常的，因为这个编码设置的是保存文件的编码，而不是原来那个网页内容的编码了。字符串编码和文件编码不是一回事。打开ccnu.txt发现无乱码。

Python2的代码我不熟。

建议你也在代码中添加print 看控制输出是否正常。如果控制台输出正常，则有可能是在保存页面文件时，没有正确指定内容字符串的encode格式。或者把所有gb2312换为gbk再试试。

反正Python2下面极容易出现汉字乱码，如果能理解编码encode和解码decode的含义，了解Python2的字符串处理过程，就可以避免这些问题。

④ Python+requests 爬取网站遇到中文乱码怎么办

1. 遇到的中文乱码问题
1.1 简单的开始
使用requests来拔取网站内容十分方便，一个最简单的代码段只需要2-3行代码就行。

点击(此处)折叠或打开

url='http//www.pythonscraping.com/'
req= requests.get(url)
print(req.text)
tree= html.fromstring(req.text)
print(tree.xpath("//h1[@class='title']/text()"))
上面的代码段起作用的也就3行（2,4,5）代码就获取到我们想要的内容。当然还要导入一系列的包，比如说requests、lxml、html等。当然由于http//www.pythonscraping.com/是英文网站，不存在中文乱码问题。

1.2 麻烦的开始

本来当时的想法是写一些基础模块，方便之后开发的时候调用，减少重复性工作。为了保证代码在任何情况下都不会出现bug，所以想着用同样的代码爬取中文网站获取里面的文字

修改上面代码中的两行代码：

点击(此处)折叠或打开

url='http://sports.sina.com.cn/g/premierleague/index.shtml'
print(tree.xpath("//span[@class='sec_blk_title']/text()"))
运行程序可以发现，在语句print(req.text)输出的内容中，中文字体已经是乱码了。最后的结果输出是['?????©è§x86é?x91', '??x80?x9cx9f?x9bx9eé??']

2 乱码解决办法

2.1 试错

由于之前爬取csdn上一个网页没有出现乱码问题，但是在sina体育网站上出现了乱码，所以当时以为不是编码问题，以为是文档压缩问题。因为csdn获取的页面header里没有“Content-Encodings”属性，但是sina体育获取的页面header有“Content-Encodings”属性--“Content-Encoding: gzip”。

总结：参考上述文献，结果还是没有解决问题，但是就考虑是不是方向错了。不过这部分工作也没有白做，很多网站返回数据都会有压缩问题，之后的工作中也能用上。

2.2 乱码终极解决办法

后来查阅官方文档中response-content相关内容，说明了Requests会自动解码来自服务器的内容。Requests会基于HTTP头部对响应的编码作出有根据的推测，前提是响应文档的HTTP headers里面没有相关字符集说明。官方文档还说明了，如果你创建了自己的编码，并使用codecs模块进行注册，你就可以轻松地使用这个解码器名称作为r.encoding的值，然后由Requests来为你处理编码。（自己没有使用codecs模块，所以这里不贴代码了，不过按官方的说法使用codecs模块是最简单的一种方式。）

另一份官方文档片段明确说了reponse编码处理方式：

Requests遵循RFC标准，编码使用ISO-8859-1 。

只有当HTTP头部不存在明确指定的字符集，并且Content-Type头部字段包含text值之时， Requests才不去猜测编码方式。

现在直接上实验结果，在原始代码中添加以下代码片段：

点击(此处)折叠或打开

print(req.headers['content-type'])
print(req.encoding)
print(req.apparent_encoding)
print(requests.utils.get_encodings_from_content(page_content.text))
输出结果分别是：

text/html

ISO-8859-1#response内容的编码

utf-8#response headers里设置的编码

['utf-8']#response返回的html header标签里设置的编码

返回的内容是采用‘ISO-8859-1’，所以出现了乱码，而实际上我们应该采用‘utf-8’编码

总结：当response编码是‘ISO-8859-1’，我们应该首先查找response header设置的编码；如果此编码不存在，查看返回的Html的header设置的编码，代码如下：

点击(此处)折叠或打开

if req.encoding=='ISO-8859-1':
encodings= requests.utils.get_encodings_from_content(req.text)
if encodings:
encoding= encodings[0]
else:
encoding= req.apparent_encoding
encode_content= req.content.decode(encoding,'replace').encode('utf-8','replace')

⑤ python3，pycharm,写爬虫时遇到打印的结果乱码，希望得到大神的帮助，谢谢啦

这个问题主要是编码问题，一般需要检查系统设置、ide设置、python代码里的编码，一致改成utf8一般就没问题。
windows中文默认是gbk，ide就要相应改成gbk才能显示完整

⑥ python编程中中文输出乱码UnicodeEncodeError: 'ascii' codec can't encode character

楼主你好！

其实按照你的代码的逻辑来做是没有错的，无法显示成utf-8编码的文本其实是因为在request请求的时候，按照网页的标识转了码，接着BeautifulSoup把已经是utf-8的文本又强转了一次utf-8编码，导致了无法正确的显示，以想要拿到的时间为例，其实程序的目标字符串应该如下：

#-*-coding:utf-8-*-

'''我们想要使用的字符串'''
target_str=':53'

'''两次转码后的字符串'''
get_str=u':53'

归根结底是两个对象的类不同，但python不支持这两种类型的强转，个人想了个比较临时的解决方案，算是个python打了个补丁，就是将字符串转成二进制，再转回字符串，这样就unicode就不用给他加上编码方式再转成二进制字符串了，修改后的代码如下：

#-*-coding:utf-8-*-
importrequests
frombs4importBeautifulSoup
fromdatetimeimportdatetime

defencode(s):
'''将字符串转成二进制'''
return''.join([bin(ord(c)).replace('0b','')forcins])

defdecode(s):
'''将二进制转换成字符串'''
return''.join([chr(i)foriin[int(b,2)forbins.split('')]])

res=requests.get('
)
res.encodeing='utf-8'

soup=BeautifulSoup(res.text,'html.parser')

'''每个中文字符都进行转换处理'''
title=decode(encode(soup.select('#artibodyTitle')[0].text))
time=decode(encode(soup.select('.time-source')[0].contents[0].strip()))

chinese='%Y年%m月%d日%H:%M'
timesource=datetime.strptime(time,chinese)
print(title)
print(timesource)

看楼主在研究的过程中，对字符串的编码原理的理解还有所欠缺，这方面的资料在网上很多，可以再自行研究一下，能够获得长足的进步。

望采纳，谢谢！

⑦ python命令行输入中文乱码怎么办

python2.X，代码中指定了UTF-8，但是在cmd命令行窗口时，打印的中文仍然会乱码。

在python3不存在该问题

运行结果：

原因

中文windows默认的输出编码为gbk ，与脚本中定义的UTF-8不一样，所以出现了解码失败的情况。

导航:首页 > 编程语言 > python打印网页乱码

python打印网页乱码

与python打印网页乱码相关的资料