1. python3 中文輸出亂碼問題
python 3和2很大區別就是python本身改為默認用unicode編碼。
字元串不再區分"abc"和u"abc", 字元串"abc"默認就是unicode,不再代表本地編碼、
由於有這種內部編碼,像c#和java類似,再沒有必要在語言環境內做類似設置編碼,比如「sys.setdefaultencoding」;
也因此也python 3的代碼和包管理上打破了和2.x的兼容。2.x的擴展包要適應這種情況改寫。
另一個問題是語言環境內只有unicode怎麼輸出gbk之類的本地編碼。
答按慣例都在(序列化)輸出時才轉換成本地編碼。
比如
file.write("GBK的中文".encode("GBK"))
python環境內字元串用str.encode("GBK")方法輸出成位元組串用於和其他環境交流。
2. python爬蟲爬到的中文亂碼怎麼辦
爬到的內容,肯定是某種編碼格式(utf-8/gb2312等)的字元串。只需要對它相應的decode一下就可以了。
比如:如果網頁內容是utf-8編碼的,就:'xxx'.decode('utf-8');
如果是gb2312編碼的,就:'xxx'.decode('gb2312')
3. python爬蟲抓取到的數據用網頁打開時是亂碼,怎麼解決
寫爬蟲是經常會遇到這樣的問題,這種問題很顯然是編碼問題,解決的方法其實也不難。
你可以用下面的兩個方法來解決你的編碼問題:
第一種是,通過瀏覽器打開你寫的html之後,找到瀏覽器中的文字編碼修改,將編碼改為Unicode編碼,即可修復。
第二種方法是修改你的前端代碼:在你的代碼output_html方法中,規定網頁的文字編碼即可
4. 怎麼解決Python3亂碼問題
如果是Python文件用編輯器打開時出現亂碼,將編輯器調試成utf-8或者gb2312顯示。如果是運行Python文件時顯示亂碼,則修改Python文件,在文件頂部添加:#
code
=
utf-8
5. python3爬蟲抓取網頁亂碼怎麼解決
Python寫程序原則是所有進來的字元串(讀文件,爬網頁),一進來就decode,處理完之後在要輸出的地方在encode。題主讀入(read)和輸出(print)在一行里,要在win下面想不出錯就這么寫 print response.decode('utf-8').encode('gbk')
6. 為什麼Python寫的爬蟲有時候抓取的數據是亂碼
為什麼Python寫的爬蟲有時候抓取的數據是亂碼
寫爬蟲是經常會遇到這樣的問題,這種問題很顯然是編碼問題,解決的方法其實也不難。
你可以用下面的兩個方法來解決你的編碼問題:
第一種是,通過瀏覽器打開你寫的html之後,找到瀏覽器中的文字編碼修改,將編碼改為Unicode編碼,即可修復。
xml takes all the pain out of XML. Stephan Richter lxml是Python語言里和XML以及HTML工作的功能最豐富和最容易使用的庫
7. python3,pycharm,寫爬蟲時遇到列印的結果亂碼,希望得到大神的幫助,謝謝啦
這個問題主要是編碼問題,一般需要檢查系統設置、ide設置、python代碼里的編碼,一致改成utf8一般就沒問題。
windows中文默認是gbk,ide就要相應改成gbk才能顯示完整
8. python編寫爬蟲爬到的中文字元總是亂碼,r.encoding也不行
這個頁面是gb2312編碼的,不是utf-8