python字元編碼使用的是什麼編碼_python3字元串都是什麼編碼

① python語言中的如何輸入編號叫什麼

Python 默認腳本文件都是 ANSCII 編碼的，當文件中有非 ANSCII 編碼范圍內的字元的時候就要使用"編碼指示"來修正。一個mole的定義中，如果.py文件中包含中文字元（嚴格的說是含有非anscii字元），則需要在第一行或第二行指定編碼聲明：

# -*- coding=utf-8 -*-或者 #coding=utf-8 其他的編碼如：gbk、gb2312也可以；否則會出現類似:SyntaxError: Non-ASCII character '/xe4' in file ChineseTest.py on line 1, but no encoding declared; see http://www.pytho for details這樣的異常信息；n.org/peps/pep-0263.html

命令查看腳本默認的編碼方式
>>> import sys
>>> sys.getdefaultencoding()
'ascii'
>>>

2.2 python中的編碼與解碼

先說一下python中的字元串類型，在python中有兩種字元串類型，分別是str和unicode，他們都是basestring的派生類；str類型是一個包含Characters represent (at least) 8-bit bytes的序列；unicode的每個unit是一個unicode obj;所以：

len(u'中國')的值是2；len('ab')的值也是2；

在str的文檔中有這樣的一句話：The string data type is also used to represent arrays of bytes, e.g., to hold data read from a file. 也就是說在讀取一個文件的內容，或者從網路上讀取到內容時，保持的對象為str類型；如果想把一個str轉換成特定編碼類型，需要把str轉為Unicode,然後從unicode轉為特定的編碼類型如：utf-8、gb2312等；

2.2.1 print 語句解釋編碼問題

print 是列印默認的編碼方式，相當於對任何對象encode編碼轉化成str對象。默認是gbk的編碼就是對Unicode進行自動的gbk編碼，再按照gbk編碼輸出。

當print語句碰到一個unicode目標的時候，會用當前python shell環境的默認編碼格式首先對unicode對象進行encode（此時unicode對象已經變成了一個str對象了），然後再以默認編碼格式為基礎，根據其包含的漢字和編碼的對應規則，把這個str對象解釋成中文並顯示出來。但是當print語句碰到的直接是個str目標的時候，就不管其從unicode轉到str時用的編碼格式是什麼，直接用默認編碼格式的對應規則來解釋成中文。所以，當unicode對象轉換成str時的編碼格式和print語句的默認編碼格式不一致的時候就會出現亂碼現象。比如在cmd的python shell裡面：

復制代碼
復制代碼
證明Python 系統默認編碼gbk
>>> s= '你好'
>>> s
'\xc4\xe3\xba\xc3'
>>> s = u'你好'
>>> s
u'\xc4\xe3\xba\xc3'
>>> s = '你好'
>>> s
'\xc4\xe3\xba\xc3'
>>> print type(s)
<type 'str'>
>>>unicode 編碼列印錯誤，print 解析字元串而不是Unicode 編碼
>>> s = u'你好'
>>> print s
ÄãºÃ
>>>uni = u'你好' #存入一個unicode對象
>>>print uni
你好 #可以正常顯示相當於Unicode.encode（gbk）
>>>uni.encode("gbk")
'\xc4\xe3\xba\xc3' #顯示的是個str對象了，如果type(uni.encode("gbk"))得到的就是str對象
>>>print uni.encode("gbk")
你好 #可以正常顯示，因為在cmd下的pythonshell里默認個編碼格式就是gbk，gbk解析
>>>uni.encode("utf-8")
'\xe4\xbd\xa0\xe5\xa5\xbd' #可以看到，encode用的編碼格式不同，編成的字元串也是不同的
>>>print uni.encode("utf-8")
浣犲ソ #亂碼，因為用了gbk中漢字和字元串編碼格式對應規則去解釋了用utf-8編碼成的字元串。解釋的編碼格式不對應。
#######さらに######
>>>print '\xc4\xe3' #自己寫出來的這么個字元串（前面不加r）的話也會被print解釋成中文，按照編碼格式輸出
你
>>>print uni.encode("utf-8").decode("gbk")
浣犲ソ
'''
亂碼，而且和上面的亂碼一樣，這是因為，在uni被utf-8 encode之後，這個對象變成了str對象，是'\xe4\xbd\xa0\xe5\xa5\xbd' 這個。
後來，它又被按照gbk的規則解碼，又變回了unicode，但是此時它在內存里的二進制數據已經和最初的uni不一樣了。
最初的uni，應該是'\xc4\xe3\xba\xc3'.decode("gbk")，而現在的這個東西，他decode之前的字元串已經變過了。
這么一個東西再拿去print，又把它編碼成了gbk格式，相當於前面那步decode沒有做，變回了'\xe4\xbd\xa0\xe5\xa5\xbd'。
再解釋成漢字，當然就和最開始用uni編碼成utf-8格式再解釋成漢字的亂碼一樣了
'''

復制代碼

2.2.2 腳本print 列印的正確方式

上面已經證明了系統的默認編碼方式是gbk，就是print 最後正確的編碼方式應該是gbk

兩種解決編碼不匹配的情況：

一是明確的指示出 s 的編碼方式
# -*- coding: utf-8 -*-
s = '中文'
s.decode('utf-8').encode('gb2312')
二是更改 sys.defaultencoding 為文件的編碼方式
#! /usr/bin/env python
# -*- coding: utf-8 -*-
import sys
reload(sys) # Python2.5 初始化後會刪除 sys.setdefaultencoding 這個方法，我們需要重新載入
sys.setdefaultencoding('utf-8')
str = '中文'
str.encode('gb2312')

三、實踐經驗中爬取數據的獲得

復制代碼
# -*- coding: utf-8 -*-
'''
#加油兩個字可以很好的比較編碼正確和錯誤
#### 錯誤的處理方式，
s = "中文"
print s
#這里print就不是輸出gbk的編碼，是按照頭文件utf-8的格式輸出
# 結果：中文
print s.decode('utf-8')
#結果中文，s進行解碼稱為Unicode，print列印就和系統print列印一樣自動將Unicode進行
#解碼，不用encode編碼也能輸出，但是最好轉化成為字元串輸出。
上面實例就是錯誤使用編碼，錯誤使用編碼會出現個別字體的亂碼。
'''

'''
要點1、聲明頭文件# -*- coding: utf-8 -*- 說明所有的代碼和中文是utf-8的編碼方式
要點2、print輸出函數輸出到前台cmd中的默認系統編碼方式是GBK，
要點3、盡量將Unicode轉化成為字元串str （gbk或者utf-8），再去處理。

#unicode 轉化成為字元串
s = u'加油'
print s
#結果：加油。原因：系統自動將Unicode升級gbk編碼成為字元串，然後系統print 列印gbk
print s.encode('utf-8')
#結果：鍔犳補。錯誤原因：Unicode 編碼成為utf-8的字元串形式，但是print列印系統是gbk的，編碼沖突。
print s.encode('gbk')
#結果：加油。原因：和print s等價，認為編碼了gbk，系統列印
ss = "加油"
print ss
#結果：鍔犳補。原因：ss為utf-8的字元串str，print 列印的對應編碼字元串是gbk的，所以編碼沖突。
print ss.decode('utf-8').encode('gbk')
#結果：加油。原因：ss首先從字元串編碼utf-8解碼成為unicode，然後進行編碼gbk，等價使用print ss.decode('utf-8')。
'''

'''
3.1python中關於中文轉換url編碼的問題
爬蟲的時候我們經常會碰到中文鏈接編碼出現變換的問題，
例如'麗江'中文在url的地址編碼卻是'%E4%B8%BD%E6%B1%9F'，
因此需要做一個轉換。這里我們就用到了模塊urllib。
'''
import urllib
data = '麗江'
print data.decode('utf-8').encode('gbk')
#對utf-8的中文編碼
print urllib.quote(data)
#那我們想轉回去呢？
print urllib.unquote('%E4%B8%BD%E6%B1%9F').decode('utf-8').encode('gbk')

'''
'麗江'在網頁編碼是gbk的轉換碼是'%C0%F6%BD%AD'，utf-8中的轉化碼是'%E4%B8%BD%E6%B1%9F'，其實是編碼問題。
網路的是gbk，其他的一般網站比如google就是utf8的。所以可以用下列語句實現。
'''

#江蘇課題的編碼轉化
import sys,urllib
s = '江蘇'
print urllib.quote(s.decode(sys.stdin.encoding).encode('gbk'))
print urllib.quote(s.decode(sys.stdin.encoding).encode('utf8'))

for place in ['南京','無錫','徐州','常州','蘇州','鹽城','南通','連雲港','淮安','鹽城','揚州']:
print urllib.quote(place)

####################
#結果:
'''
>>>
麗江
%E4%B8%BD%E6%B1%9F
麗江
%E4%B8%BD%E6%B1%9F
%E6%B6%93%E8%8A%A5%E7%9D%99
>>>
'''

② day-04 總結python字元串

1.什麼是字元串
序列，有序，不可變的
用單引號或者雙引號任意字元集，

2，字元串中的字元
普通字元：ན', 'sdfsdfsd', '+ + (**&^%$#@@', '發技術規范舉案說法'

'''
python中的字元採用的是unicode編碼

1.什麼是編碼
就是數字和字元的一一對應的，其中字元對應的數字就是字元的編碼
a - 97
b - 98

2.編碼方式
ASCII碼表：針對數字字元，字母字元（26個小寫字母和26個大寫字母），一些英文中對應的符號進行編碼
小寫字母要大於大寫字母的編碼值，採用一個位元組對字元進行編碼，只能對128個字元進行編碼

Unicode碼：Unicode碼包含了ASCII碼表，同時能夠對世界上所有語言對應的符號進行編碼，
採用兩個位元組進行編碼，能夠編碼65536個字元

3.兩個函數
chr(編碼值)--將字元編碼值轉化為字元
ord(字元)-- 獲取字元對應的編碼值
中文編碼范圍 0x4e00~~~~~0x9fa5

一旦一個字元串確定了，那麼字元串中每個字元的位置就確定了，而且每個字元會對應一個表示其位置和順序的下標值

1，下標（索引）
字元串中的每一個字元都有一個下標，代表在字元串中的位置
下標范圍是：0到字元串長度---1 0（代表第一個字元的位置）
-1 ~ 字元串長度 -1（代表字元串中最後一個字元的位置）

'abc' # ''

獲取單個字元
語法：字元串[下標]--獲取字元串中指定下標對應的字元
說明字元串--可以是字元串常量，也可以是字元串變數
[]---固定寫法
下標--字元的下標，不能越界。

獲取部分字元
語法：字元串[開始下標:結束下標:步長]
步長-- 一個整數
功能：從開始下標獲取到結束下標前位置，每次下標值增加步長，結果是字元串
注意：當步長是整數，開始下標對應的字元要在結束下標的前面
當步長是負數，開始下標對應的字元要在結束下標的後面

方法2：字元串[開始下表：結束下標]（相當於步長是一）

獲取部分字元，省略下標
獲取部分字元的時候開始下標和結束下標都可以省略
a.開始下標省略
字元串[:結束下標：步長] 或者字元串[:結束下表]
字元串是正數：從字元串開頭開始往後獲取
字元串是負數：從字元串結尾開始往前獲取

結束下標省略
字元串[開始下標：：步長]
步長是正數，從開始下標從前往後獲取到字元串最後
步長是負數，從開始下標從後往前獲取到字元串開始

,加法運算
字元串1 + 字元串2 將兩個字元串拼接在一起，產生一個新的字元串

乘法運算
字元串 * n(正整數)：字元串中的內容重復n次產生一個新的字元串

比較運算符
a. == ！=
字元串1 == 字元串2 ---------判斷兩個字元串是否相等

b.> ,< , >= ,<= (所有的大寫字母編碼都比小寫的編碼小)
兩個字元串比較大下：從第一個開始，找到第一對不同的字元，然後比較他們的編碼值的大小

in 和 not in
字元串1 in 字元串2 :判斷字元串2是否包含字元串1
字元串1 not in 字元串2 :判斷字元串2是否不包含字元串1

len函數
len(序列)------- 獲取序列的長度
len(字元串)----獲取字元串中字元的個數

str函數
str(數據)：將數據轉換成字元串

其他數據轉換成字元串
所有的數據都可以轉換成字元串,轉換的時候就是在數據的值的最外面加引號

補充：系統對應的類型名不能用來給變數命名

字元串轉其他類型
字元串轉整數: int(字元串) 去掉引號後本身就是個整數的字元串才能轉
字元串轉浮點型: Float(字元串)
字元串轉布爾： boll(字元串) ，除了空串會轉化成False，其他的都會轉化成True

格式字元串
指的是字元串中通過格式佔位符來表示字元串中變化，然後後面再通過其他的值來給佔位符賦值
含有格式佔位符的字元串 % （佔位符對應的值）
說明:
含有格式佔位符有固定寫法，可以有多個
%----固定寫法
（）----裡面值的個數要和前面的格式佔位符一一對應
%d--整數
%s--字元串
%f--小數
%c--字元(可以將數字轉換成字元)

字元串.capitalize() - 將字元串第一個字元轉換成大寫

2.字元串對齊
字元串.center(width, fillchar) - 居中
字元串.ljust(width, fillchar) - 左對齊
字元串.rjust(width, fillchar) - 右對齊

width - 正整數，表示新的字元串的寬度
fillchar - 字元，填充字元串

字元串.isalpha 若字元串至少有一個字元，並且所有字元都是字母就返回True，否則返回False

字元串。isdigit（）若字元串中只包含數字就返回True,否則返回False

若字元串中只包含數字字元，則返回True,否則返回 False

3.join(seq)
字元串1.join(字元串2): 將字元串1的內容插入到字元串2的每個字元之間

max(字元串) 編碼最大
min(字元串)

count(str)|返回 str 在 string 裡面出現的次數

|islower()|如果字元串中包含至少一個區分大小寫的字元，並且所有這些(區分大小寫的)字元都是小寫，則返回 True，否則返回 False

expandtabs(tabsize=8)|把字元串 string 中的 tab 符號轉為空格，tab 符號默認的空格數是 8 。

|isspace()|如果字元串中只包含空白，則返回 True，否則返回 False

endswith(suffix)|檢查字元串是否以 obj 結束，如果beg 或者 end 指定則檢查指定的范圍內是否以 obj 結束，如果是，返回 True,否則返回 False.

③ python編程（三級）1、編碼、數制

在計算機中使用的是二進制，（為什麼呢，因為二進制計算簡單，可以用電路表示等等很多優點）。但是二進制對閱讀和使用是不友好的，因此需要將二進制轉換為人類使用的語言，英語，中文等，這就是編碼。

最初的編碼就是ASCII編碼，美國信息交換碼。它使用一個位元組，8位二進制，可以表示128個符號。常用的1-9,26個字母以及一些英語符號等。

ascii表是不能表示中文的，因此中文也有專門的編碼，諸如GB2312，GBK等。其它國家也有類似編碼，因此為了方便信息的交流，也就有了統一編碼，Unicode，又叫萬國碼。unicode用0-65535來表示所有字元，Unicode用2-4個位元組存儲。不同的存儲方式，又不同的編碼，這就是UTF-8，UTF-16，UTF-32。utf-8根據字元數字的大小，來決定存儲位元組，存儲英文字元時用1個位元組，存儲漢字時用2個位元組。utf-16，兩個位元組，utf-32，四個位元組。

python3 在內存中使用的是Unicode，萬國碼，默認的編碼是utf-8。

chr() ，轉換為對應Unicode表字元

ord()，轉換為對於Unicode表數字

encode()，編碼，將str轉換為位元組流

decode()，解碼，將位元組流轉換為str

計算機存儲數據的格式是二進制，日常和數學中使用的數字是十進制，為了表達簡化，因此有了十六進制、八進制。

二進制---->十進制---->八進制---》十六進制

10000001 ---》129 ---》201---》81

從上式可以看出來，進制越大，表達更大數時更簡化。

二進制轉十進制，按權展開相加

十進制轉二進制，除基取余

二進制轉八進制，從右往左，取3位轉換為十進製得到即為8進制，不足3位左邊補0。

八進制轉二進制，每位展開得到3個二進制位

二進制轉十六進制，，從右往左，取4位轉換為十進製得到即為16進制，不足3位左邊補0。

十六進制轉二進制，每位展開得到四個二進制位

int() ，

hex()，轉換為16進制

bin()，轉換為二進制

oct()，轉換為八進制

④ python3字元串都是什麼編碼

編碼

字元串是一種數據類型，但是，字元串比較特殊的是還有一個編碼問題。

因為計算機只能處理數字，如果要處理文本，就必須先把文本轉換為數字才能處理。最早的計算機在設計時採用8個比特（bit）作為一個位元組（byte），所以，一個位元組能表示的最大的整數就是255（二進制11111111=十進制255），如果要表示更大的整數，就必須用更多的位元組。比如兩個位元組可以表示的最大整數是65535，4個位元組可以表示的最大整數是4294967295。

由於計算機是美國人發明的，因此，最早只有127個字母被編碼到計算機里，也就是大小寫英文字母、數字和一些符號，這個編碼表被稱為ASCII編碼，比如大寫字母A的編碼是65，小寫字母z的編碼是122。

Unicode

Unicode把所有語言都統一到一套編碼里，這樣就不會再有亂碼問題了。

Unicode標准也在不斷發展，但最常用的是用兩個位元組表示一個字元（如果要用到非常偏僻的字元，就需要4個位元組）。現代操作系統和大多數編程語言都直接支持Unicode。

現在，捋一捋ASCII編碼和Unicode編碼的區別：ASCII編碼是1個位元組，而Unicode編碼通常是2個位元組。

字母A用ASCII編碼是十進制的65，二進制的01000001；

字元0用ASCII編碼是十進制的48，二進制的00110000，注意字元'0'和整數0是不同的；

漢字已經超出了ASCII編碼的范圍，用Unicode編碼是十進制的20013，二進制的01001110 00101101。

如果把ASCII編碼的A用Unicode編碼，只需要在前面補0就可以，因此，A的Unicode編碼是00000000 01000001。

新的問題又出現了：如果統一成Unicode編碼，亂碼問題從此消失了。但是，如果你寫的文本基本上全部是英文的話，用Unicode編碼比ASCII編碼需要多一倍的存儲空間，在存儲和傳輸上就十分不劃算。

所以，又出現了把Unicode編碼轉化為「可變長編碼」的UTF-8編碼。UTF-8編碼把一個Unicode字元根據不同的數字大小編碼成1-6個位元組，常用的英文字母被編碼成1個位元組，漢字通常是3個位元組，只有很生僻的字元才會被編碼成4-6個位元組。如果你要傳輸的文本包含大量英文字元，用UTF-8編碼就能節省空間：

字元

ASCII

Unicode

UTF-8

A 01000001 00000000 01000001 01000001

中 x 01001110 00101101 11100100 10111000 10101101

從上面的表格還可以發現，UTF-8編碼有一個額外的好處，就是ASCII編碼實際上可以被看成是UTF-8編碼的一部分，所以，大量只支持ASCII編碼的歷史遺留軟體可以在UTF-8編碼下繼續工作。

搞清楚了ASCII、Unicode和UTF-8的關系，我們就可以總結一下現在計算機系統通用的字元編碼工作方式：

在計算機內存中，統一使用Unicode編碼，當需要保存到硬碟或者需要傳輸的時候，就轉換為UTF-8編碼。

用記事本編輯的時候，從文件讀取的UTF-8字元被轉換為Unicode字元到內存里，編輯完成後，保存的時候再把Unicode轉換為UTF-8保存到文件：

瀏覽網頁的時候，伺服器會把動態生成的Unicode內容轉換為UTF-8再傳輸到瀏覽器：

所以你看到很多網頁的源碼上會有類似<meta charset="UTF-8" />的信息，表示該網頁正是用的UTF-8編碼。

Python的字元串

在最新的Python 3版本中，字元串是以Unicode編碼的，也就是說，Python的字元串支持多語言，例如：

>>> print('包含中文的str')
包含中文的str

對於單個字元的編碼，Python提供了ord()函數獲取字元的整數表示，chr()函數把編碼轉換為對應的字元：

1個中文字元經過UTF-8編碼後通常會佔用3個位元組，而1個英文字元只佔用1個位元組。

在操作字元串時，我們經常遇到str和bytes的互相轉換。為了避免亂碼問題，應當始終堅持使用UTF-8編碼對str和bytes進行轉換。

Python源代碼也是一個文本文件，所以，當你的源代碼中包含中文的時候，在保存源代碼時，就需要務必指定保存為UTF-8編碼。當Python解釋器讀取源代碼時，為了讓它按UTF-8編碼讀取，我們通常在文件開頭寫上這兩行

#!/usr/bin/env python3# -*- coding: utf-8 -*-

第二行注釋是為了告訴Python解釋器，按照UTF-8編碼讀取源代碼，否則，你在源代碼中寫的中文輸出可能會有亂碼。

格式化：

在Python中，採用的格式化方式和C語言是一致的，用%實現，舉例如下：

format % (...params)
>>> 'Hello, %s' % 'world''Hello, world'>>> 'Hi, %s, you have $%d.' % ('Michael', 1000000)'Hi, Michael, you have $1000000.'

%運算符就是用來格式化字元串的。在字元串內部，%s表示用字元串替換，%d表示用整數替換，%x表示16進制整數，有幾個%?佔位符，後面就跟幾個變數或者值，順序要對應好。如果只有一個%?，括弧可以省略。

格式化整數和浮點數還可以指定是否補0和整數與小數的位數：

>>> '%2d-%02d' % (3, 1)' 3-01'>>> '%.2f' % 3.1415926'3.14'

有些時候，字元串裡面的%是一個普通字元怎麼辦？這個時候就需要轉義，用%%來表示一個%：

>>> 'growth rate: %d %%' % 7'growth rate: 7 %'

⑤ Python 編碼轉換與中文處理

python 中的 unicode 是讓人很困惑、比較難以理解的問題. 這篇文章寫的比較好， utf-8是 unicode的一種實現方式，unicode、gbk、gb2312是編碼字元集.

Python 默認腳本文件都是 ANSCII 編碼的，當文件中有非 ANSCII 編碼范圍內的字元的時候就要使用" 編碼指示 "來修正一個 mole 的定義中，如果.py文件中包含中文字元（嚴格的說是含有非anscii字元），則需要在第一行或第二行指定編碼聲明： # -*- coding=utf-8 -*- 或者 #coding=utf-8
其他的編碼如：gbk、gb2312也可以；否則會出現:

先說一下python中的字元串類型，在python中有兩種字元串類型，分別是 str 和 unicode ，他們都是basestring的派生類；

在str的文檔中有這樣的一句話：

也就是說在讀取一個文件的內容，或者從網路上讀取到內容時，保持的對象為str類型；如果想把一個str轉換成特定編碼類型，需要把str轉為Unicode,然後從unicode轉為特定的編碼類型如：utf-8、gb2312等。

unicode 轉為 gb2312,utf-8等,使用 encode(encoding)

utf-8,GBK轉換為 unicode 使用 unicode(s,encoding) 或者 s.decode(encoding)

普通的 str 轉為 unicode,

如果直接執行s.encode('gb2312')會發生什麼？

這里會發生一個異常：Python 會自動的先將 s 解碼為 unicode ，然後再編碼成 gb2312。因為解碼是python自動進行的，我們沒有指明解碼方式，python 就會使用 sys.defaultencoding 指明的方式來解碼。很多情況下 sys.defaultencoding 是 ANSCII，如果 s 不是這個類型就會出錯。
拿上面的情況來說，我的 sys.defaultencoding 是 anscii，而 s 的編碼方式和文件的編碼方式一致，是 utf8 的，所以出錯了:

對於這種情況，我們有兩種方法來改正錯誤：

s = '中文'
s.decode('utf-8').encode('gb2312') ```

import sys
reload(sys) # Python2.5 初始化後會刪除 sys.setdefaultencoding 這個方法，我們需要重新載入
sys.setdefaultencoding('utf-8')
str = '中文'
str.encode('gb2312')

print open("Test.txt").read()

import codecs
print open("Test.txt").read().decode("utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
print open("Test.txt").read().decode("utf-8")
UnicodeEncodeError: 'gbk' codec can't encode character u'ufeff' in position 0: illegal multibyte sequence

import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

s = "中文"
print unicode(s, "utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
s = unicode(s, "utf-8")
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data

s = "中文"
print unicode(s, "gbk")

s = "中文"
print unicode(s, "cp936")

⑥ python默認的字元編碼是什麼

Python的默認編碼是ASCII格式：

ASCII(American Standard Code for Information Interchange)，是一種單位元組的編碼。計算機世界裡一開始只有英文，而單位元組可以表示256個不同的字元，可以表示所有的英文字元和許多的控制符號；
源代碼文件中，如果有用到非ASCII字元，則需要在文件頭部進行字元編碼的聲明，如下：#-*- coding: UTF-8 -*-
實際上Python只檢查#、coding和編碼字元串，其他的字元都是為了美觀加上的。另外，Python中可用的字元編碼有很多，並且還有許多別名，還不區分大小寫，比如UTF-8可以寫成u8。

⑦ python是什麼編碼格式

python編碼總結：
1).首先python有兩種格式的字元串，str和unicode，其中unicode相當於位元組碼那樣，可以跨平台使用。
str轉化為unicode可以通過unicode()，u，str.decode三種方式
unicode轉化為str，如果有中文的話，一般通過encode的方式
2).如果代碼中有中文的話，我們一般會添加 "# coding=utf-8"，這個是什麼作用呢，一般如下：
如果代碼中有中文注釋，就需要此聲明比較高級的編輯器（比如我的emacs），會根據頭部聲明，將此作為代碼文件的格式。程序會通過
頭部聲明，解碼初始化 u」人生苦短」，這樣的unicode對象，（所以頭部聲明和代碼的存儲格式要一致
所以，當我們填上編碼頭的時候，使用s="中文"，實際上type(s)是一個str，是已經將unicode以utf-8格式編碼成str。
其次，如果我們在代碼中使用s=u'中文'，相當於將str以utf-8解碼成unicode。
推薦學習《python教程》。

⑧ 怎麼在Python里使用UTF-8編碼

概述

在python代碼即.py文件的頭部聲明即可

解析

py文件中的編碼

Python 默認腳本文件都是 ANSCII 編碼的，當文件中有非 ANSCII 編碼范圍內的字元的時候就要使用"編碼指示"來修正一個 mole 的定義中，如果.py文件中包含中文字元（嚴格的說是含有非anscii字元），則需要在第一行或第二行指定編碼聲明：

# -*- coding=utf-8 -*-
#coding=utf-8
# 以上兩種選其一即可

其他的編碼如：gbk、gb2312也可以；否則會出現:

SyntaxError: Non-ASCII character 'xe4' in file test.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

python中的編碼與解碼

先說一下python中的字元串類型，在python中有兩種字元串類型，分別是 str 和 unicode，他們都是basestring的派生類；

str類型是一個包含Characters represent (at least) 8-bit bytes的序列；

unicode 的每個 unit 是一個 unicode obj;

在str的文檔中有這樣的一句話：

The string data type is also used to represent arrays of bytes, e.g., to hold data read from a file.

拓展內容

utf-8編碼

UTF-8（8-bit Unicode Transformation Format）是一種針對Unicode的可變長度字元編碼，也是一種前綴碼。它可以用來表示Unicode標准中的任何字元，且其編碼中的第一個位元組仍與ASCII兼容，這使得原來處理ASCII字元的軟體無須或只須做少部分修改，即可繼續使用。因此，它逐漸成為電子郵件、網頁及其他存儲或發送文字的應用中，優先採用的編碼。

UTF-8使用一至六個位元組為每個字元編碼（盡管如此，2003年11月UTF-8被RFC 3629重新規范，只能使用原來Unicode定義的區域，U+0000到U+10FFFF，也就是說最多四個位元組）：

1、128個US-ASCII字元只需一個位元組編碼（Unicode范圍由U+0000至U+007F）。

2、帶有附加符號的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文及它拿字母則需要兩個位元組編碼（Unicode范圍由U+0080至U+07FF）。

3、其他基本多文種平面（BMP）中的字元（這包含了大部分常用字，如大部分的漢字）使用三個位元組編碼（Unicode范圍由U+0800至U+FFFF）。

4、其他極少使用的Unicode輔助平面的字元使用四至六位元組編碼（Unicode范圍由U+10000至U+1FFFFF使用四位元組，Unicode范圍由U+200000至U+3FFFFFF使用五位元組，Unicode范圍由U+4000000至U+7FFFFFFF使用六位元組）。

對上述提及的第四種字元而言，UTF-8使用四至六個位元組來編碼似乎太耗費資源了。但UTF-8對所有常用的字元都可以用三個位元組表示，而且它的另一種選擇，UTF-16編碼，對前述的第四種字元同樣需要四個位元組來編碼，所以要決定UTF-8或UTF-16哪種編碼比較有效率，還要視所使用的字元的分布范圍而定。不過，如果使用一些傳統的壓縮系統，比如DEFLATE，則這些不同編碼系統間的的差異就變得微不足道了。若顧及傳統壓縮演算法在壓縮較短文字上的效果不大，可以考慮使用Unicode標准壓縮格式（SCSU）。

互聯網工程工作小組（IETF）要求所有互聯網協議都必須支持UTF-8編碼。互聯網郵件聯盟（IMC）建議所有電子郵件軟體都支持UTF-8編碼。

⑨ Python 字元集編碼 - UTF-8 編碼

Unicode 的編碼范圍為 0~0x10FFFF ，如此大的范圍，顯然沒辦法像 ASCII 編碼一樣使用一個位元組存儲。為此，Unicode 制定了各種儲存編碼的方式，如： UTF-8 、 UTF-16 和 UTF-32 ，這些存儲格式被稱為 Unicode 轉換格式 UTF 。

每種 Unicode 轉換格式都會把一個編碼存儲為一到多個編碼單元，如 UTF-8 的編碼單元為 8 位的位元組； UTF-16 的編碼單元為 16 位，即 2 個位元組； UTF-32 的編碼單元為 32 位，即 4 個位元組。

其中， UTF-8 是在互聯網上使用最廣泛的一種 Unicode 轉換格式，具有以下顯著的優勢。下面，我們就先來看看 UTF-8 具有哪些有點吧~

1. UTF-8 中每個 ASCII 字元只需要一個位元組去存儲，因此一個 ASCII 文本本身也是一個 UTF-8 文本，即做到了向後兼容。

比如 A 的 ASCII 碼對應為 0x41 ， a 的 ASCII 碼對應為 0x61 ，那麼 UTF-8 兼容 ASCII 也就意味著：

這里，需要再次提醒一下：Unicode 是表現形式，UTF-8 是存儲形式；即 UTF-8 解碼之後為 Unicode ，Unicode 可以編碼成 UTF-8 。

2. UTF-8 採用位元組為存儲單元，因此不存在位元組的大端和小段的問題。

UTF-16 和 UTF-32 的存儲單元分別是 2 位元組和 4 位元組，因此在存儲時會涉及到大小端的問題。那什麼是大小端模式呢？下面我們來暫停補充一下~

關於如何獲知你的環境使用的是大端模式還是小端模式，這里有個簡單的方式：定義一個 short 類型的數組即可：

數字 1 在 short 類型中表示為 0x0001 ，高位為 0x00 ，低位為 0x01 。我們可以很直觀地看到，數組在保存數據時，將高位 0x00 放在了高地址處，將低位 0x01 放在了低地址處。因此使用的就是小端模式。

那 UTF-8 為什麼可以使用位元組來作為存儲單元，而不用擔心位元組序的問題呢？這就涉及到了 UTF-8 巧妙的編碼規則~

UTF-8 最大的一個特點，就是它是一種變長的編碼方式。它可以使用 1~4 個位元組表示一個符號，根據不同的符號而變化位元組長度。UTF-8的編碼規則很簡單，只有二條：

1）對於單位元組符號，位元組的第一位設為 0 ，後 7 位為這個符號的 Unicode 碼。也就是我們上文提到的向後兼容：對於英文字母，UTF-8 編碼和 ASCII 碼是相同的。

2）對於使用 X 個位元組存儲的符號，第一個位元組的前 X 位設置為 1 ，第 X+1 位設置為 0 ，後面位元組的前 2 位一律設置為 10 ，剩下的位置一次填充這個符號的 Unicode 碼。

下表總結了編碼規則，字母 x 表示可用於編碼的位：

跟據上表，解讀 UTF-8 編碼也非常簡單：如果一個位元組的第一位是 0 ，則這個位元組單獨就是一個字元；如果第一位是 1 ，則連續有多少個 1 ，就表示當前字元佔用多少個位元組。

下面，我們就來演示一下 UTF-8 編碼的過程。

首先，獲取漢字魚的 Unicode 碼：

我們不妨先對魚這個漢字使用 utf-8 編碼看看使用幾個位元組存儲：

魚在 UTF-8 編碼中使用 3 個位元組存儲，因此其存儲的二進制的形式為 1110xxxx 10xxxxxx 10xxxxxx ，將 Unicode 1001 110001 111100 依次填充到佔位符 x 的位置就得到： 11101001 10110001 10111100 。

下面，我們將上述推導得出的 11101001 10110001 10111100 轉換為十六進制，驗證一下是否為 b'xe9xb1xbc' ：

驗證無誤！

導航:首頁 > 編程語言 > python字元編碼使用的是什麼編碼

python字元編碼使用的是什麼編碼

概述

解析

拓展內容

與python字元編碼使用的是什麼編碼相關的資料