導航:首頁 > 編程語言 > pythonmbcs編碼

pythonmbcs編碼

發布時間:2022-07-10 15:43:02

A. python (win7 ),sys.getfilesystemencoding()得到的是 'mbcs' 而在Ubuntu 中得到'utf8',區別和影響

mbcs就是本地編碼,中文一般就是GBK,其它的就不清楚了。UTF8就是Unicode編碼的一種。

B. python中string.lowercase是什麼意思 有什麼用

獲取文件系統使用編碼方式,Windows下返回'mbcs',mac下返回'utf-8'.
sys.path: 獲取指定模塊搜索路徑的字元串集合,可以將寫好的模塊放在得到的某個路徑下,就可以在程序中import時正確找到。

C. 求幫助,編碼轉換的問題 python 3.4.0

一 預備知識

字元集
1, 常用字元集分類
ASCII及其擴展字元集
作用:表語英語及西歐語言。
位數:ASCII是用7位表示的,能表示128個字元;其擴展使用8位表示,表示256個字元。
范圍:ASCII從00到7F,擴展從00到FF。
ISO-8859-1字元集
作用:擴展ASCII,表示西歐、希臘語等。
位數:8位,
范圍:從00到FF,兼容ASCII字元集。
GB2312字元集
作用:國家簡體中文字元集,兼容ASCII。
位數:使用2個位元組表示,能表示7445個符號,包括6763個漢字,幾乎覆蓋所有高頻率漢字。
范圍:高位元組從A1到F7, 低位元組從A1到FE。將高位元組和低位元組分別加上0XA0即可得到編碼。
BIG5字元集
作用:統一繁體字編碼。
位數:使用2個位元組表示,表示13053個漢字。
范圍:高位元組從A1到F9,低位元組從40到7E,A1到FE。
GBK字元集
作用:它是GB2312的擴展,加入對繁體字的支持,兼容GB2312。
位數:使用2個位元組表示,可表示21886個字元。
范圍:高位元組從81到FE,低位元組從40到FE。
GB18030字元集
作用:它解決了中文、日文、朝鮮語等的編碼,兼容GBK。
位數:它採用變位元組表示(1 ASCII,2,4位元組)。可表示27484個文字。
范圍:1位元組從00到7F; 2位元組高位元組從81到FE,低位元組從40到7E和80到FE;4位元組第一三位元組從81到FE,第二四位元組從30到39。
UCS字元集
作用:國際標准 ISO 10646 定義了通用字元集 (Universal Character Set)。它是與UNICODE同類的組織,UCS-2和UNICODE兼容。
位數:它有UCS-2和UCS-4兩種格式,分別是2位元組和4位元組。
范圍:目前,UCS-4隻是在UCS-2前面加了0×0000。
UNICODE字元集
作用:為世界650種語言進行統一編碼,兼容ISO-8859-1。
位數:UNICODE字元集有多個編碼方式,分別是UTF-8,UTF-16和UTF-32。
2 ,按所表示的文字分類
語言 字元集 正式名稱
英語、西歐語 ASCII,ISO-8859-1 MBCS 多位元組
簡體中文 GB2312 MBCS 多位元組
繁體中文 BIG5 MBCS 多位元組
簡繁中文 GBK MBCS 多位元組
中文、日文及朝鮮語 GB18030 MBCS 多位元組
各國語言 UNICODE,UCS DBCS 寬位元組
編碼
UTF-8:採用變長位元組 (1 ASCII, 2 希臘字母, 3 漢字, 4 平面符號) 表示,網路傳輸, 即使錯了一個位元組,不影響其他位元組,而雙位元組只要一個錯了,其他也錯了,具體如下:
如果只有一個位元組則其最高二進制位為0;如果是多位元組,其第一個位元組從最高位開始,連續的二進制位值為1的個數決定了其編碼的位元組數,其餘各位元組均以10開頭。UTF-8最多可用到6個位元組。

UTF-16:採用2位元組,Unicode中不同部分的字元都同樣基於現有的標准。這是為了便於轉換。從 0×0000到0×007F是ASCII字元,從0×0080到0×00FF是ISO-8859-1對ASCII的擴展。希臘字母表使用從0×0370到 0×03FF 的代碼,斯拉夫語使用從0×0400到0×04FF的代碼,美國使用從0×0530到0×058F的代碼,希伯來語使用從0×0590到0×05FF的代 碼。中國、日本和韓國的象形文字(總稱為CJK)佔用了從0×3000到0×9FFF的代碼;由於0×00在c語言及操作系統文件名等中有特殊意義,故很 多情況下需要UTF-8編碼保存文本,去掉這個0×00。舉例如下:
UTF-16: 0×0080 = 0000 0000 1000 0000
UTF-8: 0xC280 = 1100 0010 1000 0000
UTF-32:採用4位元組。
優缺點
UTF-8、UTF-16和UTF-32都可以表示有效編碼空間 (U+000000-U+10FFFF) 內的所有Unicode字元。
使用UTF-8編碼時ASCII字元只佔1個位元組,存儲效率比較高,適用於拉丁字元較多的場合以節省空間。
對於大多數非拉丁字元(如中文和日文)來說,UTF-16所需存儲空間最小,每個字元只佔2個位元組。
Windows NT內核是Unicode(UTF-16),採用UTF-16編碼在調用系統API時無需轉換,處理速度也比較快。
採用UTF-16和UTF-32會有Big Endian和Little Endian之分,而UTF-8則沒有位元組順序問題,所以UTF-8適合傳輸和通信。
UTF-32採用4位元組編碼,一方面處理速度比較快,但另一方面也浪費了大量空間,影響傳輸速度,因而很少使用。

D. 我用Python跳出來一個彈窗是怎麼回事

你這是遇到編碼問題了,encode報錯,你對你的mbcs變數,在出錯的代碼那個位置前設置下mbcs.encode('utf8')
你最好把出錯的位置上下文的代碼貼出來

E. 關於python中字元編碼的問題

你說的是,把字元串:
\u3232\u6674
本身,轉換為unicode字元吧?

那麼可以通過:
slashUStr = "\\u3232\\u6674";
decodedUniChars = slashUStr.decode("unicode-escape");
print "decodedUniChars=",decodedUniChars; #decodedUniChars= (有) 晴

註:(有) 是個特殊字元,如果想要在cmd(默認為gbk)中列印,會出錯的。
UnicodeEncodeError: 'gbk' codec can't encode character u'\u3232' in position 0: illegal multibyte sequence

但是,本身的確已經是轉換好了unicode字元串了。

詳情可參考:
【整理】Python中,如何將反斜杠u類型(\uXXXX)的字元串,轉換為對應的unicode的字元

(此處不能貼地址,請用google搜標題,即可找到帖子地址)

F. python默認的字元編碼是什麼

Python的默認編碼是ASCII格式:

  1. ASCII(American Standard Code for Information Interchange),是一種單位元組的編碼。計算機世界裡一開始只有英文,而單位元組可以表示256個不同的字元,可以表示所有的英文字元和許多的控制符號;

  2. 源代碼文件中,如果有用到非ASCII字元,則需要在文件頭部進行字元編碼的聲明,如下:#-*- coding: UTF-8 -*-

  3. 實際上Python只檢查#、coding和編碼字元串,其他的字元都是為了美觀加上的。另外,Python中可用的字元編碼有很多,並且還有許多別名,還不區分大小寫,比如UTF-8可以寫成u8。

G. python3 pickle中怎麼使用unicode編碼

Python特有編碼
Python還內置一些特有的編碼集。
4.2.4.1 文本編碼
Python提供了下面從字元串到位元組數組的編碼,以及位元組數據到字元串的解碼:

Codec

Aliases

Purpose

idna

Implements RFC 3490, see also encodings.idna. Only errors='strict' is supported.

mbcs

dbcs

Windows only: Encode operand according to the ANSI codepage (CP_ACP)

palmos

Encoding of PalmOS 3.5

punycode

Implements RFC 3492. Stateful codecs are not supported.

raw_unicode_escape

Latin-1 encoding with \uXXXX and \UXXXXXXXX for other code points. Existing backslashes are not escaped in any way. It is used in the Python pickle protocol.

undefined

Raise an exception for all conversions, even empty strings. The error handler is ignored.

unicode_escape

Encoding suitable as the contents of a Unicode literal in ASCII-encoded Python source code, except that quotes are not escaped. Decodes from Latin-1 source code. Beware that Python source code actually uses UTF-8 by default.

unicode_internal

Return the internal representation of the operand. Stateful codecs are not supported.
Deprecated since version 3.3: This representation is obsoleted by PEP 393

4.2.4.2 二進制編碼轉換
Python提供下面的二進制編碼轉換:位元組對象到位元組對象映射轉換,不支持使用bytes.decode()。

Codec

Aliases

Purpose

Encoder / decoder

base64_codec [1]

base64, base_64

Convert operand to MIME base64 (the result always includes a trailing '\n')
Changed in version 3.4: accepts any bytes-like object as input for encoding and decoding

base64.b64encode() / base64.b64decode()

bz2_codec

bz2

Compress the operand using bz2

bz2.compress() / bz2.decompress()

hex_codec

hex

Convert operand to hexadecimal representation, with two digits per byte

base64.b16encode() / base64.b16decode()

quopri_codec

quopri, quotedprintable, quoted_printable

Convert operand to MIME quoted printable

quopri.encodestring() / quopri.decodestring()

uu_codec

uu

Convert the operand using uuencode

uu.encode() / uu.decode()

zlib_codec

zip, zlib

Compress the operand using gzip

zlib.compress() / zlib.decompress()

4.2.4.3 文本編碼轉換

下面編解碼器支持字元串到字元串的轉換:

Codec

Aliases

Purpose

rot_13

rot13

Returns the Caesar-cypher encryption of the operand

4.2.5 encodings.idna--國際化域名的應用
本模塊實現了RFC 3490(Internationalized Domain Names in Applications)和RFC 3492(Nameprep: A Stringprep Profile for Internationalized Domain Names (IDN) 的功能。它實現的功能建立在punycode編碼和stringprep模塊之上。
這兩個RFC定義了非ASCII字元表示域名的規范。如果一個域名含有非ASCII字元,需要把它轉換為ASCII兼容編碼的域名(ACE),因為有一些網路協議不支持非ASCII字元的域名,比如DNS查詢、HTTP主機等等。因此這些轉換工作可以人工轉換,也可以是程序轉換。在程序里轉換,需要把UNICODE的域名轉換為ACE兼容的域名之後,才能進行處理,當要給用戶顯示時需要從ACE反向轉換為UNICODE域名。

Python提供了好幾種方法來做轉換的工作:使用idna編解碼來操作UNICODE與ACE之間相互轉換;把輸入字元串分離成標記,然後通過RFC3490進行查表,再合並成相應的域名;最後一種是把輸入字元串分成標記,通過ACE標記轉換。在socket模塊里,就透明地實現了從UNICODE主機名稱轉換為ACE域名,所以應用程序在調用這個模塊時就不需要考慮UNICODE域名轉換為ACE域名的工作了。基於socket模塊之上的功能,比如http.client和ftplib都可以接受UNICODE域名。

當從網路收到的域名,它是不會自動轉換為 UNICODE域名的,需要應用程序進行轉換之後,才能以UNICODE域名顯示給用戶。

模塊encodings.idna也實現nameprep的處理,它能實現主機名稱的標准化處理,域名的大小寫統一化,如果需要這些功能是可以直接使用。

encodings.idna.nameprep(label)
返回label的國際化標志名稱。

encodings.idna.ToASCII(label)
轉換label為ASCII表示,符合標准RFC 3490。

encodings.idna.ToUnicode(label)
轉換label為UNICODE表示,符合標准RFC 3490.
4.2.6 encodings.mbcs--Windows的ANSI編碼
本模塊實現從ANSI(CP_ACP)代碼進行編碼的功能。僅在Windows系統上可用。

4.2.7 encodings.utf_8_sig-UTF-8帶BOM標記的codec編碼
本模塊實現UTF-8的編碼和解碼:把帶有BOM的UTF-8編碼轉換為不帶BOM的UTF-8編碼。當在生成BOM時,只在第一次時生成;當在解碼時跳過相應的BOM標記位元組,再進行解碼。

H. python有哪幾種編碼方式

第一種:ASCII碼。是基於拉丁字母的一套電腦編碼系統,主要用於顯示現代英語和其他西歐語言,它是現今最通用的單位元組編碼系統,並等同於國際標准IS/IEC
646。
由於計算機是美國人發明的,因此,最早只有127個字母被編碼到計算機李,也就是大小寫英文字母、數字和一些符號,這個編碼表被稱為ASCII編碼,比如大寫字母A的編碼是65,小寫字母a的編碼是97,後128個稱為擴展ASCII碼。
第二種:GBK和GB2312。能在計算機中顯示中文字元是至關重要的,然而ASCII表裡一個偏旁部首都沒有,所以我們需要一個關於中文和數字對應的關系表,一個位元組只能最多表示256個字元,用處理中文顯然一個位元組是不夠的,所以我們需要採用兩個位元組來表示,所以中國制定了GB2312編碼,用來將中文編寫進去。
第三種:Unicode。因為各個國家都有一套自己的編碼,所以無法避免沖突,因此Unicode誕生了。它可以把所有語言都統一到一套編碼里,這樣就不會存在亂碼問題了,現代操作系統和大多數編程語言都直接支持Unicode。
第四種:UFT-8。基於節約的原則,出現了把Unicode編碼轉化為可變長編碼的UTF-8編碼。而UTF-8編碼把一個Unicode字元根據不同的數字大小編碼成1-6個位元組,常用的英文字母被編碼成一個位元組,漢字通常是3個位元組,只有很生僻的字元才會被編碼成4-6個位元組,如果你要傳輸的文本包含大量英文字元,用UTF-8編碼就能節省空間。

I. python是什麼編碼格式

python編碼總結:
1).首先python有兩種格式的字元串,str和unicode,其中unicode相當於位元組碼那樣,可以跨平台使用。
str轉化為unicode可以通過unicode(),u,str.decode三種方式
unicode轉化為str,如果有中文的話,一般通過encode的方式
2).如果代碼中有中文的話,我們一般會添加 "# coding=utf-8",這個是什麼作用呢,一般如下:
如果代碼中有中文注釋,就需要此聲明比較高級的編輯器(比如我的emacs),會根據頭部聲明,將此作為代碼文件的格式。程序會通過
頭部聲明,解碼初始化 u」人生苦短」,這樣的unicode對象,(所以頭部聲明和代碼的存儲格式要一致
所以,當我們填上編碼頭的時候,使用s="中文",實際上type(s)是一個str,是已經將unicode以utf-8格式編碼成str。
其次,如果我們在代碼中使用s=u'中文',相當於將str以utf-8解碼成unicode。
推薦學習《python教程》。

J. 如何設置python的編碼格式為utf-8

重裝了系統(ubuntu 14.04)原來正常可用的OpenERP項目在切換到開發者模式的時候報錯:
UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128)
而在伺服器上的項目正常可用,其原因是由於python的默認編碼設置為ascii,可以用以下命令查看:
import sys
sys.getdefaultencoding()
解決方案有兩種:
1. 在項目啟動文件中添加設置字元為utf8:
import sys
reload(sys)
sys.setdefaultencoding('utf8')
2. 在python的lib文件夾下的sitecustomize.py文件中添加代碼:(我的文件位於/usr/lib/python2.7)
import sys
reload(sys)
sys.setdefaultencoding('utf8')
try:
import apport_python_hook
except ImportError:
pass
else:
apport_python_hook.install()
relaod(sys)一句是必須的

閱讀全文

與pythonmbcs編碼相關的資料

熱點內容
自己購買雲主伺服器推薦 瀏覽:419
個人所得稅java 瀏覽:759
多餘的伺服器滑道還有什麼用 瀏覽:189
pdf劈開合並 瀏覽:26
不能修改的pdf 瀏覽:750
同城公眾源碼 瀏覽:488
一個伺服器2個埠怎麼映射 瀏覽:297
java字元串ascii碼 瀏覽:78
台灣雲伺服器怎麼租伺服器 瀏覽:475
旅遊手機網站源碼 瀏覽:332
android關聯表 瀏覽:945
安卓導航無聲音怎麼維修 瀏覽:332
app怎麼裝視頻 瀏覽:430
安卓系統下的軟體怎麼移到桌面 瀏覽:96
windows拷貝到linux 瀏覽:772
mdr軟體解壓和別人不一樣 瀏覽:904
單片機串列通信有什麼好處 瀏覽:340
游戲開發程序員書籍 瀏覽:860
pdf中圖片修改 瀏覽:288
匯編編譯後 瀏覽:491