python編碼使用方法_python有哪幾種編碼方式

⑴ python代碼的注釋有幾種

python代碼的注釋有兩種。
一、python單行注釋符號(#)
python中單行注釋採用#開頭，示例：#thisisacomment。
二、批量、多行注釋符號
多行注釋是用三引號，例如：輸入''''''或者""""，將要注釋的代碼插在中間。

Python由荷蘭數學和計算機科學研究學會的吉多·范羅蘇姆於1990年代初設計，作為一門叫做ABC語言的替代品。Python提供了高效的高級數據結構，還能簡單有效地面向對象編程。
Python語法和動態類型，以及解釋型語言的本質，使它成為多數平台上寫腳本和快速開發應用的編程語言，隨著版本的不斷更新和語言新功能的添加，逐漸被用於獨立的、大型項目的開發。"

⑵ python的編碼問題,一個小例子讓人很困惑

其實，字典中的uxxxx或者x..之類就是utf-8編碼，經過解碼就是漢字了

print 列印的字元是自動解碼的。（根據第一行的 coding:utf-8）

print 列印的字典、列表之類的對象，一般沒經過解碼

如果你要輸出解碼的漢字，處理方法：

一，對每個scrapy抓取的數據都進行for循環decod

a={1:"你好",2:"謝謝",3:"對不起",4:"hi"}
forkina.keys():
printk,a[k].decode("utf-8")

二，使用json.mps

a={1:"你好",2:"謝謝",3:"對不起",4:"hi"}
importjson
printjson.mps(a,encoding='UTF-8',ensure_ascii=False)

⑶ python程序有哪些編碼規范

編碼格式聲明
通常，編碼格式聲明是必需的。如果 python 源碼文件沒有聲明編碼格式，python 解釋器會默認使用 ASCII 編碼，一旦源碼文件包含非ASCII編碼的字元，python 解釋器就會報錯。以 UTF-8 為例，以下兩種編碼格式聲明都是合乎規則的。
縮進
統一使用 4 個空格進行縮進。絕對不要用tab, 也不要tab和空格混用。對於行連接的情況，我一般使用4空格的懸掛式縮進。例如：
引號
自然語言使用雙引號
機器標識使用單引號
正則表達式使用雙引號
空行
編碼格式聲明、模塊導入、常量和全局變數聲明、頂級定義和執行代碼之間空兩行
頂級定義之間空兩行，方法定義之間空一行
在函數或方法內部，可以在必要的地方空一行以增強節奏感，但應避免連續空行
導入模塊
導入總應該放在文件頂部，位於模塊注釋和文檔字元串之後，模塊全局變數和常量之前。導入應該按照從最通用到最不通用的順序分組，分組之間空一行
標准庫導入
第三方庫導入
應用程序指定導入
命名規范
模塊盡量使用小寫命名，首字母保持小寫，盡量不要用下劃線
類名使用駝峰(CamelCase)命名風格，首字母大寫，私有類可用一個下劃線開頭
函數名一律小寫，如有多個單詞，用下劃線隔開
私有函數可用一個下劃線開頭
變數名盡量小寫, 如有多個單詞，用下劃線隔開
常量採用全大寫，如有多個單詞，使用下劃線隔開

⑷ 怎麼在Python里使用UTF-8編碼

概述
在python代碼即.py文件的頭部聲明即可
解析
py文件中的編碼
Python
默認
腳本文件
都是
ANSCII
編碼的，當文件
中有非
ANSCII
編碼范圍內的字元的時候就要使用"編碼指示"來修正一個
mole
的定義中，如果.py文件中包含中文字元（嚴格的說是含有非anscii字元），則需要在第一行或第二行指定編碼聲明：
#
-*-
coding=utf-8
-*-
#coding=utf-8
#
以上兩種選其一即可
其他的編碼如：gbk、gb2312也可以；否則會出現:
SyntaxError:
Non-ASCII
character
'\xe4'
in
file
test.py
on
line
3,
but
no
encoding
declared;
see
http://www.python.org/peps/pep-0263.html
for
details
python中的編碼與解碼
先說一下python中的字元串類型，在python中有兩種字元串類型，分別是
str
和
unicode，他們都是basestring的
派生類
；
str類型是一個包含
Characters
represent
(at
least)
8-bit
bytes的序列；
unicode
的每個
unit
是一個
unicode
obj;
在str的文檔中有這樣的一句話：
The
string
data
type
is
also
used
to
represent
arrays
of
bytes,
e.g.,
to
hold
data
read
from
a
file.
也就是說在讀取一個文件的內容，或者從網路上讀取到內容時，保持的對象為str類型；如果想把一個str轉換成特定編碼類型，需要把str轉為Unicode,然後從unicode轉為特定的編碼類型如：utf-8、gb2312等。
拓展內容
utf-8編碼
UTF-8（8-bit
Unicode
Transformation
Format）是一種針對Unicode的可變長度
字元編碼
，也是一種
前綴碼
。它可以用來表示Unicode標准中的任何字元，且其編碼中的第一個位元組仍與ASCII兼容，這使得原來處理ASCII字元的軟體無須或只須做少部分修改，即可繼續使用。因此，它逐漸成為電子郵件、網頁及其他存儲或發送文字的應用中，優先採用的編碼。
UTF-8使用一至六個位元組為每個字元編碼（盡管如此，2003年11月UTF-8被RFC
3629重新規范，只能使用原來Unicode定義的區域，U+0000到U+10FFFF，也就是說最多四個位元組）：
1、128個US-ASCII字元只需一個位元組編碼（Unicode范圍由U+0000至U+007F）。
2、帶有附加符號的拉丁文、
希臘文
、
西里爾字母
、亞美尼亞語、
希伯來文
、
阿拉伯文
、敘利亞文及它拿字母則需要兩個位元組編碼（Unicode范圍由U+0080至U+07FF）。
3、其他
基本多文種平面
（BMP）中的字元（這包含了大部分
常用字
，如大部分的漢字）使用三個位元組編碼（Unicode范圍由U+0800至U+FFFF）。
4、其他極少使用的Unicode
輔助平面
的字元使用四至六位元組編碼（Unicode范圍由U+10000至U+1FFFFF使用四位元組，Unicode范圍由U+200000至U+3FFFFFF使用五位元組，Unicode范圍由U+4000000至U+7FFFFFFF使用六位元組）。
對上述提及的第四種字元而言，UTF-8使用四至六個位元組來編碼似乎太耗費資源了。但UTF-8對所有常用的字元都可以用三個位元組表示，而且它的另一種選擇，UTF-16編碼，對前述的第四種字元同樣需要四個位元組來編碼，所以要決定UTF-8或UTF-16哪種編碼比較有效率，還要視所使用的字元的分布范圍而定。不過，如果使用一些傳統的壓縮系統，比如DEFLATE，則這些不同編碼系統間的的差異就變得微不足道了。若顧及傳統壓縮演算法在壓縮較短文字上的效果不大，可以考慮使用Unicode標准壓縮格式（SCSU）。
互聯網工程工作小組（IETF）要求所有互聯網協議都必須支持UTF-8編碼。互聯網郵件聯盟（IMC）建議所有電子郵件軟體都支持UTF-8編碼。

⑸ python3 pickle中怎麼使用unicode編碼

Python特有編碼
Python還內置一些特有的編碼集。
4.2.4.1 文本編碼
Python提供了下面從字元串到位元組數組的編碼，以及位元組數據到字元串的解碼：

Codec

Aliases

Purpose

idna

Implements RFC 3490, see also encodings.idna. Only errors='strict' is supported.

mbcs

dbcs

Windows only: Encode operand according to the ANSI codepage (CP_ACP)

palmos

Encoding of PalmOS 3.5

punycode

Implements RFC 3492. Stateful codecs are not supported.

raw_unicode_escape

Latin-1 encoding with \uXXXX and \UXXXXXXXX for other code points. Existing backslashes are not escaped in any way. It is used in the Python pickle protocol.

undefined

Raise an exception for all conversions, even empty strings. The error handler is ignored.

unicode_escape

Encoding suitable as the contents of a Unicode literal in ASCII-encoded Python source code, except that quotes are not escaped. Decodes from Latin-1 source code. Beware that Python source code actually uses UTF-8 by default.

unicode_internal

Return the internal representation of the operand. Stateful codecs are not supported.
Deprecated since version 3.3: This representation is obsoleted by PEP 393

4.2.4.2 二進制編碼轉換
Python提供下面的二進制編碼轉換：位元組對象到位元組對象映射轉換，不支持使用bytes.decode()。

Codec

Aliases

Purpose

Encoder / decoder

base64_codec [1]

base64, base_64

Convert operand to MIME base64 (the result always includes a trailing '\n')
Changed in version 3.4: accepts any bytes-like object as input for encoding and decoding

base64.b64encode() / base64.b64decode()

bz2_codec

bz2

Compress the operand using bz2

bz2.compress() / bz2.decompress()

hex_codec

hex

Convert operand to hexadecimal representation, with two digits per byte

base64.b16encode() / base64.b16decode()

quopri_codec

quopri, quotedprintable, quoted_printable

Convert operand to MIME quoted printable

quopri.encodestring() / quopri.decodestring()

uu_codec

uu

Convert the operand using uuencode

uu.encode() / uu.decode()

zlib_codec

zip, zlib

Compress the operand using gzip

zlib.compress() / zlib.decompress()

4.2.4.3 文本編碼轉換

下面編解碼器支持字元串到字元串的轉換：

Codec

Aliases

Purpose

rot_13

rot13

Returns the Caesar-cypher encryption of the operand

4.2.5 encodings.idna--國際化域名的應用
本模塊實現了RFC 3490(Internationalized Domain Names in Applications)和RFC 3492(Nameprep: A Stringprep Profile for Internationalized Domain Names (IDN) 的功能。它實現的功能建立在punycode編碼和stringprep模塊之上。
這兩個RFC定義了非ASCII字元表示域名的規范。如果一個域名含有非ASCII字元，需要把它轉換為ASCII兼容編碼的域名（ACE），因為有一些網路協議不支持非ASCII字元的域名，比如DNS查詢、HTTP主機等等。因此這些轉換工作可以人工轉換，也可以是程序轉換。在程序里轉換，需要把UNICODE的域名轉換為ACE兼容的域名之後，才能進行處理，當要給用戶顯示時需要從ACE反向轉換為UNICODE域名。

Python提供了好幾種方法來做轉換的工作：使用idna編解碼來操作UNICODE與ACE之間相互轉換；把輸入字元串分離成標記，然後通過RFC3490進行查表，再合並成相應的域名；最後一種是把輸入字元串分成標記，通過ACE標記轉換。在socket模塊里，就透明地實現了從UNICODE主機名稱轉換為ACE域名，所以應用程序在調用這個模塊時就不需要考慮UNICODE域名轉換為ACE域名的工作了。基於socket模塊之上的功能，比如http.client和ftplib都可以接受UNICODE域名。

當從網路收到的域名，它是不會自動轉換為 UNICODE域名的，需要應用程序進行轉換之後，才能以UNICODE域名顯示給用戶。

模塊encodings.idna也實現nameprep的處理，它能實現主機名稱的標准化處理，域名的大小寫統一化，如果需要這些功能是可以直接使用。

encodings.idna.nameprep(label)
返回label的國際化標志名稱。

encodings.idna.ToASCII(label)
轉換label為ASCII表示，符合標准RFC 3490。

encodings.idna.ToUnicode(label)
轉換label為UNICODE表示，符合標准RFC 3490.
4.2.6 encodings.mbcs--Windows的ANSI編碼
本模塊實現從ANSI（CP_ACP）代碼進行編碼的功能。僅在Windows系統上可用。

4.2.7 encodings.utf_8_sig-UTF-8帶BOM標記的codec編碼
本模塊實現UTF-8的編碼和解碼：把帶有BOM的UTF-8編碼轉換為不帶BOM的UTF-8編碼。當在生成BOM時，只在第一次時生成；當在解碼時跳過相應的BOM標記位元組，再進行解碼。

⑹ 怎麼樣用Python實現地理編碼

工具原料：地理編碼工具geocoder用Python實現地理編碼方法如下：一、看一下它都支持哪些公司的地理編碼服務:二、安裝pipinstallgeocoder三、地理編碼importgeocoderg=geocoder.google("1403WashingtonAve,NewOrleans,LA70130")g=geocoder.arcgis(u"北京市海淀區上地十街10號")g.latlng輸出為[29.9287839,-90.08421849999999]也可以查看完整的geojsong.geojson輸出為{'bbox':[-90.0855674802915,29.9274349197085,-90.0828695197085,29.9301328802915],'geometry':{'coordinates':[-90.08421849999999,29.9287839],'type':'Point'},'properties':{'accuracy':u'ROOFTOP','address':u'1403WashingtonAve,NewOrleans,LA70130,USA','bbox':[-90.0855674802915,29.9274349197085,-90.0828695197085,29.9301328802915],'city':u'NewOrleans','confidence':9,'country':u'US','county':u'OrleansParish','encoding':'utf-8','housenumber':u'1403','lat':29.9287839,'lng':-90.08421849999999,'location':'1403WashingtonAve,NewOrleans,LA70130','neighborhood':u'GardenDistrict','ok':True,'place':u'ChIJGyFHWc2lIIYRYSoneaXAUiw','postal':u'70130','provider':'google','quality':u'street_address','state':u'LA','status':'OK','status_code':200,'street':u'WashingtonAve'},'type':'Feature'}直接用Google嘗試查詢中文地址時失敗g=geocoder.google(u"北京市海淀區上地十街10號")g.ok輸出為False用網路應該沒問題，不過我沒有申請相應的key。切換到arcgis，能夠成功編碼g=geocoder.arcgis(u"北京市海淀區上地十街10號")g.latlng輸出為[40.050934,116.30079]逆地理編碼g=geocoder.google([29.9287839,-90.08421849999999],method='reverse')printg.addressprintg.cityprintg.stateprintg.country輸出為1403WashingtonAve,NewOrleans,LA70115,USANewOrleansLAUS換成中國的地址g=geocoder.google([40.050934,116.30079],method='reverse')printg.addressprintg.cityprintg.stateprintg.country輸出為BaiDuDaSha,HaidianQu,BeijingShi,China,100193BeijingBeijingShiCN用arcgis的服務試試g=geocoder.arcgis([40.050934,116.30079],method='reverse')printg.addressprintg.cityprintg.stateprintg.country輸出為None北京市北京市CHNGoogle轉換成的是英文，但地址比較全。arcgis雖然是中文，但是詳細的地址居然輸出為了None，這有個X用。其他geocoder的功能不止於此，它還可以查IP（包括自己的）。g=geocoder.ip('199.7.157.0')printg.latlngprintg.cityg=geocoder.ip('me')printg.latlngprintg.city輸出為[43.6934,-79.4857]Toronto[51.05,13.75]Dresden查詢一個城市的空間包圍盒g=geocoder.arcgis(u"山東")g.bbox輸出為{'northeast':[38.976997,121.976998],'southwest':[33.022997,116.022998]}

⑺ Python編碼字元串解碼問題，怎麼解決

在將字元串寫入文件時，執行f.write(str)，後台總是報錯：UnicodeEncodeError: 'ascii' codec can't encode character u'\u6211' in position 0: ordinal not in range(128)，即ascii碼無法被轉換成unicode碼。
剛開始我以為Python默認的編碼是utf-8，所以使用decode方法和encode方法來進行編碼轉換，後來怎麼也不成功，於是懷疑是否默認編碼不是utf-8。
使用下面語句獲取python當前的默認編碼：
[python] view plain
import sys
print sys.getdefaultencoding()

⑻ python有哪幾種編碼方式

第一種：ASCII碼。是基於拉丁字母的一套電腦編碼系統，主要用於顯示現代英語和其他西歐語言，它是現今最通用的單位元組編碼系統，並等同於國際標准IS/IEC
646。
由於計算機是美國人發明的，因此，最早只有127個字母被編碼到計算機李，也就是大小寫英文字母、數字和一些符號，這個編碼表被稱為ASCII編碼，比如大寫字母A的編碼是65，小寫字母a的編碼是97，後128個稱為擴展ASCII碼。
第二種：GBK和GB2312。能在計算機中顯示中文字元是至關重要的，然而ASCII表裡一個偏旁部首都沒有，所以我們需要一個關於中文和數字對應的關系表，一個位元組只能最多表示256個字元，用處理中文顯然一個位元組是不夠的，所以我們需要採用兩個位元組來表示，所以中國制定了GB2312編碼，用來將中文編寫進去。
第三種：Unicode。因為各個國家都有一套自己的編碼，所以無法避免沖突，因此Unicode誕生了。它可以把所有語言都統一到一套編碼里，這樣就不會存在亂碼問題了，現代操作系統和大多數編程語言都直接支持Unicode。
第四種：UFT-8。基於節約的原則，出現了把Unicode編碼轉化為可變長編碼的UTF-8編碼。而UTF-8編碼把一個Unicode字元根據不同的數字大小編碼成1-6個位元組，常用的英文字母被編碼成一個位元組，漢字通常是3個位元組，只有很生僻的字元才會被編碼成4-6個位元組，如果你要傳輸的文本包含大量英文字元，用UTF-8編碼就能節省空間。

⑼ python怎麼轉換unicode編碼

用decode()就行。decode()方法必須傳入一個參數，這個參數就是當前待轉碼的編碼，此函數方法的用意就是將當前編碼為Unicode編碼。

比如就你這提問的此頁面：

#使用版本是python2.
importurllib
url='https://..com/question/1499967322379602619.html?entry=qb_ihome_tag&hideOtherAnswer=true&newAnswer=1'
html=urllib.urlopen(url).read()
result=html.decode('gbk')
printresult

方法是絕對可行的

此法對字元串和文檔內容的解碼一樣有效。

導航:首頁 > 編程語言 > python編碼使用方法

python編碼使用方法

與python編碼使用方法相關的資料