python讀取utf8文件_python如何讀取文件的內容

Ⅰ python如何讀取文件的內容

# _*_ coding: utf-8 _*_

import pandas as pd

# 獲取文件的內容

def get_contends(path):

with open(path) as file_object:

contends = file_object.read()

return contends

# 將一行內容變成數組

def get_contends_arr(contends):

contends_arr_new = []

contends_arr = str(contends).split(']')

for i in range(len(contends_arr)):

if (contends_arr[i].__contains__('[')):

index = contends_arr[i].rfind('[')

temp_str = contends_arr[i][index + 1:]

if temp_str.__contains__('"'):

contends_arr_new.append(temp_str.replace('"', ''))

# print(index)

# print(contends_arr[i])

return contends_arr_new

if __name__ == '__main__':

path = 'event.txt'

contends = get_contends(path)

contends_arr = get_contends_arr(contends)

contents = []

for content in contends_arr:

contents.append(content.split(','))

df = pd.DataFrame(contents, columns=['shelf_code', 'robotid', 'event', 'time'])

(1)python讀取utf8文件擴展閱讀：

python控制語句

1、if語句，當條件成立時運行語句塊。經常與else, elif(相當於else if) 配合使用。

2、for語句，遍歷列表、字元串、字典、集合等迭代器，依次處理迭代器中的每個元素。

3、while語句，當條件為真時，循環運行語句塊。

4、try語句，與except,finally配合使用處理在程序運行中出現的異常情況。

5、class語句，用於定義類型。

6、def語句，用於定義函數和類型的方法。

Ⅱ python中如何獲取中文的utf8編碼

首先要表示一個漢字，至少需要2個位元組碼
如果需要以utf解碼你的漢字，可以用如下辦法

>>>unicode('人','utf-16')
u'ucbc8'

如果需要以gbk解碼你的漢字，可以用如下辦法

>>>unicode('人','gbk')
u'u4eba

Ⅲ Python對文件的讀取問題

Python編程對文件的讀取和寫入操作還是很方便的，下面對文件操作的一個簡單程序（test.py），代碼如下：

defprocessFile(inputFile,outputFile):#定義一個函數
fin=open(inputFile,'r')#以讀的方式打開文件
fout=open(outputFile,'w')#以寫得方式打開文件
foreachLineinfin:#讀取文件的每一行
line=eachLine.strip().decode('utf-8','ignore')#去除每行的首位空格，並且將文件編碼轉換成Unicode編碼
outStr=line#我沒對讀入的文本進行處理，只是直接將其輸出到文件
fout.write(outStr.strip().encode('utf-8')+'
')#去除首位的空格，並轉回到utf-8編碼，然後輸出
fin.close()#關閉文件
fout.close()

processFile('myinputFile.txt','myoutputFile.txt')#調用該函數對文件進行處理

按照上面的程序寫完之後，輸入：python test.py 就能執行該程序了。

Ⅳ python對文件的獨操作有哪幾種請詳細說明每種方法

1.打開文件:
f=open(r'E:\PythonProjects\test7\a.txt',mode='rt',encoding='utf-8')
以上三個單引號內分別表示:要打開的文件的路徑,mode為文件打開方式具體介紹在下文,encoding為文件的字元編碼,一般默認為utf-8
2.讀寫文件:
data=f.read() # 讀文件
f.write() # 寫文件
3.關閉文件:
f.close()
4.為了簡便,一般採用上下文的方法進行文件操作,可不用關閉文件
with open('a.txt',mode='rt',encoding='utf-8') as f:
data=f.read()
print(data)
with open('a.txt',mode='wt',encoding='utf-8') as f:
f.write('hello world')
5.控制文件讀寫的操作:
r:(默認模式):只讀:以該模式打開文件時,若文件不存在則報錯,若文件存在,則文件指針在文件開頭,即從文件開頭開始讀文件
w:只寫:以該模式打開文件時,若文件不存在則創建一個文件,如文件存在,則清空文件內容,文件指針移到開頭
a:追加寫:以該模式打開文件時,若文件不存在則創建一個文件,如文件存在,則將文件指針移到文件末尾,在文件末尾寫入新的內容
6.控制文件讀寫內容的模式:(t 和 b都不能單獨使用,必須與r,w,a結合使用)
t:(默認):無論讀寫都是以字元為單位,只能識別文本文件,必須要制定encoding
b:無論讀寫都是以位元組為單位,可以識別所有文件,一定不能指定encoding
7.文件的拷貝
with open ('a.txt',mode='rb') as af,\
open('b.txt',mode='wb') as bf:
data=af.read
f.write(data)
執行程序後,打開文件,即可發現文件已成功拷貝,這里使用 b 而不是用 t 模式,是因為文件有多種格式
8.文件的修改:
文件的修改是在硬碟上實現文件的覆蓋,相當於一個新的文件以舊的文件名來命名的; 文件的修改有倆種方式,分別適用於不同的情景
方式一(適用於容量小的文件):這種方式的原理是:創建一個新的文件,將舊文件的內容拷貝到新的文件中;這樣內存里就存在倆個文件,故不適用於容量大的文件,具體代碼見下方 View
with open('a.txt',mode='rt',encoding='utf-8') as f:
data=f.read()
data_new=data.replace('yang', 'yv')
with open('b.txt',mode='wt',encoding='utf-8')as p:
p.write(data_new)
方式二(適用於容量大的文件):此方式的原理為:讀取舊文件的一行內容,修改後寫到臨時文件中,循環往復直到寫完,然後將源文件刪除,將臨時文件命名為源文件名.這種方式在內存中只存在2行文件,節省內存,可用於大文件
import os
with open('b.txt',mode='rt',encoding='utf-8') as f,\
open('.b.txt.swap',mode='wt',encoding='utf-8') as p:
for line in f:
p.write(line.replace('yv','yang'))
# 調用replace方法,將源文件中的'yv',換成'yang'
os.remove('b.txt')
os.rename('.b.txt.swap','b.txt')
9. 文件的階段:truncate(n)
將文件中n個位元組後內容全刪了,當 n 不存在時,即刪除文件全部內容
10.文件內指針的移動
f.seek(): 指針的移動是以位元組為單位的
seek 有三種模式:
0:(默認模式) 指針在文件開頭,只有在 0 模式可以在 t 模式下用,也可以在 b 模式下用,而 1 ,2 模式只能在 b 模式下使用
1:指針在當前位置
2:指針在文件末尾
以下為具體事例:
# 0
with open('a.txt',mode='rt',encoding='utf-8')as f:
f.seek(3,0)
print(f.tell()) # 指針當前位置
print(f.read()) # 從指針後讀出所有內容

# 1 參照指針當前位置
with open('a.txt',mode='rb')as f:
f.read(2)
f.seek(4,1)
print(f.tell())
print(f.read().decode('utf-8'))

# 2 參照文件末尾
with open('a.txt',mode='rb')as f:
f.seek(-5,2)
print(f.tell())
print(f.read().decode('utf-8'))
當 seek處於 2 模式時,可以將文件中新加入的內容列印出來,具體代碼如下:
# 另一個文件進行寫操作，寫的代碼如下：

with open('a.txt',mode='at',encoding='utf-8')as f:
f.write('hello world\n')

# 每在文件中寫入新的內容，都列印出來，以下代碼執行列印操作：
import time
with open('a.txt',mode='rb')as f:
f.seek(0,2)
while True:
line=f.readline() # readline 可以讀取沒有內容的部分
# print(line.decode('utf-8'))
if len(line)==0:
time.sleep(0.1)
else:
print(line.decode('utf-8'))

Ⅳ python讀寫有中文的文件時，是否需要設置編碼格式

需要：
with open("路徑","模式",encoding="utf8") as f:

如果不確定編碼格式，後面讀取可能會出問題

Ⅵ 怎麼在Python里使用UTF-8編碼

概述

在python代碼即.py文件的頭部聲明即可

解析

py文件中的編碼

Python 默認腳本文件都是 ANSCII 編碼的，當文件中有非 ANSCII 編碼范圍內的字元的時候就要使用"編碼指示"來修正一個 mole 的定義中，如果.py文件中包含中文字元（嚴格的說是含有非anscii字元），則需要在第一行或第二行指定編碼聲明：

# -*- coding=utf-8 -*-
#coding=utf-8
# 以上兩種選其一即可

其他的編碼如：gbk、gb2312也可以；否則會出現:

SyntaxError: Non-ASCII character 'xe4' in file test.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

python中的編碼與解碼

先說一下python中的字元串類型，在python中有兩種字元串類型，分別是 str 和 unicode，他們都是basestring的派生類；

str類型是一個包含Characters represent (at least) 8-bit bytes的序列；

unicode 的每個 unit 是一個 unicode obj;

在str的文檔中有這樣的一句話：

The string data type is also used to represent arrays of bytes, e.g., to hold data read from a file.

也就是說在讀取一個文件的內容，或者從網路上讀取到內容時，保持的對象為str類型；如果想把一個str轉換成特定編碼類型，需要把str轉為Unicode,然後從unicode轉為特定的編碼類型如：utf-8、gb2312等。

拓展內容

utf-8編碼

UTF-8（8-bit Unicode Transformation Format）是一種針對Unicode的可變長度字元編碼，也是一種前綴碼。它可以用來表示Unicode標准中的任何字元，且其編碼中的第一個位元組仍與ASCII兼容，這使得原來處理ASCII字元的軟體無須或只須做少部分修改，即可繼續使用。因此，它逐漸成為電子郵件、網頁及其他存儲或發送文字的應用中，優先採用的編碼。

UTF-8使用一至六個位元組為每個字元編碼（盡管如此，2003年11月UTF-8被RFC 3629重新規范，只能使用原來Unicode定義的區域，U+0000到U+10FFFF，也就是說最多四個位元組）：

1、128個US-ASCII字元只需一個位元組編碼（Unicode范圍由U+0000至U+007F）。

2、帶有附加符號的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文及它拿字母則需要兩個位元組編碼（Unicode范圍由U+0080至U+07FF）。

3、其他基本多文種平面（BMP）中的字元（這包含了大部分常用字，如大部分的漢字）使用三個位元組編碼（Unicode范圍由U+0800至U+FFFF）。

4、其他極少使用的Unicode輔助平面的字元使用四至六位元組編碼（Unicode范圍由U+10000至U+1FFFFF使用四位元組，Unicode范圍由U+200000至U+3FFFFFF使用五位元組，Unicode范圍由U+4000000至U+7FFFFFFF使用六位元組）。

對上述提及的第四種字元而言，UTF-8使用四至六個位元組來編碼似乎太耗費資源了。但UTF-8對所有常用的字元都可以用三個位元組表示，而且它的另一種選擇，UTF-16編碼，對前述的第四種字元同樣需要四個位元組來編碼，所以要決定UTF-8或UTF-16哪種編碼比較有效率，還要視所使用的字元的分布范圍而定。不過，如果使用一些傳統的壓縮系統，比如DEFLATE，則這些不同編碼系統間的的差異就變得微不足道了。若顧及傳統壓縮演算法在壓縮較短文字上的效果不大，可以考慮使用Unicode標准壓縮格式（SCSU）。

互聯網工程工作小組（IETF）要求所有互聯網協議都必須支持UTF-8編碼。互聯網郵件聯盟（IMC）建議所有電子郵件軟體都支持UTF-8編碼。

Ⅶ python 讀取的中文怎麼使用

在本文中，以'哈'來解釋作示例解釋所有的問題，「哈」的各種編碼如下：
1. UNICODE (UTF8-16)，C854；
2． UTF-8，E59388；
3． GBK，B9FE。

一、python中的str和unicode

一直以來，python中的中文編碼就是一個極為頭大的問題，經常拋出編碼轉換的異常，python中的str和unicode到底是一個什麼東西呢？
在python中提到unicode，一般指的是unicode對象。
例如'哈哈'的unicode對象為

u'/u54c8/u54c8'
而str，是一個位元組數組，這個位元組數組表示的是對unicode對象編碼(可以是utf-8、gbk、cp936、GB2312)後的存儲的格式。
這里它僅僅是一個位元組流，沒有其它的含義，如果你想使這個位元組流顯示的內容有意義，就必須用正確的編碼格式，解碼顯示。

例如：

在這里 su 是unicode對象，
s_utf8是位元組數組，存儲的是unicode 經過utf8編碼後的位元組，'/xe5/x93/x88/xe5/x93/x88'
同樣，s_gbk存儲的是unicode經過gbk編碼後的位元組。

在上面print中，為什麼print s_utf8為亂碼，而print s_gbk就可以顯示的是中文？

因為print語句它的實現是將要輸出的內容傳送了操作系統，操作系統會根據系統的編碼對輸入的位元組流進行編碼，這就解釋了為什麼utf-8格式的字元串「哈哈」，輸出的是「鍝堝搱」，因為'/xe5/x93/x88/xe5/x93/x88'用GB2312去解釋，其顯示的出來就是「鍝堝搱」。

這里再強調一下，str記錄的是位元組數組，只是某種編碼的存儲格式，至於輸出到文件或是列印出來是什麼格式，完全取決於其解碼的編碼將它解碼成什麼樣子。

這里再對print進行一點補充說明：當將一個unicode對象傳給print時，在內部會將該unicode對象進行一次轉換，轉換成本地的默認編碼（這僅是個人猜測）

二、str和unicode對象的轉換
str和unicode對象的轉換，通過encode和decode實現，具體使用如下：

將GBK'哈哈'轉換成unicode，然後再轉換成UTF8

三、設定默認編碼 Setdefaultencoding

如上圖的演示代碼所示：

當把s(gbk字元串)直接編碼成utf-8的時候，將拋出異常，但是通過調用如下代碼：

import sys

reload(sys)

sys.setdefaultencoding('gbk')

後就可以轉換成功，為什麼呢？
在python中str和unicode在編碼和解碼過程中，如果將一個str直接編碼成另一種編碼，會先把str解碼成unicode，採用的編碼為默認編碼，一般默認編碼是anscii，所以在上面示例代碼中第一次轉換的時候會出錯，當設定當前默認編碼為'gbk'後，就不會出錯了。

至於reload(sys)是因為Python2.5 初始化後會刪除 sys.setdefaultencoding 這個方法，我們需要重新載入。

四、操作不同文件的編碼格式的文件
建立一個文件test.txt，文件格式用ANSI，內容為:
abc中文

用python來讀取
# coding=gbk

print open("Test.txt").read()

結果：
abc中文

把文件格式改成UTF-8：

結果：
abc涓菡孧

顯然，這里需要解碼：
# coding=gbk

import codecs

print open("Test.txt").read().decode("utf-8")

結果：
abc中文

上面的test.txt我是用Editplus來編輯的，但當我用Windows自帶的記事本編輯並存成UTF-8格式時，

運行時報錯：
Traceback (most recent call last):

File "ChineseTest.py", line 3, in

print open("Test.txt").read().decode("utf-8")

UnicodeEncodeError: 'gbk' codec can't encode character u'/ufeff' in position 0: illegal multibyte sequence

原來，某些軟體，如notepad，在保存一個以UTF-8編碼的文件時，會在文件開始的地方插入三個不可見的字元（0xEF 0xBB 0xBF，即BOM）。

因此我們在讀取時需要自己去掉這些字元，python中的codecs mole定義了這個常量：
# coding=gbk

import codecs

data = open("Test.txt").read()

if data[:3] == codecs.BOM_UTF8:

data = data[3:]

print data.decode("utf-8")

結果：
abc中文

五、文件的編碼格式和編碼聲明的作用

源文件的編碼格式對字元串的聲明有什麼作用呢？
這個問題困擾一直困擾了我好久，現在終於有點眉目了，文件的編碼格式決定了在該源文件中聲明的字元串的編碼格式，例如：
str = '哈哈'

print repr(str)

a.如果文件格式為utf-8，則str的值為：'/xe5/x93/x88/xe5/x93/x88'（哈哈的utf-8編碼）
b.如果文件格式為gbk，則str的值為：'/xb9/xfe/xb9/xfe'（哈哈的gbk編碼）

在第一節已經說過，python中的字元串，只是一個位元組數組，所以當把a情況的str輸出到gbk編碼的控制台時，就將顯示為亂碼：鍝堝搱；而當把b情況下的str輸出utf-8編碼的控制台時，也將顯示亂碼的問題，是什麼也沒有，也許'/xb9/xfe/xb9/xfe'用utf-8解碼顯示，就是空白吧。>_<

說完文件格式，現在來談談編碼聲明的作用吧，每個文件在最上面的地方，都會用# coding=gbk 類似的語句聲明一下編碼，但是這個聲明到底有什麼用呢？到止前為止，我覺得它的作用也就是三個：

a、聲明源文件中將出現非ascii編碼，通常也就是中文；
b、在高級的IDE中，IDE會將你的文件格式保存成你指定編碼格式。
c、決定源碼中類似於u'哈'這類聲明的將『哈』解碼成unicode所用的編碼格式，也是一個比較容易讓人迷惑的地方，
看示例：
#coding:gbk

ss = u'哈哈'
print repr(ss)
print 'ss:%s' % ss

將這個些代碼保存成一個utf-8文本，運行，你認為會輸出什麼呢？大家第一感覺肯定輸出的肯定是：
u'/u54c8/u54c8'
ss:哈哈

但是實際上輸出是：
u'/u935d/u581d/u6431'

ss:鍝堝搱

為什麼會這樣，這時候，就是編碼聲明在作怪了，在運行ss = u'哈哈'的時候，整個過程可以分為以下幾步：

1) 獲取'哈哈'的編碼：由文件編碼格式確定，為'/xe5/x93/x88/xe5/x93/x88'（哈哈的utf-8編碼形式）

2) 轉成unicode編碼的時候，在這個轉換的過程中，對於'/xe5/x93/x88/xe5/x93/x88'的解碼，不是用utf-8解碼，而是用聲明編碼處指定的編碼GBK，將'/xe5/x93/x88/xe5/x93/x88'按GBK解碼，得到就是''鍝堝搱''，
這三個字的unicode編碼就是u'/u935d/u581d/u6431'，至止可以解釋為什麼print repr(ss)輸出的是u'/u935d/u581d/u6431'了。

好了，這里有點繞，我們來分析下一個示例：
#-*- coding:utf-8 -*-

ss = u'哈哈'

print repr(ss)

print 'ss:%s' % ss

將這個示例這次保存成GBK編碼形式，運行結果，竟然是：
UnicodeDecodeError: 'utf8' codec can't decode byte 0xb9 in position 0: unexpected code byte

這里為什麼會有utf8解碼錯誤呢？想想上個示例也明白了，
轉換第一步，因為文件編碼是GBK，得到的是'哈哈'編碼是GBK的編碼'/xb9/xfe/xb9/xfe'，
當進行第二步，轉換成unicode的時候，會用UTF8對'/xb9/xfe/xb9/xfe'進行解碼，而大家查utf-8的編碼表會發現，utf8編碼表（關於UTF-8解釋可參見字元編碼筆記：ASCII、UTF-8、UNICODE）中根本不存在，所以會報上述錯誤。

Ⅷ python 讀取文件時能指定編碼嗎

代碼如下:

import os
import codecs
filenames=os.listdir(os.getcwd())
out=file("name.txt","w")
for filename in filenames:
out.write(filename.decode("gb2312").encode("utf-8"))
out.close()

將執行文件的當前目錄及文件名寫入到name.txt文件中，以utf-8格式保存
如果採用ANSI編碼保存，用如下代碼寫入即可：

復制代碼代碼如下:

out.write(filename)

打開文件並寫入
引用codecs模塊，對該模塊目前不了解。在此記錄下方法，有空掌握該模塊功能及用法。

復制代碼代碼如下:

import codecs
file=codecs.open("lol.txt","w","utf-8")
file.write(u"我")
file.close()

讀取ANSI編碼的文本文件和utf-8編碼的文件
讀取ANSI編碼文件
建立一個文件test.txt，文件格式用ANSI，內容為:

復制代碼代碼如下:

abc中文

用python來讀取

復制代碼代碼如下:

# coding=gbk
print open("Test.txt").read()

結果：abc中文
讀取utf-8編碼文件（無BOM）
把文件格式改成UTF-8：

復制代碼代碼如下:

結果：abc涓枃

顯然，這里需要解碼：

復制代碼代碼如下:

# -*- coding: utf-8 -*-
import codecs
print open("Test.txt").read().decode("utf-8")

結果：abc中文
讀取utf-8編碼文件（有BOM）
某些軟體在保存一個以UTF-8編碼的文件時，默認會在文件開始的地方插入三個不可見的字元（0xEF 0xBB 0xBF，即BOM）。在有些軟體可以控制是否插入BOM。如果在有BOM的情況下，在讀取時需要自己去掉這些字元，python中的codecs mole定義了這個常量：

復制代碼代碼如下:

# -*- coding: utf-8 -*-
import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

結果：abc中文
在看下面的例子：

復制代碼代碼如下:

# -*- coding: utf-8 -*-
data = open("name_utf8.txt").read()
u=data.decode("utf-8")
print u[1:]

打開utf-8格式的文件並讀取utf-8字元串後，解碼變成unicode對象。但是會把附加的三個字元同樣進行轉換，變成一個unicode字元。該字元不能被列印。所以為了正常顯示，採用u[1:]的方式，過濾到第一個字元。
注意：在處理unicode中文字元串的時候，必須首先對它調用encode函數，轉換成其它編碼輸出。
設置python默認編碼
復制代碼代碼如下:

import sys
reload(sys)
sys.setdefaultencoding("utf-8")
print sys.getdefaultencoding()

今天碰到了 python 編碼問題, 報錯信息如下

復制代碼代碼如下:

Traceback (most recent call last):
File "ntpath.pyc", line 108, in join
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa1 in position 36: ordinal not in range(128)

顯然是當前的編碼為ascii, 無法解析0xa1(十進制為161, 超過上限128). 進入python console後, 發現默認編碼確實是 ascii, 驗證過程為:
在python2.6中無法調用sys.setdefaultencoding()函數來修改默認編碼，因為python在啟動的時候會調用site.py文件，在這個文件中設置完默認編碼後會刪除sys的setdefaultencoding方法。不能再被調用了. 在確定sys已經導入的情況下, 可以reload sys這個模塊之後, 再 sys.setdefaultencoding('utf8')
復制代碼代碼如下:

import sys
reload(sys)
sys.setdefaultencoding("utf-8")
print sys.getdefaultencoding()

確實有效, 根據 limodou 講解, site.py 是 python 解釋器啟動後, 默認載入的一個腳本. 如果使用 python -S 啟動的話, 將不會自動載入 site.py.
上面寫的挺啰嗦的.
==================================
如何永久地將默認編碼設置為utf-8呢? 有2種方法:
==================================
第一個方法<不推薦>: 編輯site.py, 修改setencoding()函數, 強制設置為 utf-8
第二個方法<推薦>: 增加一個名為 sitecustomize.py, 推薦存放的路徑為 site-packages 目錄下
sitecustomize.py 是在 site.py 被import 執行的, 因為 sys.setdefaultencoding() 是在 site.py 的最後刪除的, 所以, 可以在 sitecustomize.py 使用 sys.setdefaultencoding().

復制代碼代碼如下:

import sys
sys.setdefaultencoding('utf-8')

既然 sitecustomize.py 能被自動載入, 所以除了設置編碼外, 也可以設置一些其他的東西
字元串的編碼

復制代碼代碼如下:

s1='中文'

像上面那樣直接輸入的字元串是按照代碼文件的編碼來處理的，如果是unicode編碼，有以下三種方式：

復制代碼代碼如下:

1 s1 = u'中文'
2 s2 = unicode('中文','gbk')
3 s3 = s1.decode('gbk')

unicode是一個內置函數，第二個參數指示源字元串的編碼格式。
decode是任何字元串具有的方法，將字元串轉換成unicode格式，參數指示源字元串的編碼格式。
encode也是任何字元串具有的方法，將字元串轉換成參數指定的格式。

Ⅸ python 讀取文本里有多種編碼

讀取ANSI編碼文件
建立一個文件test.txt，文件格式用ANSI，內容為:
abc中文
用Python來讀取
# coding=gbk
print open("Test.txt").read()
結果：abc中文
讀取utf-8編碼文件（無BOM）
把文件格式改成UTF-8：
結果：abc涓枃
顯然，這里需要解碼：
# -*- coding: utf-8 -*-
import codecs
print open("Test.txt").read().decode("utf-8")
結果：abc中文
讀取utf-8編碼文件（有BOM）
某些軟體在保存一個以UTF-8編碼的文件時，默認會在文件開始的地方插入三個不可見的字元（0xEF 0xBB 0xBF，即BOM）。在有些軟體可以控制是否插入BOM。如果在有BOM的情況下，在讀取時需要自己去掉這些字元，python中的codecs mole定義了這個常量：

Ⅹ 如何設置python的編碼格式為utf-8

python的編碼格式？
#coding=utf-8
這是文檔編碼
import sys
sys.setdefaultencoding("utf-8")
這是設置默認編碼方式為utf-8
xx.encode("utf-8")
這是字元串編碼操作
import codecs
codecs.open(xx,'r','utf-8")，這是文件編碼讀取方式

導航:首頁 > 編程語言 > python讀取utf8文件

python讀取utf8文件

概述

解析

拓展內容

與python讀取utf8文件相關的資料