Ⅰ python將怎麼將jieba分詞結果寫入文本,各種編碼問題啊
能不能解釋下「jieba分詞」啊
Ⅱ python3怎麼使用結巴分詞
下面這個程序是對一個文本文件里的內容進行分詞的程序:test.py
[python] view plain
#!/usr/bin/python
#-*-encoding:utf-8-*-
importjieba#導入jieba模塊
defsplitSentence(inputFile,outputFile):
fin=open(inputFile,'r')#以讀的方式打開文件
fout=open(outputFile,'w')#以寫得方式打開文件
foreachLineinfin:
line=eachLine.strip().decode('utf-8','ignore')#去除每行首尾可能出現的空格,並轉為Unicode進行處理
wordList=list(jieba.cut(line))#用結巴分詞,對每行內容進行分詞
outStr=''
forwordinwordList:
outStr+=word
outStr+='/'
fout.write(outStr.strip().encode('utf-8')+' ')#將分詞好的結果寫入到輸出文件
fin.close()
fout.close()
splitSentence('myInput.txt','myOutput.txt')
寫完程序之後,在Linux重點輸入:python test.py即可運行程序進行分詞。
輸入的文件內容如下所示:
注意:第11行的 jieba.cut()返回的結構是一個可迭代的generator,可以用list(jieba.cut(...))轉化為list
Ⅲ python jieba 分詞 列印
這個問題是因為在控制台輸出的原因,你可以嘗試輸出到表格或者txt。在看下是否有空行
Ⅳ 如何用python和jieba分詞,統計詞頻
#!python3
#-*-coding:utf-8-*-
importos,codecs
importjieba
fromcollectionsimportCounter
defget_words(txt):
seg_list=jieba.cut(txt)
c=Counter()
forxinseg_list:
iflen(x)>1andx!=' ':
c[x]+=1
print('常用詞頻度統計結果')
for(k,v)inc.most_common(100):
print('%s%s%s%d'%(''*(5-len(k)),k,'*'*int(v/3),v))
if__name__=='__main__':
withcodecs.open('19d.txt','r','utf8')asf:
txt=f.read()
get_words(txt)
Ⅳ python 使用jieba分詞出錯
在你的第一行,用#coding=utf-8 試試
Ⅵ python jieba什麼用
- python安裝jieba分詞,運行ytho程序,遇到錯誤「Nomoleamedjiea」,說明你需要安裝jiea
Ⅶ 怎麼是用python 語言 使用結巴分詞 呢
Python代碼
#encoding=utf-8
importjieba
seg_list=jieba.cut("我來到北京清華大學",cut_all=True)
print"FullMode:","/".join(seg_list)#全模式
seg_list=jieba.cut("我來到北京清華大學",cut_all=False)
print"DefaultMode:","/".join(seg_list)#默認模式
seg_list=jieba.cut("他來到了網易杭研大廈")
print",".join(seg_list)
輸出:
FullMode:我/來/來到/到/北/北京/京/清/清華/清華大學/華/華大/大/大學/學
DefaultMode:我/來到/北京/清華大學
他,來到,了,網易,杭研,大廈(此處,「杭研」並沒有在詞典中,但是也被Viterbi演算法識別出來了)
Ⅷ python如何裝jieba庫
pip install jieba