python語料訓練_如何利用Python對中文進行分詞處理

1. 如何利用python對中文進行分詞處理

python做中文分詞處理主要有以下幾種：結巴分詞、NLTK、THULAC
1、fxsjy/jieba
結巴的標語是：做最好的 Python 中文分片語件，或許從現在來看它沒做到最好，但是已經做到了使用的人最多。結巴分詞網上的學習資料和使用案例比較多，上手相對比較輕松，速度也比較快。
結巴的優點：
支持三種分詞模式
支持繁體分詞
支持自定義詞典
MIT 授權協議

2、THULAC：一個高效的中文詞法分析工具包
前兩天我在做有關於共享單車的用戶反饋分類，使用jieba分詞一直太過零散，分類分不好。後來江兄給我推薦了THULAC：由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包。THULAC的介面文檔很詳細，簡單易上手。
THULAC分詞的優點：
能力強。利用規模最大的人工分詞和詞性標注中文語料庫（約含5800萬字）訓練而成，模型標注能力強大。
准確率高。該工具包在標准數據集Chinese Treebank（CTB5）上分詞的F1值可達97.3％，詞性標注的F1值可達到92.9％
速度較快。同時進行分詞和詞性標注速度為300KB/s，每秒可處理約15萬字。只進行分詞速度達到1.3MB/s，速度比jieba慢

Python 解決中文編碼問題基本可以用以下邏輯：
utf8（輸入） ——> unicode（處理） ——> （輸出）utf8
Python 裡面處理的字元都是都是unicode 編碼，因此解決編碼問題的方法是把輸入的文本（無論是什麼編碼）解碼為（decode）unicode編碼，然後輸出時再編碼（encode）成所需編碼。
由於處理的一般為txt 文檔，所以最簡單的方法，是把txt 文檔另存為utf-8 編碼，然後使用Python 處理的時候解碼為unicode（sometexts.decode('utf8')），輸出結果回txt 的時候再編碼成utf8（直接用str() 函數就可以了）。

2. 我用了100行Python代碼，實現了與女神尬聊微信（附代碼）

朋友圈很多人都想學python，有一個很重要的原因是它非常適合入門。對於 人工智慧演算法 的開發，python有其他編程語言所沒有的獨特優勢， 代碼量少 ，開發者只需把精力集中在演算法研究上面。

本文介紹一個用python開發的，自動與美女尬聊的小軟體。以下都是滿滿的干貨，是我工作之餘時寫的，經過不斷優化，現在分享給大家。那現在就讓我們抓緊時間開始吧！

准備：

編程工具IDE：pycharm

python版本： 3.6.0

首先新建一個py文件，命名為：ai_chat.py

PS：以下五步的代碼直接復制到單個py文件裡面就可以直接運行。為了讓讀者方便寫代碼，我把代碼都貼出來了，但是排版存在問題，我又把在pycharm的代碼排版給截圖出來。

第一步：引入關鍵包

簡單介紹一下上面幾個包的作用： pickle 包 是用來對數據序列化存文件、反序列化讀取文件，是人類不可讀的，但是計算機去讀取時速度超快。（就是用記事本打開是亂碼）。而 json包 是一種文本序列化，是人類可讀的，方便你對其進行修改（記事本打開，可以看到裡面所有內容，而且都認識。） gensim 包 是自然語言處理的其中一個python包，簡單容易使用，是入門NLP演算法必用的一個python包。 jieba包 是用來分詞，對於演算法大咖來說效果一般般，但是它的速度非常快，適合入門使用。

以上這些包，不是關鍵，學習的時候，可以先跳過。等理解整個程序流程後，可以一個一個包有針對性地去看文檔。

第二步：靜態配置

這里path指的是對話語料（訓練數據）存放的位置，model_path是模型存儲的路徑。

這里是個人編程的習慣，我習慣把一些配置，例如：文件路徑、模型存放路徑、模型參數統一放在一個類中。當然，實際項目開發的時候，是用config 文件存放，不會直接寫在代碼里，這里為了演示方便，就寫在一起，也方便運行。

第三步：編寫一個類，實現導數據、模型訓練、對話預測一體化

首次運行的時候，會從靜態配置中讀取訓練數據的路徑，讀取數據，進行訓練，並把訓練好的模型存儲到指定的模型路徑。後續運行，是直接導入模型，就不用再次訓練了。

對於model類，我們一個一個來介紹。

initialize() 函數和 __init__() 函數是對象初始化和實例化，其中包括基本參數的賦值、模型的導入、模型的訓練、模型的保存、最後返回用戶一個對象。

__train_model() 函數，對問題進行分詞，使用 gesim 實現詞袋模型，統計每個特徵的 tf-idf , 建立稀疏矩陣，進而建立索引。

__save_model() 函數和 __load_model() 函數是成對出現的，很多項目都會有這兩個函數，用於保存模型和導入模型。不同的是，本項目用的是文件存儲的方式，實際上線用的是資料庫

get_answer() 函數使用訓練好的模型，對問題進行分析，最終把預測的回答內容反饋給用戶。

第四步：寫三個工具類型的函數，作為讀寫文件。

其中，獲取對話材料，可以自主修改對話內容，作為機器的訓練的數據。我這里只是給了幾個簡單的對話語料，實際上線的項目，需要大量的語料來訓練，這樣對話內容才飽滿。

這三個工具函數，相對比較簡單一些。其中 get_data() 函數，裡面的數據是我自己編的，大家可以根據自己的習慣，添加自己的對話數據，這樣最終訓練的模型，對話方式會更貼近自己的說話方式。

第五步：調用模型，進行對話預測

主函數main()，就是你整個程序運行的起點，它控制著所有步驟。

運行結果：

程序後台運行結果：

如果有疑問想獲取源碼（ 其實代碼都在上面 ），可以後台私信我，回復：python智能對話。我把源碼發你。最後，感謝大家的閱讀，祝大家工作生活愉快！

導航:首頁 > 編程語言 > python語料訓練

python語料訓練

與python語料訓練相關的資料