python语料训练_如何利用Python对中文进行分词处理

1. 如何利用python对中文进行分词处理

python做中文分词处理主要有以下几种：结巴分词、NLTK、THULAC
1、fxsjy/jieba
结巴的标语是：做最好的 Python 中文分词组件，或许从现在来看它没做到最好，但是已经做到了使用的人最多。结巴分词网上的学习资料和使用案例比较多，上手相对比较轻松，速度也比较快。
结巴的优点：
支持三种分词模式
支持繁体分词
支持自定义词典
MIT 授权协议

2、THULAC：一个高效的中文词法分析工具包
前两天我在做有关于共享单车的用户反馈分类，使用jieba分词一直太过零散，分类分不好。后来江兄给我推荐了THULAC：由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包。THULAC的接口文档很详细，简单易上手。
THULAC分词的优点：
能力强。利用规模最大的人工分词和词性标注中文语料库（约含5800万字）训练而成，模型标注能力强大。
准确率高。该工具包在标准数据集Chinese Treebank（CTB5）上分词的F1值可达97.3％，词性标注的F1值可达到92.9％
速度较快。同时进行分词和词性标注速度为300KB/s，每秒可处理约15万字。只进行分词速度达到1.3MB/s，速度比jieba慢

Python 解决中文编码问题基本可以用以下逻辑：
utf8（输入） ——> unicode（处理） ——> （输出）utf8
Python 里面处理的字符都是都是unicode 编码，因此解决编码问题的方法是把输入的文本（无论是什么编码）解码为（decode）unicode编码，然后输出时再编码（encode）成所需编码。
由于处理的一般为txt 文档，所以最简单的方法，是把txt 文档另存为utf-8 编码，然后使用Python 处理的时候解码为unicode（sometexts.decode('utf8')），输出结果回txt 的时候再编码成utf8（直接用str() 函数就可以了）。

2. 我用了100行Python代码，实现了与女神尬聊微信（附代码）

朋友圈很多人都想学python，有一个很重要的原因是它非常适合入门。对于 人工智能算法 的开发，python有其他编程语言所没有的独特优势， 代码量少 ，开发者只需把精力集中在算法研究上面。

本文介绍一个用python开发的，自动与美女尬聊的小软件。以下都是满满的干货，是我工作之余时写的，经过不断优化，现在分享给大家。那现在就让我们抓紧时间开始吧！

准备：

编程工具IDE：pycharm

python版本： 3.6.0

首先新建一个py文件，命名为：ai_chat.py

PS：以下五步的代码直接复制到单个py文件里面就可以直接运行。为了让读者方便写代码，我把代码都贴出来了，但是排版存在问题，我又把在pycharm的代码排版给截图出来。

第一步：引入关键包

简单介绍一下上面几个包的作用： pickle 包 是用来对数据序列化存文件、反序列化读取文件，是人类不可读的，但是计算机去读取时速度超快。（就是用记事本打开是乱码）。而 json包 是一种文本序列化，是人类可读的，方便你对其进行修改（记事本打开，可以看到里面所有内容，而且都认识。） gensim 包 是自然语言处理的其中一个python包，简单容易使用，是入门NLP算法必用的一个python包。 jieba包 是用来分词，对于算法大咖来说效果一般般，但是它的速度非常快，适合入门使用。

以上这些包，不是关键，学习的时候，可以先跳过。等理解整个程序流程后，可以一个一个包有针对性地去看文档。

第二步：静态配置

这里path指的是对话语料（训练数据）存放的位置，model_path是模型存储的路径。

这里是个人编程的习惯，我习惯把一些配置，例如：文件路径、模型存放路径、模型参数统一放在一个类中。当然，实际项目开发的时候，是用config 文件存放，不会直接写在代码里，这里为了演示方便，就写在一起，也方便运行。

第三步：编写一个类，实现导数据、模型训练、对话预测一体化

首次运行的时候，会从静态配置中读取训练数据的路径，读取数据，进行训练，并把训练好的模型存储到指定的模型路径。后续运行，是直接导入模型，就不用再次训练了。

对于model类，我们一个一个来介绍。

initialize() 函数和 __init__() 函数是对象初始化和实例化，其中包括基本参数的赋值、模型的导入、模型的训练、模型的保存、最后返回用户一个对象。

__train_model() 函数，对问题进行分词，使用 gesim 实现词袋模型，统计每个特征的 tf-idf , 建立稀疏矩阵，进而建立索引。

__save_model() 函数和 __load_model() 函数是成对出现的，很多项目都会有这两个函数，用于保存模型和导入模型。不同的是，本项目用的是文件存储的方式，实际上线用的是数据库

get_answer() 函数使用训练好的模型，对问题进行分析，最终把预测的回答内容反馈给用户。

第四步：写三个工具类型的函数，作为读写文件。

其中，获取对话材料，可以自主修改对话内容，作为机器的训练的数据。我这里只是给了几个简单的对话语料，实际上线的项目，需要大量的语料来训练，这样对话内容才饱满。

这三个工具函数，相对比较简单一些。其中 get_data() 函数，里面的数据是我自己编的，大家可以根据自己的习惯，添加自己的对话数据，这样最终训练的模型，对话方式会更贴近自己的说话方式。

第五步：调用模型，进行对话预测

主函数main()，就是你整个程序运行的起点，它控制着所有步骤。

运行结果：

程序后台运行结果：

如果有疑问想获取源码（ 其实代码都在上面 ），可以后台私信我，回复：python智能对话。我把源码发你。最后，感谢大家的阅读，祝大家工作生活愉快！

导航:首页 > 编程语言 > python语料训练

python语料训练

与python语料训练相关的资料