ik分词源码解读_SolrJ 怎么获取IK中文分词结果

① IK和Paoding分词器的区别

可以用IKAnalyzer和PaodingAnalyzer，这两个都有对Lucene的封装接口，中科院的Ictclas是要收费的，而且是用DLL，和java结合不好。
中文分词（ChineseWordSegmentation）指的是将一个汉字序列切分成一个一个单独的词。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂的多、困难的多。

② elasticsearch集成ik分词器怎样设置不分词

解压ik，并进入ik

执行 mvn package 编译ik

复制文件

将elasticsearch-analysis-ik-master/target/releases/elasticsearch-analysis-ik-1.6.1.zip 拷贝到es的plugin/ik目录下并解压

同时将elasticsearch-analysis-ik-master/config/ik文件夹拷贝到es的config下

然后重启es,就可以了.

③ SolrJ 怎么获取IK中文分词结果

IKAnalyzer中文分词器是开源的java工具包，你可以详细读里面的源码。其词典存储用的是txt文件

④ 抖音上为什么说ik是喜欢

ik是Ilike的缩写。

［英］［laɪk］［美］［laɪk］

vt．喜欢；（与would或should连用表示客气）想；想要；喜欢做；

prep．（表示属性）像；（表示方式）如同；（询问意见）…怎么样；（表示列举）比如；

adj．相似的；相同的；

n．相类似的人［事物］；喜好；爱好；（尤指被视为没有某人或某物那么好的）种类，类型；

conj．如同；好像；像…一样；仿佛；

adv．如；（非正式口语，代替as）和…一样；（非正式口语，思考说下句话、解释或举例时用）大概；可能；

(4)ik分词源码解读扩展阅读：

love

英［lʌv］美［lʌv］

n．爱；热爱；慈爱；爱情；恋爱；喜好；喜爱

v．爱；热爱；喜欢；喜爱；很喜欢；很愿意

第三人称单数： loves 复数： loves 现在分词： loving 过去式： loved 过去分词： loved。

⑤ 百度的中文分词原理是什么与IK分词有区别吗

分词是搜索引擎的一种技术，做seo可以合理利用搜索引擎的分词技术，避免关键词堆砌

⑥ ik分词器之布尔逻辑

这种分词器很好写的。关键是只不支持括号，支持括号的话需要检测括号的配对。其他的符号比较简单。

⑦ ik 如何最大分词和最小分词

IK分词器有最细力度分词和智能分词两种分词方式
两种分词方式都是以词库为分词依据
1：如字库中有如下词
网厅
网
厅
则最细力度分词结果为
网厅
网
厅
则智能分词结果为
网厅

2：如果字库中仅有如下词
网厅
两种分词方式分词结果都为
网厅

⑧ 如何读取elasticsearch的分词索引信息

一、插件准备
网上有介绍说可以直接用plugin -install medcl/elasticsearch-analysis-ik的办法，但是我执行下来的效果只是将插件的源码下载下来，elasticsearch只是将其作为一个_site插件看待。
所以只有执行maven并将打包后的jar文件拷贝到上级目录。（否则在定义mapping的analyzer的时候会提示找不到类的错误）。
由于IK是基于字典的分词，所以还要下载IK的字典文件，在medcl的elasticsearch-RTF中有，可以通过这个地址下载：

下载之后解压缩到config目录下。到这里，你可能需要重新启动下elasticsearch，好让下一部定义的分词器能立即生效。

二、分词定义
分词插件准备好之后就可以在elasticsearch里定义（声明）这个分词类型了（自带的几个类型，比如standred则不需要特别定义）。跟其他设置一样，分词的定义也可以在系统级（elasticsearch全局范围），也可以在索引级（只在当前index内部可见）。系统级的定义当然是指在conf目录下的
elasticsearch.yml文件里定义，内容大致如下：
index:
analysis:
analyzer:
ikAnalyzer:
alias: [ik]
type: org.elasticsearch.index.analysis.IkAnalyzerProvider
或者 index.analysis.analyzer.ik.type : "ik"

因为个人喜好，我并没有这么做，而是定义在了需要使用中文分词的index中，这样定义更灵活，也不会影响其他index。
在定义analyze之前，先关闭index。其实并不需要关闭也可以生效，但是为了数据一致性考虑，还是先执行关闭。（如果是线上的系统需要三思）

curl -XPOST
(很显然，这里的application是我的一个index）

然后执行：
curl -XPUT localhost:9400/application/_settings -d '
{
"analysis": {
"analyzer":{
"ikAnalyzer":{
"type":"org.elasticsearch.index.analysis.IkAnalyzerProvider",
"alias":"ik"
}
}
}
}
'
打开index：

curl -XPOST

到此为止一个新的类型的分词器就定义好了，接下来就是要如何使用了

或者按如下配置
curl -XPUT localhost:9200/indexname -d '{
"settings" : {
"analysis" : {
"analyzer" : {
"ik" : {
"tokenizer" : "ik"
}
}
}
},
"mappings" : {
"article" : {
"dynamic" : true,
"properties" : {
"title" : {
"type" : "string",
"analyzer" : "ik"
}
}
}
}
}'
如果我们想返回最细粒度的分词结果，需要在elasticsearch.yml中配置如下：

index:
analysis:
analyzer:
ik:
alias: [ik_analyzer]
type: org.elasticsearch.index.analysis.IkAnalyzerProvider
ik_smart:
type: ik
use_smart: true
ik_max_word:
type: ik
use_smart: false

三、使用分词器
在将分词器使用到实际数据之前，可以先测验下分词效果：
中文分词
分词结果是：
{
"tokens" : [ {
"token" : "中文",
"start_offset" : 0,
"end_offset" : 2,
"type" : "CN_WORD",
"position" : 1
}, {
"token" : "分词",
"start_offset" : 2,
"end_offset" : 4,
"type" : "CN_WORD",
"position" : 2
} ]
}
与使用standard分词器的效果更合理了：
{
"tokens" : [ {
"token" : "中",
"start_offset" : 0,
"end_offset" : 1,
"type" : "<IDEOGRAPHIC>",
"position" : 1
}, {
"token" : "文",
"start_offset" : 1,
"end_offset" : 2,
"type" : "<IDEOGRAPHIC>",
"position" : 2
}, {
"token" : "分",
"start_offset" : 2,
"end_offset" : 3,
"type" : "<IDEOGRAPHIC>",
"position" : 3
}, {
"token" : "词",
"start_offset" : 3,
"end_offset" : 4,
"type" : "<IDEOGRAPHIC>",
"position" : 4
} ]
}
新的分词器定义完成，工作正常后就可以在mapping的定义中引用了，比如我定义这样的type：
curl localhost:9400/application/article/_mapping -d '
{
"article": {
"properties": {
"description": {
"type": "string",
"indexAnalyzer":"ikAnalyzer",
"searchAnalyzer":"ikAnalyzer"
},
"title": {
"type": "string",
"indexAnalyzer":"ik",
"searchAnalyzer":"ik"
}
}
}
}
'
很遗憾，对于已经存在的index来说，要将一个string类型的field从standard的分词器改成别的分词器通常都是失败的：
{
"error": "MergeMappingException[Merge failed with failures {[mapper [description] has different index_analyzer, mapper [description] has
different search_analyzer]}]",
"status": 400
}
而且没有办法解决冲突，唯一的办法是新建一个索引，并制定mapping使用新的分词器（注意要在数据插入之前，否则会使用elasticsearch默认的分词器）
curl -XPUT localhost:9400/application/article/_mapping -d '
{
"article" : {
"properties" : {
"description": {
"type": "string",
"indexAnalyzer":"ikAnalyzer",
"searchAnalyzer":"ikAnalyzer"
},
"title": {
"type": "string",
"indexAnalyzer":"ik",
"searchAnalyzer":"ik"
}
}
}
}
至此，一个带中文分词的elasticsearch就算搭建完成。想偷懒的可以下载medcl的elasticsearch-RTF直接使用，里面需要的插件和配置基本都已经设置好。
------------
标准分词（standard）配置如下：

curl -XPUT localhost:9200/local -d '{
"settings" : {
"analysis" : {
"analyzer" : {
"stem" : {
"tokenizer" : "standard",
"filter" : ["standard", "lowercase", "stop", "porter_stem"]
}
}
}
},
"mappings" : {
"article" : {
"dynamic" : true,
"properties" : {
"title" : {
"type" : "string",
"analyzer" : "stem"
}
}
}
}
}'

index:local
type:article
default analyzer:stem (filter:小写、停用词等)
field:title
测试：

# Sample Analysis
curl -XGET localhost:9200/local/_analyze?analyzer=stem -d '{Fight for your life}'
curl -XGET localhost:9200/local/_analyze?analyzer=stem -d '{Bruno fights Tyson tomorrow}'

# Index Data
curl -XPUT localhost:9200/local/article/1 -d'{"title": "Fight for your life"}'
curl -XPUT localhost:9200/local/article/2 -d'{"title": "Fighting for your life"}'
curl -XPUT localhost:9200/local/article/3 -d'{"title": "My dad fought a dog"}'
curl -XPUT localhost:9200/local/article/4 -d'{"title": "Bruno fights Tyson tomorrow"}'

# search on the title field, which is stemmed on index and search
curl -XGET localhost:9200/local/_search?q=title:fight

# searching on _all will not do anystemming, unless also configured on the mapping to be stemmed...
curl -XGET localhost:9200/local/_search?q=fight

例如：

Fight for your life

分词如下：

{"tokens":[
{"token":"fight","start_offset":1,"end_offset":6,"type":"<ALPHANUM>","position":1},<br>
{"token":"your","start_offset":11,"end_offset":15,"type":"<ALPHANUM>","position":3},<br>
{"token":"life","start_offset":16,"end_offset":20,"type":"<ALPHANUM>","position":4}
]}

-------------------另一篇--------------------
ElasticSearch安装ik分词插件

一、IK简介
IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。
IK Analyzer 2012特性:
1.采用了特有的逗正向迭代最细粒度切分算法逗，支持细粒度和智能分词两种切分模式；
2.在系统环境：Core2 i7 3.4G双核，4G内存，window 7 64位， Sun JDK 1.6_29 64位普通pc环境测试，IK2012具有160万字/秒（3000KB/S）的高速处理能力。
3.2012版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。
4.采用了多子处理器分析模式，支持：英文字母、数字、中文词汇等分词处理，兼容韩文、日文字符
5.优化的词典存储，更小的内存占用。支持用户词典扩展定义。特别的，在2012版本，词典支持中文，英文，数字混合词语。

二、安装IK分词插件
假设读者已经安装好ES，如果没有的话，请参考ElasticSearch入门 —— 集群搭建。安装IK分词需要的资源可以从这里下载，整个安装过程需要三个步骤：
1、获取分词的依赖包
通过git clone ，下载分词器源码，然后进入下载目录，执行命令：mvn clean package，打包生成elasticsearch-analysis-ik-1.2.5.jar。将这个jar拷贝到ES_HOME/plugins/analysis-ik目录下面，如果没有该目录，则先创建该目录。
2、ik目录拷贝
将下载目录中的ik目录拷贝到ES_HOME/config目录下面。
3、分词器配置
打开ES_HOME/config/elasticsearch.yml文件，在文件最后加入如下内容：

index:
analysis:
analyzer:
ik:
alias: [ik_analyzer]
type: org.elasticsearch.index.analysis.IkAnalyzerProvider
ik_max_word:
type: ik
use_smart: false
ik_smart:
type: ik
use_smart: true
或
index.analysis.analyzer.default.type: ik

ok！插件安装已经完成，请重新启动ES，接下来测试ik分词效果啦！
三、ik分词测试
1、创建一个索引，名为index。

curl -XPUT

2、为索引index创建mapping。

curl -XPOST /fulltext/_mapping -d'
{
"fulltext": {
"_all": {
"analyzer": "ik"
},
"properties": {
"content": {
"type" : "string",
"boost" : 8.0,
"term_vector" : "with_positions_offsets",
"analyzer" : "ik",
"include_in_all" : true
}
}
}
}'

3、测试

curl '/_analyze?analyzer=ik&pretty=true' -d '
{
"text":"世界如此之大"
}'

显示结果如下：
{
"tokens" : [ {
"token" : "text",
"start_offset" : 4,
"end_offset" : 8,
"type" : "ENGLISH",
"position" : 1
}, {
"token" : "世界",
"start_offset" : 11,
"end_offset" : 13,
"type" : "CN_WORD",
"position" : 2
}, {
"token" : "如此",
"start_offset" : 13,
"end_offset" : 15,
"type" : "CN_WORD",
"position" : 3
}, {
"token" : "之大",
"start_offset" : 15,
"end_offset" : 17,
"type" : "CN_WORD",
"position" : 4
} ]
}

导航:首页 > 源码编译 > ik分词源码解读

ik分词源码解读

与ik分词源码解读相关的资料