ik分詞源碼解讀_SolrJ 怎麼獲取IK中文分詞結果

① IK和Paoding分詞器的區別

可以用IKAnalyzer和PaodingAnalyzer，這兩個都有對Lucene的封裝介面，中科院的Ictclas是要收費的，而且是用DLL，和java結合不好。
中文分詞（ChineseWordSegmentation）指的是將一個漢字序列切分成一個一個單獨的詞。
分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。
在英文的行文中，單詞之間是以空格作為自然分界符的，而中文只是字、句和段能通過明顯的分界符來簡單劃界，唯獨詞沒有一個形式上的分界符，雖然英文也同樣存在短語的劃分問題，不過在詞這一層上，中文比之英文要復雜的多、困難的多。

② elasticsearch集成ik分詞器怎樣設置不分詞

解壓ik，並進入ik

執行 mvn package 編譯ik

復制文件

將elasticsearch-analysis-ik-master/target/releases/elasticsearch-analysis-ik-1.6.1.zip 拷貝到es的plugin/ik目錄下並解壓

同時將elasticsearch-analysis-ik-master/config/ik文件夾拷貝到es的config下

然後重啟es,就可以了.

③ SolrJ 怎麼獲取IK中文分詞結果

IKAnalyzer中文分詞器是開源的java工具包，你可以詳細讀裡面的源碼。其詞典存儲用的是txt文件

④ 抖音上為什麼說ik是喜歡

ik是Ilike的縮寫。

［英］［laɪk］［美］［laɪk］

vt．喜歡；（與would或should連用表示客氣）想；想要；喜歡做；

prep．（表示屬性）像；（表示方式）如同；（詢問意見）…怎麼樣；（表示列舉）比如；

adj．相似的；相同的；

n．相類似的人［事物］；喜好；愛好；（尤指被視為沒有某人或某物那麼好的）種類，類型；

conj．如同；好像；像…一樣；彷彿；

adv．如；（非正式口語，代替as）和…一樣；（非正式口語，思考說下句話、解釋或舉例時用）大概；可能；

(4)ik分詞源碼解讀擴展閱讀：

love

英［lʌv］美［lʌv］

n．愛；熱愛；慈愛；愛情；戀愛；喜好；喜愛

v．愛；熱愛；喜歡；喜愛；很喜歡；很願意

第三人稱單數： loves 復數： loves 現在分詞： loving 過去式： loved 過去分詞： loved。

⑤ 百度的中文分詞原理是什麼與IK分詞有區別嗎

分詞是搜索引擎的一種技術，做seo可以合理利用搜索引擎的分詞技術，避免關鍵詞堆砌

⑥ ik分詞器之布爾邏輯

這種分詞器很好寫的。關鍵是只不支持括弧，支持括弧的話需要檢測括弧的配對。其他的符號比較簡單。

⑦ ik 如何最大分詞和最小分詞

IK分詞器有最細力度分詞和智能分詞兩種分詞方式
兩種分詞方式都是以詞庫為分詞依據
1：如字型檔中有如下詞
網廳
網
廳
則最細力度分詞結果為
網廳
網
廳
則智能分詞結果為
網廳

2：如果字型檔中僅有如下詞
網廳
兩種分詞方式分詞結果都為
網廳

⑧ 如何讀取elasticsearch的分詞索引信息

一、插件准備
網上有介紹說可以直接用plugin -install medcl/elasticsearch-analysis-ik的辦法，但是我執行下來的效果只是將插件的源碼下載下來，elasticsearch只是將其作為一個_site插件看待。
所以只有執行maven並將打包後的jar文件拷貝到上級目錄。（否則在定義mapping的analyzer的時候會提示找不到類的錯誤）。
由於IK是基於字典的分詞，所以還要下載IK的字典文件，在medcl的elasticsearch-RTF中有，可以通過這個地址下載：

下載之後解壓縮到config目錄下。到這里，你可能需要重新啟動下elasticsearch，好讓下一部定義的分詞器能立即生效。

二、分詞定義
分詞插件准備好之後就可以在elasticsearch里定義（聲明）這個分詞類型了（自帶的幾個類型，比如standred則不需要特別定義）。跟其他設置一樣，分詞的定義也可以在系統級（elasticsearch全局范圍），也可以在索引級（只在當前index內部可見）。系統級的定義當然是指在conf目錄下的
elasticsearch.yml文件里定義，內容大致如下：
index:
analysis:
analyzer:
ikAnalyzer:
alias: [ik]
type: org.elasticsearch.index.analysis.IkAnalyzerProvider
或者 index.analysis.analyzer.ik.type : "ik"

因為個人喜好，我並沒有這么做，而是定義在了需要使用中文分詞的index中，這樣定義更靈活，也不會影響其他index。
在定義analyze之前，先關閉index。其實並不需要關閉也可以生效，但是為了數據一致性考慮，還是先執行關閉。（如果是線上的系統需要三思）

curl -XPOST
(很顯然，這里的application是我的一個index）

然後執行：
curl -XPUT localhost:9400/application/_settings -d '
{
"analysis": {
"analyzer":{
"ikAnalyzer":{
"type":"org.elasticsearch.index.analysis.IkAnalyzerProvider",
"alias":"ik"
}
}
}
}
'
打開index：

curl -XPOST

到此為止一個新的類型的分詞器就定義好了，接下來就是要如何使用了

或者按如下配置
curl -XPUT localhost:9200/indexname -d '{
"settings" : {
"analysis" : {
"analyzer" : {
"ik" : {
"tokenizer" : "ik"
}
}
}
},
"mappings" : {
"article" : {
"dynamic" : true,
"properties" : {
"title" : {
"type" : "string",
"analyzer" : "ik"
}
}
}
}
}'
如果我們想返回最細粒度的分詞結果，需要在elasticsearch.yml中配置如下：

index:
analysis:
analyzer:
ik:
alias: [ik_analyzer]
type: org.elasticsearch.index.analysis.IkAnalyzerProvider
ik_smart:
type: ik
use_smart: true
ik_max_word:
type: ik
use_smart: false

三、使用分詞器
在將分詞器使用到實際數據之前，可以先測驗下分詞效果：
中文分詞
分詞結果是：
{
"tokens" : [ {
"token" : "中文",
"start_offset" : 0,
"end_offset" : 2,
"type" : "CN_WORD",
"position" : 1
}, {
"token" : "分詞",
"start_offset" : 2,
"end_offset" : 4,
"type" : "CN_WORD",
"position" : 2
} ]
}
與使用standard分詞器的效果更合理了：
{
"tokens" : [ {
"token" : "中",
"start_offset" : 0,
"end_offset" : 1,
"type" : "<IDEOGRAPHIC>",
"position" : 1
}, {
"token" : "文",
"start_offset" : 1,
"end_offset" : 2,
"type" : "<IDEOGRAPHIC>",
"position" : 2
}, {
"token" : "分",
"start_offset" : 2,
"end_offset" : 3,
"type" : "<IDEOGRAPHIC>",
"position" : 3
}, {
"token" : "詞",
"start_offset" : 3,
"end_offset" : 4,
"type" : "<IDEOGRAPHIC>",
"position" : 4
} ]
}
新的分詞器定義完成，工作正常後就可以在mapping的定義中引用了，比如我定義這樣的type：
curl localhost:9400/application/article/_mapping -d '
{
"article": {
"properties": {
"description": {
"type": "string",
"indexAnalyzer":"ikAnalyzer",
"searchAnalyzer":"ikAnalyzer"
},
"title": {
"type": "string",
"indexAnalyzer":"ik",
"searchAnalyzer":"ik"
}
}
}
}
'
很遺憾，對於已經存在的index來說，要將一個string類型的field從standard的分詞器改成別的分詞器通常都是失敗的：
{
"error": "MergeMappingException[Merge failed with failures {[mapper [description] has different index_analyzer, mapper [description] has
different search_analyzer]}]",
"status": 400
}
而且沒有辦法解決沖突，唯一的辦法是新建一個索引，並制定mapping使用新的分詞器（注意要在數據插入之前，否則會使用elasticsearch默認的分詞器）
curl -XPUT localhost:9400/application/article/_mapping -d '
{
"article" : {
"properties" : {
"description": {
"type": "string",
"indexAnalyzer":"ikAnalyzer",
"searchAnalyzer":"ikAnalyzer"
},
"title": {
"type": "string",
"indexAnalyzer":"ik",
"searchAnalyzer":"ik"
}
}
}
}
至此，一個帶中文分詞的elasticsearch就算搭建完成。想偷懶的可以下載medcl的elasticsearch-RTF直接使用，裡面需要的插件和配置基本都已經設置好。
------------
標准分詞（standard）配置如下：

curl -XPUT localhost:9200/local -d '{
"settings" : {
"analysis" : {
"analyzer" : {
"stem" : {
"tokenizer" : "standard",
"filter" : ["standard", "lowercase", "stop", "porter_stem"]
}
}
}
},
"mappings" : {
"article" : {
"dynamic" : true,
"properties" : {
"title" : {
"type" : "string",
"analyzer" : "stem"
}
}
}
}
}'

index:local
type:article
default analyzer:stem (filter:小寫、停用詞等)
field:title
測試：

# Sample Analysis
curl -XGET localhost:9200/local/_analyze?analyzer=stem -d '{Fight for your life}'
curl -XGET localhost:9200/local/_analyze?analyzer=stem -d '{Bruno fights Tyson tomorrow}'

# Index Data
curl -XPUT localhost:9200/local/article/1 -d'{"title": "Fight for your life"}'
curl -XPUT localhost:9200/local/article/2 -d'{"title": "Fighting for your life"}'
curl -XPUT localhost:9200/local/article/3 -d'{"title": "My dad fought a dog"}'
curl -XPUT localhost:9200/local/article/4 -d'{"title": "Bruno fights Tyson tomorrow"}'

# search on the title field, which is stemmed on index and search
curl -XGET localhost:9200/local/_search?q=title:fight

# searching on _all will not do anystemming, unless also configured on the mapping to be stemmed...
curl -XGET localhost:9200/local/_search?q=fight

例如：

Fight for your life

分詞如下：

{"tokens":[
{"token":"fight","start_offset":1,"end_offset":6,"type":"<ALPHANUM>","position":1},<br>
{"token":"your","start_offset":11,"end_offset":15,"type":"<ALPHANUM>","position":3},<br>
{"token":"life","start_offset":16,"end_offset":20,"type":"<ALPHANUM>","position":4}
]}

-------------------另一篇--------------------
ElasticSearch安裝ik分詞插件

一、IK簡介
IK Analyzer是一個開源的，基於java語言開發的輕量級的中文分詞工具包。從2006年12月推出1.0版開始， IKAnalyzer已經推出了4個大版本。最初，它是以開源項目Luence為應用主體的，結合詞典分詞和文法分析演算法的中文分片語件。從3.0版本開始，IK發展為面向Java的公用分片語件，獨立於Lucene項目，同時提供了對Lucene的默認優化實現。在2012版本中，IK實現了簡單的分詞歧義排除演算法，標志著IK分詞器從單純的詞典分詞向模擬語義分詞衍化。
IK Analyzer 2012特性:
1.採用了特有的逗正向迭代最細粒度切分演算法逗，支持細粒度和智能分詞兩種切分模式；
2.在系統環境：Core2 i7 3.4G雙核，4G內存，window 7 64位， Sun JDK 1.6_29 64位普通pc環境測試，IK2012具有160萬字/秒（3000KB/S）的高速處理能力。
3.2012版本的智能分詞模式支持簡單的分詞排歧義處理和數量詞合並輸出。
4.採用了多子處理器分析模式，支持：英文字母、數字、中文詞彙等分詞處理，兼容韓文、日文字元
5.優化的詞典存儲，更小的內存佔用。支持用戶詞典擴展定義。特別的，在2012版本，詞典支持中文，英文，數字混合詞語。

二、安裝IK分詞插件
假設讀者已經安裝好ES，如果沒有的話，請參考ElasticSearch入門 —— 集群搭建。安裝IK分詞需要的資源可以從這里下載，整個安裝過程需要三個步驟：
1、獲取分詞的依賴包
通過git clone ，下載分詞器源碼，然後進入下載目錄，執行命令：mvn clean package，打包生成elasticsearch-analysis-ik-1.2.5.jar。將這個jar拷貝到ES_HOME/plugins/analysis-ik目錄下面，如果沒有該目錄，則先創建該目錄。
2、ik目錄拷貝
將下載目錄中的ik目錄拷貝到ES_HOME/config目錄下面。
3、分詞器配置
打開ES_HOME/config/elasticsearch.yml文件，在文件最後加入如下內容：

index:
analysis:
analyzer:
ik:
alias: [ik_analyzer]
type: org.elasticsearch.index.analysis.IkAnalyzerProvider
ik_max_word:
type: ik
use_smart: false
ik_smart:
type: ik
use_smart: true
或
index.analysis.analyzer.default.type: ik

ok！插件安裝已經完成，請重新啟動ES，接下來測試ik分詞效果啦！
三、ik分詞測試
1、創建一個索引，名為index。

curl -XPUT

2、為索引index創建mapping。

curl -XPOST /fulltext/_mapping -d'
{
"fulltext": {
"_all": {
"analyzer": "ik"
},
"properties": {
"content": {
"type" : "string",
"boost" : 8.0,
"term_vector" : "with_positions_offsets",
"analyzer" : "ik",
"include_in_all" : true
}
}
}
}'

3、測試

curl '/_analyze?analyzer=ik&pretty=true' -d '
{
"text":"世界如此之大"
}'

顯示結果如下：
{
"tokens" : [ {
"token" : "text",
"start_offset" : 4,
"end_offset" : 8,
"type" : "ENGLISH",
"position" : 1
}, {
"token" : "世界",
"start_offset" : 11,
"end_offset" : 13,
"type" : "CN_WORD",
"position" : 2
}, {
"token" : "如此",
"start_offset" : 13,
"end_offset" : 15,
"type" : "CN_WORD",
"position" : 3
}, {
"token" : "之大",
"start_offset" : 15,
"end_offset" : 17,
"type" : "CN_WORD",
"position" : 4
} ]
}

導航:首頁 > 源碼編譯 > ik分詞源碼解讀

ik分詞源碼解讀

與ik分詞源碼解讀相關的資料