導航:首頁 > 編程語言 > php分詞庫

php分詞庫

發布時間:2022-07-16 18:02:07

1. 我想用php做一個聊天機器人,我調用別人的API實現了中文分詞,我要怎樣構建自己的資料庫呢

可以用SimSimi API:http://developer.simsimi.com/(不需要資料庫)。

根據提示進行注冊(注冊地址:http://developer.simsimi.com/signUp)。

登錄後訪問:http://developer.simsimi.com/apps,

點擊[Get a 7 days Trial Key],你就會獲得一個Trial Key(有效期為7天),然後直接

$key='';//你的TrialKey
$lang='';//語言
$msg='';//用戶說的話
$res=file_get_contents('http://sandbox.api.simsimi.com/request.p?key='.$key.'&lc='.$lang.'&ft=1.0&text='.$msg);

或者你要購買一個Paid Key,也可以。

在http://developer.simsimi.com/apps中,點擊[Get Paid Key],就可以購買。

只是代碼要改為(響應地址不同):

$key='';//你的PaidKey
$lang='';//語言
$msg='';//用戶說的話
$res=file_get_contents('http://api.simsimi.com/request.p??key='.$key.'&lc='.$lang.'&ft=1.0&text='.$msg);

就可以了。注意php.ini中,allow_url_fopen要為On:

allow_url_fopen=On

然後會返回一個JSON字元串,與下面類似:

{
"result":100,
"response":"SimSimi的回答",
"id":本次會話的標識符(int),
"msg":"響應描述"
}

相應描述與result的值相關。

100:OK.//成功
400:BadRequest.//參數錯誤
401:Unauthorized.//Key不存在
404:Notfound.//頁面不存在
500:ServerError.//伺服器出錯

參見:SimSimi API:http://developer.simsimi.com/api

謝謝!

2. 中文分詞的常見項目

功能性能 功能描述:1.新詞自動識別
對詞典中不存在的詞,可以自動識別,對詞典的依賴較小;
2.詞性輸出
分詞結果中帶有豐富的詞性;
3.動態詞性輸出
分詞結果中的詞性並非固定,會根據不同的語境,賦予不同的詞性;
4.特殊詞識別
比如化學、葯品等行業詞彙,地名、品牌、媒體名等;
5.智能歧義解決
根據內部規則,智能解決常見分詞歧義問題;
6.多種編碼識別
自動識別各種單一編碼,並支持混合編碼;
7.數詞量詞優化
自動識別數量詞; 性能介紹:處理器:AMD Athlon II x2 250 3GHZ
單線程大於833KB/s,多線程安全。 一個PHP函數實現中文分詞。使分詞更容易,使用如下圖:
Paoding(庖丁解牛分詞)基於java的開源中文分片語件,提供lucene和solr 介面,具有極 高效率和 高擴展性。引入隱喻,採用完全的面向對象設計,構思先進。
高效率:在PIII 1G內存個人機器上,1秒可准確分詞 100萬漢字。
採用基於 不限制個數的詞典文件對文章進行有效切分,使能夠將對詞彙分類定義。
能夠對未知的詞彙進行合理解析。
僅支持Java語言。 MMSEG4J基於Java的開源中文分片語件,提供lucene和solr 介面:
1.mmseg4j 用 Chih-Hao Tsai 的 MMSeg 演算法實現的中文分詞器,並實現 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。
2.MMSeg 演算法有兩種分詞方法:Simple和Complex,都是基於正向最大匹配。Complex 加了四個規則過慮。官方說:詞語的正確識別率達到了 98.41%。mmseg4j 已經實現了這兩種分詞演算法。 盤古分詞是一個基於.net 平台的開源中文分片語件,提供lucene(.net 版本) 和HubbleDotNet的介面
高效:Core Duo 1.8 GHz 下單線程 分詞速度為 390K 字元每秒
准確:盤古分詞採用字典和統計結合的分詞演算法,分詞准確率較高。
功能:盤古分詞提供中文人名識別,簡繁混合分詞,多元分詞,英文詞根化,強制一元分詞,詞頻優先分詞,停用詞過濾,英文專名提取等一系列功能。 jcseg是使用Java開發的一個中文分詞器,使用流行的mmseg演算法實現。
1。mmseg四種過濾演算法,分詞准確率達到了98.4%以上。
2。支持自定義詞庫。在lexicon文件夾下,可以隨便添加/刪除/更改詞庫和詞庫內容,並且對詞庫進行了分類,詞庫整合了《現代漢語詞典》和cc-cedict辭典。
3。詞條拼音和同義詞支持,jcseg為所有詞條標注了拼音,並且詞條可以添加同義詞集合,jcseg會自動將拼音和同義詞加入到分詞結果中。
4。中文數字和分數識別,例如:"四五十個人都來了,三十分之一。"中的"四五十"和"三十分之一",並且jcseg會自動將其轉換為對應的阿拉伯數字。
5。支持中英混合詞的識別。例如:B超,x射線。
6。支持基本單字單位的識別,例如2012年。
7。良好的英文支持,自動識別電子郵件,網址,分數,小數,百分數……。
8。智能圓角半形轉換處理。
9。特殊字母識別:例如:Ⅰ,Ⅱ
10。特殊數字識別:例如:①,⑩
11。配對標點內容提取:例如:最好的Java書《java編程思想》,『暢想杯黑客技術大賽』,被《,『,「,『標點標記的內容。
12。智能中文人名識別。中文人名識別正確率達94%以上。
jcseg佩帶了jcseg.properties配置文檔,使用文本編輯器就可以自主的編輯其選項,配置適合不同應用場合的分詞應用。例如:最大匹配分詞數,是否開啟中文人名識別,是否載入詞條拼音,是否載入詞條同義詞……。 friso是使用c語言開發的一個中文分詞器,使用流行的mmseg演算法實現。完全基於模塊化設計和實現,可以很方便的植入到其他程序中,例如:MySQL,PHP等。並且提供了一個php中文分詞擴展robbe。
1。只支持UTF-8編碼。【源碼無需修改就能在各種平台下編譯使用,載入完20萬的詞條,內存佔用穩定為14M。】。
2。mmseg四種過濾演算法,分詞准確率達到了98.41%。
3。支持自定義詞庫。在dict文件夾下,可以隨便添加/刪除/更改詞庫和詞庫詞條,並且對詞庫進行了分類。
4。詞庫使用了friso的Java版本jcseg的簡化詞庫。
5。支持中英混合詞的識別。例如:c語言,IC卡。
7。很好的英文支持,電子郵件,網址,小數,分數,百分數。
8。支持阿拉伯數字基本單字單位的識別,例如2012年,5噸,120斤。
9。自動英文圓角/半形,大寫/小寫轉換。
並且具有很高的分詞速度:簡單模式:3.7M/秒,復雜模式:1.8M/秒。

3. php 內搜索,中文字元拆分

這個估計就要用到分詞庫了.有點難度.單就你這個例子來說簡單,但是要寫的適用其他情況就難了.

4. jieba分詞如何只使用自定義詞典(php)

最復雜的就是這一行了:
(word for word in jieba.cut(line,HMM=True)if word not in stop and len(word.strip())>1)
jieba.cut(line)將一行字元串,分割成一個個單詞
word for word in jieba.cut(line,HMM=True)是一個Python的表理解,相當於for循環遍歷分割好的一個個單詞
if word not in stop and len(word.strip())>1這仍然是表理解的一部分,如果滿足條件,就把單詞加入到一個新的列表中,如果不滿足就丟棄,
word not in stop單詞不在停用詞當中
len(word.strip())>1單詞去掉首尾的空格、標點符號後的長度大於1。

5. sphinx和solr哪個更適合php站點

## ES 缺點
基於java,會有一些java的常見問題需要注意,比如gc
單純執行速度上比C寫的sphinx慢

## sphinx 優點
純粹,沒有什麼花哨的其他功能
C寫的,速度快
新版本加了分布式索引、動態更新索引等功能

## 下面列舉Es比sphinx優秀的部分
1、部署簡單,雖然sphinx部署也挺簡單,但是在書寫配置的時候,你會發現,sphinx的配置是要寫好後,重啟sphinx,而Elasticsearch針對某個索引的配置,是可以動態寫入的。
2、調試簡單,sphinx有命令行工具可以調試,而Elasticsearch使用的是http介面進行調試,不需要專門的API類,幾行php代碼就可以寫一個Elasticsearch的API。
3、可視化工具比較多,有收費的,也有免費的,比如kibana head marvel。
4、提供結構化的JSON查詢語句,易讀性強
5、Es可以保留源數據(可選),也就是說,你可以不需要mysql的支持,就可以完成整個搜索過程,即使你不需要這個功能,在調試的時候,還是讓人感到非常便利,不用將查詢結果到資料庫匹配一下。
6、Es可以動態更新全文索引,動態更新單個記錄,而不像sphinx一樣需要重建全部
7、對UTF8的支持是不需要單獨配置的,天生為各種自然語言設計,而不僅僅是歐系語言

## 從中文分詞上來說
首先我覺得分詞最重要的基本都是詞庫,分詞演算法兩個工具基本都可以使用。
lucene 支持很多分詞工具,比如
word https://github.com/ysc/word
比如ik https://github.com/medcl/elasticsearch-analysis-ik
這兩個工具最近都很活躍,因為Es更新2.0 和 2.1

比較分詞區別(sphinx可能有誤):
sphinx分詞 我不太熟悉它的機制,多數情況下我使用scws分詞,發送給sphinx,然後設置匹配規則,比如最大匹配

Es的全文索引是基於分詞的,也就是事先分好詞,每個詞對應某些記錄,自動進行TF/IDF的運算,得到一個評分後返回,當然這個評分可以改(sphinx同樣支持修改評分)

另一方面ES也支持類似sphinx的匹配方式,模糊匹配,一般會一起使用,一個詞不在分詞庫中的時候,或者用戶寫錯了,就用fuzzy,所以Es在功能上,應該和sphinx不會有太多差別,而且要更多。

## 後期維護上:
sphinx的配置文件在mysql分表之後,維護起來是比較麻煩的,你可以用php腳本當做配置文件,這樣會好很多。
Es的索引是可以主動發給它去建立的(通過http介面),分表之後,它不關心資料庫狀態和結構。新增欄位可以熱更新。

## 擴展性上:
Es和sphinx都支持分布式索引,擴展性都沒有問題
兩者都支持別名,Es的別名加上動態建立索引,使得更換索引結構或者重建索引後,支持0宕機時間。而sphinx的rotate選項可以動態更新索引(不知道能不能動態創建索引,因為sphinx我在使用的時候,索引都要求寫在配置文件里。
性能方面沒有測試數據。從直觀感受上sphinx要快一些。

## 文檔方面
感覺兩個工具都差不多,中文資料一般般,英文資料很全。

6. 中文分詞 詞庫下載

北大論壇資料,可以一看:
http://www.pkucn.com/viewthread.php?tid=141164&extra=page%
3D1&page=2
亦可參看台灣(中文詞知識庫小組)的資料:
http://rocling.iis.sinica.e.tw/CKIP/publication.htm
希望合用。

7. php 要從文章內容,提取關鍵詞,要怎麼寫!

提取關鍵詞,你必須得有個詞庫。然後根據詞庫匹配文章內容。詞庫越多效率越低,文章內容長度越長效率越低。
網上針對php有相乾的分詞演算法,你可以搜
」SCWS
中文分詞「
來看一下。你可以根據裡面的例子來做擴展

8. php+mysql中拆分搜索問題

你這個需求描述不清,麻煩說清楚!這個關鍵詞分割有什麼要求,從你舉的列子看看不出你的要求,有歧義!可以有多種理解方式,第一種:盡量讓A少分割 第二種:將A 2個字元分割,沒有就再分!
這個分割的規則你沒說明白!

9. php如何實現離線翻譯,包括逐詞,逐句,最好可以全文翻譯(不需要進行預翻譯的那種)歡迎各種大蝦指教。

那就得需要離線詞庫的支持。而現在應該沒有免費的。

10. php 同義詞互換 偽原創

預處理我就跳過了,其實主要是用到str_replace(find, replace, str);

<?php
$toWords=array("懇求","悲悼","悲痛","悲傷","順序","受餓","靠攏");
$fromWords=array("哀求","哀傷","哀思","哀痛","挨次","挨餓","挨近");

$str="我哀傷地哀求她,她只是哀痛地哀思,挨次把我們挨餓的事情一一說來,我覺得死神正在挨近...";
echo$str."<br/> ";

$str1=str_replace($fromWords,$toWords,$str);
echo$str1;
?>
閱讀全文

與php分詞庫相關的資料

熱點內容
愛情電影網站apdy 瀏覽:716
用什麼看剛出的槍版電影 瀏覽:362
有一本小說女主叫蘇晚 瀏覽:551
韓國大尺度來電 瀏覽:14
朴銀狐妻子的職業電影 瀏覽:821
國產強奸的大尺度電影有哪些 瀏覽:59
歐美愛情電影船戲 瀏覽:924
拍攝指南小說txt百度下載 瀏覽:576
大美記者電視劇 瀏覽:483
男朋友在北京當快遞員的電影 瀏覽:358
電影中有美娜名字的電影叫什麼 瀏覽:833
美劇五十黑2簡介 瀏覽:43
可以在線看的小網址 瀏覽:139
香港老電影在線免費觀看 瀏覽:362
屍家重地2國語版免費 瀏覽:162
韓劇 女兒突然帶著孫子來找他 瀏覽:561
2020年情感電影院上映列表 瀏覽:993
變身小說男變女嫁人 瀏覽:34
原罪未刪減床戲在什麼時間 瀏覽:849
最新全裸韓劇倫理片有哪些 瀏覽:295