导航:首页 > 编程语言 > php分词词库

php分词词库

发布时间:2022-06-12 13:08:12

php 分词,搜索引擎,技术

你好,很高兴为你解答:

如果你仅仅是要把长句中的单词分出来,那是很简单的:

<?php
$str="GoogleTranslateforBusiness!";
$str=preg_replace("{.|,|;|:|'|"|?|!|<|>|(|)}","",$str);//移除所有标点符号
$arr=array_unique(explode("",$str));//以空格分割,并去重
var_mp($arr);
?>

以下是一段测试文本:

(asseeninCorPerl),"something"(inthiscase,output"Hi,I'maPHPscript!").<?phpand?>"PHPmode."
-,.,.,andthenthere'.
,.Don''sfeatures.Youcanjumpin,inashorttime,.
AlthoughPHP'sdevelopmentisfocusedonserver-sidescripting,youcandomuchmorewithit.Readon,andseemoreintheWhatcanPHPdo?section,.

输出结果:

Instead,of,lots,commands,to,output,HTML,as,seen,in,C,or,Perl,PHP,pages,contain,with,embedded,code,that,does,something,this,case,Hi,Im,a,script,The,is,enclosed,special,start,and,end,processing,instructions,php,,allow,you,jump,into,out,modeWhat,distinguishes,from,like,client-side,javaScript,the,executed,on,server,generating,which,then,sent,client,would,receive,results,running,but,not,know,what,underlying,was,You,can,even,configure,your,web,process,all,files,theres,really,no,way,users,tell,have,up,sleeveThe,best,things,using,are,it,extremely,simple,for,newcomer,offers,many,advanced,features,professional,programmer,Dont,be,afraid,reading,long,list,PHPs,short,time,writing,scripts,few,hoursAlthough,development,focused,server-side,scripting,do,much,more,Read,see,What,section,go,right,introctory,tutorial,if,only,interested,programming

使用sort()对其进行排序:

C,Dont,HTML,Hi,Im,Instead,JavaScript,PHP,PHPs,Perl,Read,The,What,You,a,advanced,afraid,all,allow,and,are,as,be,best,but,can,case,client,client-side,code,commands,configure,contain,development,distinguishes,do,does,embedded,enclosed,end,even,executed,extremely,features,few,files,focused,for,from,generating,go,have,hoursAlthough,if,in,instructions,interested,into,introctory,is,it,jump,know,like,list,long,lots,many,modeWhat,more,much,newcomer,no,not,of,offers,on,only,or,out,output,pages,php,process,processing,professional,programmer,programming,reading,really,receive,results,right,running,script,scripting,scripts,section,see,seen,sent,server,server-side,short,simple,sleeveThe,something,special,start,tell,that,the,then,theres,things,this,time,to,tutorial,underlying,up,users,using,was,way,web,what,which,with,would,writing,you,your

-----------------------------------
如有疑问欢迎追问!
满意请点击右上方【选为满意回答】按钮么么哒 o(∩_∩)o

② php 要从文章内容,提取关键词,要怎么写!

提取关键词,你必须得有个词库。然后根据词库匹配文章内容。词库越多效率越低,文章内容长度越长效率越低。
网上针对php有相干的分词算法,你可以搜
”SCWS
中文分词“
来看一下。你可以根据里面的例子来做扩展

③ PHP能做到中文分词吗

只要能处理字符窜的程序多能做中文分词, 只是效率问题

其实PHP不适合做中文分词,执行效率太低

只能是简单的应用,比如用户搜索的时候把,把用户搜索到的关键字分离出来加亮啥的

所谓的分词,是把一句话里有意义的词语提取出来

比如:

他在游泳 分词的时候把 他 和 游泳 这两个字分离出来

不能把游泳 分成 游 和 泳
这个设计到语义分析,概率,啥啥的,很麻烦

中文分词是中文搜索引擎必须的

④ 我想用PHP做一个聊天机器人,我调用别人的API实现了中文分词,我要怎样构建自己的数据库呢

可以用SimSimi API:http://developer.simsimi.com/(不需要数据库)。

根据提示进行注册(注册地址:http://developer.simsimi.com/signUp)。

登录后访问:http://developer.simsimi.com/apps,

点击[Get a 7 days Trial Key],你就会获得一个Trial Key(有效期为7天),然后直接

$key='';//你的TrialKey
$lang='';//语言
$msg='';//用户说的话
$res=file_get_contents('http://sandbox.api.simsimi.com/request.p?key='.$key.'&lc='.$lang.'&ft=1.0&text='.$msg);

或者你要购买一个Paid Key,也可以。

在http://developer.simsimi.com/apps中,点击[Get Paid Key],就可以购买。

只是代码要改为(响应地址不同):

$key='';//你的PaidKey
$lang='';//语言
$msg='';//用户说的话
$res=file_get_contents('http://api.simsimi.com/request.p??key='.$key.'&lc='.$lang.'&ft=1.0&text='.$msg);

就可以了。注意php.ini中,allow_url_fopen要为On:

allow_url_fopen=On

然后会返回一个JSON字符串,与下面类似:

{
"result":100,
"response":"SimSimi的回答",
"id":本次会话的标识符(int),
"msg":"响应描述"
}

相应描述与result的值相关。

100:OK.//成功
400:BadRequest.//参数错误
401:Unauthorized.//Key不存在
404:Notfound.//页面不存在
500:ServerError.//服务器出错

参见:SimSimi API:http://developer.simsimi.com/api

谢谢!

⑤ 中文分词的常见项目

功能性能 功能描述:1.新词自动识别
对词典中不存在的词,可以自动识别,对词典的依赖较小;
2.词性输出
分词结果中带有丰富的词性;
3.动态词性输出
分词结果中的词性并非固定,会根据不同的语境,赋予不同的词性;
4.特殊词识别
比如化学、药品等行业词汇,地名、品牌、媒体名等;
5.智能歧义解决
根据内部规则,智能解决常见分词歧义问题;
6.多种编码识别
自动识别各种单一编码,并支持混合编码;
7.数词量词优化
自动识别数量词; 性能介绍:处理器:AMD Athlon II x2 250 3GHZ
单线程大于833KB/s,多线程安全。 一个PHP函数实现中文分词。使分词更容易,使用如下图:
Paoding(庖丁解牛分词)基于Java的开源中文分词组件,提供lucene和solr 接口,具有极 高效率和 高扩展性。引入隐喻,采用完全的面向对象设计,构思先进。
高效率:在PIII 1G内存个人机器上,1秒可准确分词 100万汉字。
采用基于 不限制个数的词典文件对文章进行有效切分,使能够将对词汇分类定义。
能够对未知的词汇进行合理解析。
仅支持Java语言。 MMSEG4J基于Java的开源中文分词组件,提供lucene和solr 接口:
1.mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。
2.MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。 盘古分词是一个基于.net 平台的开源中文分词组件,提供lucene(.net 版本) 和HubbleDotNet的接口
高效:Core Duo 1.8 GHz 下单线程 分词速度为 390K 字符每秒
准确:盘古分词采用字典和统计结合的分词算法,分词准确率较高。
功能:盘古分词提供中文人名识别,简繁混合分词,多元分词,英文词根化,强制一元分词,词频优先分词,停用词过滤,英文专名提取等一系列功能。 jcseg是使用Java开发的一个中文分词器,使用流行的mmseg算法实现。
1。mmseg四种过滤算法,分词准确率达到了98.4%以上。
2。支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类,词库整合了《现代汉语词典》和cc-cedict辞典。
3。词条拼音和同义词支持,jcseg为所有词条标注了拼音,并且词条可以添加同义词集合,jcseg会自动将拼音和同义词加入到分词结果中。
4。中文数字和分数识别,例如:"四五十个人都来了,三十分之一。"中的"四五十"和"三十分之一",并且jcseg会自动将其转换为对应的阿拉伯数字。
5。支持中英混合词的识别。例如:B超,x射线。
6。支持基本单字单位的识别,例如2012年。
7。良好的英文支持,自动识别电子邮件,网址,分数,小数,百分数……。
8。智能圆角半角转换处理。
9。特殊字母识别:例如:Ⅰ,Ⅱ
10。特殊数字识别:例如:①,⑩
11。配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,‘标点标记的内容。
12。智能中文人名识别。中文人名识别正确率达94%以上。
jcseg佩带了jcseg.properties配置文档,使用文本编辑器就可以自主的编辑其选项,配置适合不同应用场合的分词应用。例如:最大匹配分词数,是否开启中文人名识别,是否载入词条拼音,是否载入词条同义词……。 friso是使用c语言开发的一个中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。并且提供了一个php中文分词扩展robbe。
1。只支持UTF-8编码。【源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14M。】。
2。mmseg四种过滤算法,分词准确率达到了98.41%。
3。支持自定义词库。在dict文件夹下,可以随便添加/删除/更改词库和词库词条,并且对词库进行了分类。
4。词库使用了friso的Java版本jcseg的简化词库。
5。支持中英混合词的识别。例如:c语言,IC卡。
7。很好的英文支持,电子邮件,网址,小数,分数,百分数。
8。支持阿拉伯数字基本单字单位的识别,例如2012年,5吨,120斤。
9。自动英文圆角/半角,大写/小写转换。
并且具有很高的分词速度:简单模式:3.7M/秒,复杂模式:1.8M/秒。

⑥ 求一个PHP的分词程序,比如我有一句话:我是个好学生,分词后: 我 是 一个 好 学生 谢谢

这个程序几乎是没有人能提供给你。为什么?
因为网络的翻译 其中就涉及到 语句分词,这是一个很高深的技术。而且还需要分词的词典,规则大概是包括所有汉字,分词规则,语句等等。
能做好这个技术,几千万都能卖出去。

⑦ jieba分词如何只使用自定义词典(php)

最复杂的就是这一行了:
(word for word in jieba.cut(line,HMM=True)if word not in stop and len(word.strip())>1)
jieba.cut(line)将一行字符串,分割成一个个单词
word for word in jieba.cut(line,HMM=True)是一个Python的表理解,相当于for循环遍历分割好的一个个单词
if word not in stop and len(word.strip())>1这仍然是表理解的一部分,如果满足条件,就把单词加入到一个新的列表中,如果不满足就丢弃,
word not in stop单词不在停用词当中
len(word.strip())>1单词去掉首尾的空格、标点符号后的长度大于1。

⑧ php 一般使用什么中文分词扩展

Robbe是建立在Friso中文分词器上的一个高性能php中文分词扩展,除了提供了基本的分词函数以外,还提供一些编码转换函。
Robbe完整版本(PHP测试程序, 开发帮助文档, WinNT下php各版本的dll文件)下载:code.google.com/p/robbe

一. 关于Robbe:
robbe是建立在friso中文分词上的一个高性能php中文分词扩展。了解friso

1.目前最高版本:friso 1.6.0,【源码无需修改即可在各平台下编译运行】

2.mmseg四种过滤算法,分词准确率达到了98.41%。

3.详细功能,请访问friso官方首页:friso [code.google.com/p/friso]

二. Robbe分词速度:
测试环境:2.8GHZ/2G/Ubuntu

简单模式:3.1M/秒

复杂模式:1.4M/秒

(因为php中的大量字符串的复制,性能比friso有些下降)。

⑨ PHP 英文分词 有什么好介绍的吗

PHP(外文名:PHP: Hypertext Preprocessor,中文名:“超文本预处理器”)是一种通用开源脚本语言。
语法吸收了C语言、Java和Perl的特点,利于学习,使用广泛,主要适用于Web开发领域。PHP 独特的语法混合了C、Java、Perl以及PHP自创的语法。

⑩ php+mysql中拆分搜索问题

你这个需求描述不清,麻烦说清楚!这个关键词分割有什么要求,从你举的列子看看不出你的要求,有歧义!可以有多种理解方式,第一种:尽量让A少分割 第二种:将A 2个字符分割,没有就再分!
这个分割的规则你没说明白!

阅读全文

与php分词词库相关的资料

热点内容
android开发音乐播放器 浏览:806
ug120阵列命令快捷键 浏览:595
气动隔膜式压缩机 浏览:470
linux如何修改主机名 浏览:104
单片机光标上下移动 浏览:528
数据加密验证 浏览:108
程序员被激怒 浏览:891
winxp找不到服务器dns地址 浏览:842
以文本文件的格式保存考生文件夹 浏览:41
编译原理文法分为几类 浏览:570
JAVA基础学python要多久 浏览:74
java流量控制 浏览:936
java实现多重继承 浏览:707
票据通加密狗怎么在新系统上使用 浏览:795
航模加密狗连接电脑 浏览:473
好用的汇编语言编译器 浏览:863
自己编译安卓虚拟机 浏览:913
中国的古代算法 浏览:656
上层怎么看程序员 浏览:27
程序员便当排骨 浏览:855