导航:首页 > 源码编译 > 关键词搜索算法

关键词搜索算法

发布时间:2022-05-26 23:17:08

1. 百度等搜索网站的搜索原理是什么用户输入关键字它怎么搜的搜到东西存在它的服务器上还是它即时搜的

搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。

真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。

搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。

从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。

互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。

你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念:如果搜索引擎的网页索引数据库里应该有而你没有搜出来,那是你的能力问题,学习搜索技巧可以大幅度提高你的搜索能力。
回答者:漠北剑侠 - 童生 一级 10-14 14:38

2. 如何对关键词和对应的网页进行加权搜索

2.1基于词频统计——词位置加权的搜索引擎
利用关键词在文档中出现的频率和位置排序是搜索引擎最早期排序的主要思想,其技术发展也最为成熟,是第一阶段搜索引擎的主要排序技术,应用非常广泛,至今仍是许多搜索引擎的核心排序技术。其基本原理是:关键词在文档中词频越高,出现的位置越重要,则被认为和检索词的相关性越好。
1)词频统计
文档的词频是指查询关键词在文档中出现的频率。查询关键词词频在文档中出现的频率越高,其相关度越大。但当关键词为常用词时,使其对相关性判断的意义非常小。TF/IDF很好的解决了这个问题。TF/IDF算法被认为是信息检索中最重要的发明。TF(Term
Frequency):单文本词汇频率,用关键词的次数除以网页的总字数,其商称为“关键词的频率”。IDF(Inverse Document
Frequency):逆文本频率指数,其原理是,一个关键词在N个网页中出现过,那么N越大,此关键词的权重越小,反之亦然。当关键词为常用词时,其权重极小,从而解决词频统计的缺陷。
2)词位置加权
在搜索引擎中,主要针对网页进行词位置加权。所以,页面版式信息的分析至关重要。通过对检索关键词在Web页面中不同位置和版式,给予不同的权值,从而根据权值来确定所搜索结果与检索关键词相关程度。可以考虑的版式信息有:是否是标题,是否为关键词,是否是正文,字体大小,是否加粗等等。同时,锚文本的信息也是非常重要的,它一般能精确的描述所指向的页面的内容。
2.2基于链接分析排序的第二代搜索引擎
链接分析排序的思想起源于文献引文索引机制,即论文被引用的次数越多或被越权威的论文引用,其论文就越有价值。链接分析排序的思路与其相似,网页被别的网页引用的次数越多或被越权威的网页引用,其价值就越大。被别的网页引用的次数越多,说明该网页越受欢迎,被越权威的网页引用,说明该网页质量越高。链接分析排序算法大体可以分为以下几类:基于随机漫游模型的,比如PageRank和Repution算法;基于概率模型的,如SALSA、PHITS;基于Hub和Authority相互加强模型的,如HITS及其变种;基于贝叶斯模型的,如贝叶斯算法及其简化版本。所有的算法在实际应用中都结合传统的内容分析技术进行了优化。本文主要介绍以下几种经典排序算法:
1)PageRank算法
PageRank算法由斯坦福大学博士研究生Sergey Brin和Lwraence
Page等提出的。PageRank算法是Google搜索引擎的核心排序算法,是Google成为全球最成功的搜索引擎的重要因素之一,同时开启了链接分析研究的热潮。
PageRank算法的基本思想是:页面的重要程度用PageRank值来衡量,PageRank值主要体现在两个方面:引用该页面的页面个数和引用该页面的页面重要程度。一个页面P(A)被另一个页面P(B)引用,可看成P(B)推荐P(A),P(B)将其重要程度(PageRank值)平均的分配P(B)所引用的所有页面,所以越多页面引用P(A),则越多的页面分配PageRank值给P(A),PageRank值也就越高,P(A)越重要。另外,P(B)越重要,它所引用的页面能分配到的PageRank值就越多,P(A)的PageRank值也就越高,也就越重要。
其计算公式为:

PR(A):页面A的PageRank值;
d:阻尼系数,由于某些页面没有入链接或者出链接,无法计算PageRank值,为避免这个问题(即LinkSink问题),而提出的。阻尼系数常指定为0.85。
R(Pi):页面Pi的PageRank值;
C(Pi):页面链出的链接数量;
PageRank值的计算初始值相同,为了不忽视被重要网页链接的网页也是重要的这一重要因素,需要反复迭代运算,据张映海撰文的计算结果,需要进行10次以上的迭代后链接评价值趋于稳定,如此经过多次迭代,系统的PR值达到收敛。
PageRank是一个与查询无关的静态算法,因此所有网页的PageRank值均可以通过离线计算获得。这样,减少了用户检索时需要的排序时间,极大地降低了查询响应时间。但是PageRank存在两个缺陷:首先PageRank算法严重歧视新加入的网页,因为新的网页的出链接和入链接通常都很少,PageRank值非常低。另外PageRank算法仅仅依靠外部链接数量和重要度来进行排名,而忽略了页面的主题相关性,以至于一些主题不相关的网页(如广告页面)获得较大的PageRank值,从而影响了搜索结果的准确性。为此,各种主题相关算法纷纷涌现,其中以以下几种算法最为典型。
2)Topic-Sensitive PageRank算法
由于最初PageRank算法中是没有考虑主题相关因素的,斯坦福大学计算机科学系Taher
Haveli-wala提出了一种主题敏感(Topic-Sensitive)的PageRank算法解决了“主题漂流”问题。该算法考虑到有些页面在某些领域被认为是重要的,但并不表示它在其它领域也是重要的。
网页A链接网页B,可以看作网页A对网页B的评分,如果网页A与网页B属于相同主题,则可认为A对B的评分更可靠。因为A与B可形象的看作是同行,同行对同行的了解往往比不是同行的要多,所以同行的评分往往比不是同行的评分可靠。遗憾的是TSPR并没有利用主题的相关性来提高链接得分的准确性。
3)HillTop算法
HillTop是Google的一个工程师Bharat在2001年获得的专利。HillTop是一种查询相关性链接分析算法,克服了的PageRank的查询无关性的缺点。HillTop算法认为具有相同主题的相关文档链接对于搜索者会有更大的价值。在Hilltop中仅考虑那些用于引导人们浏览资源的专家页面(Export

Sources)。Hilltop在收到一个查询请求时,首先根据查询的主题计算出一列相关性最强的专家页面,然后根据指向目标页面的非从属专家页面的数量和相关性来对目标页面进行排序。
HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过分依靠PageRank的值去寻找那些权威页面的方法,避免了许多想通过增加许多无效链接来提高网页PageRank值的作弊方法。HillTop算法通过不同等级的评分确保了评价结果对关键词的相关性,通过不同位置的评分确保了主题(行业)的相关性,通过可区分短语数防止了关键词的堆砌。
但是,专家页面的搜索和确定对算法起关键作用,专家页面的质量对算法的准确性起着决定性作用,也就忽略了大多数非专家页面的影响。专家页面在互联网中占的比例非常低(1.79%),无法代表互联网全部网页,所以HillTop存在一定的局限性。同时,不同于PageRank算法,HillTop算法的运算是在线运行的,对系统的响应时间产生极大的压力。
4)HITS
HITS(Hyperlink Inced Topic
Search)算法是Kleinberg在1998年提出的,是基于超链接分析排序算法中另一个最着名的算法之一。该算法按照超链接的方向,将网页分成两种类型的页面:Authority页面和Hub页面。Authority页面又称权威页面,是指与某个查询关键词和组合最相近的页面,Hub页面又称目录页,该页面的内容主要是大量指向Authority页面的链接,它的主要功能就是把这些Authority页面联合在一起。对于Authority页面P,当指向P的Hub页面越多,质量越高,P的Authority值就越大;而对于Hub页面H,当H指向的Authority的页面越多,Authority页面质量越高,H的Hub值就越大。对整个Web集合而言,Authority和Hub是相互依赖、相互促进,相互加强的关系。Authority和Hub之间相互优化的关系,即为HITS算法的基础。
HITS基本思想是:算法根据一个网页的入度(指向此网页的超链接)和出度(从此网页指向别的网页)来衡量网页的重要性。在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。
实验数据表明,HITS的排名准确性要比PageRank高,HITS算法的设计符合网络用户评价网络资源质量的普遍标准,因此能够为用户更好的利用网络信息检索工具访问互联网资源带来便利。
但却存在以下缺陷:首先,HITS算法只计算主特征向量,处理不好主题漂移问题;其次,进行窄主题查询时,可能产生主题泛化问题;第三,HITS算法可以说一种实验性质的尝试。它必须在网络信息检索系统进行面向内容的检索操作之后,基于内容检索的结果页面及其直接相连的页面之间的链接关系进行计算。尽管有人尝试通过算法改进和专门设立链接结构计算服务器(Connectivity
Server)等操作,可以实现一定程度的在线实时计算,但其计算代价仍然是不可接受的。
2.3基于智能化排序的第三代搜索引擎
排序算法在搜索引擎中具有特别重要的地位,目前许多搜索引擎都在进一步研究新的排序方法,来提升用户的满意度。但目前第二代搜索引擎有着两个不足之处,在此背景下,基于智能化排序的第三代搜索引擎也就应运而生。
1)相关性问题
相关性是指检索词和页面的相关程度。由于语言复杂,仅仅通过链接分析及网页的表面特征来判断检索词与页面的相关性是片面的。例如:检索“稻瘟病”,有网页是介绍水稻病虫害信息的,但文中没有“稻瘟病”这个词,搜索引擎根本无法检索到。正是以上原因,造成大量的搜索引擎作弊现象无法解决。解决相关性的的方法应该是增加语意理解,分析检索关键词与网页的相关程度,相关性分析越精准,用户的搜索效果就会越好。同时,相关性低的网页可以剔除,有效地防止搜索引擎作弊现象。检索关键词和网页的相关性是在线运行的,会给系统相应时间很大的压力,可以采用分布式体系结构可以提高系统规模和性能。
2)搜索结果的单一化问题
在搜索引擎上,任何人搜索同一个词的结果都是一样。这并不能满足用户的需求。不同的用户对检索的结果要求是不一样的。例如:普通的农民检索“稻瘟病”,只是想得到稻瘟病的相关信息以及防治方法,但农业专家或科技工作者可能会想得到稻瘟病相关的论文。
解决搜索结果单一的方法是提供个性化服务,实现智能搜索。通过Web数据挖掘,建立用户模型(如用户背景、兴趣、行为、风格),提供个性化服务。

3. appstore上 按某个关键字搜索 那个排序是怎么排的呢

观察一:中国区AppStore的搜索算法按第一个字/词进行搜索排序
分词技术是搜索算法的第一个步骤,指把用户输入的关键词进行拆解,先去掉“的”“呀”之类的无意义词后,然后从关键词后往前进行分词拆解。
比如:疯狂的猴子,分词后成为“疯狂”“猴子”;愤怒的小鸟分词后成为“愤怒”“小鸟”;微博分词后成为2个独立的字。
App Store搜索“疯狂的猴子”和搜索“疯狂”的结果几乎一样。
例如搜索:微博,以前第一个是微博,全称匹配所以排名第一;而现在第一是微信、第二是新浪微博、第三是腾讯微博,我查看了微信的文字介绍,没有出现过“微博”这个词,按出现过很多“微”这个字。
我们再搜索“电影”,手电筒APP却排名考前;感觉APP STORE完全u懂中文了。
观察二:美国区搜索中文,还是采用标题完全匹配的老方法
在美国区,我们分别搜索了“腾讯微博”和“微博腾讯”,按理说都应该出现腾讯微博的APP,但当搜索“微博腾讯”时完全没有结果。说明在美国区的中文搜索算法还保持原样。
APPYING康轶文 观察后的感受:
1. 苹果App Store在调整对中文关键词搜索的排序算法,现在只是刚开始;
2. 算法中的中文词库还很稚嫩,因为连“微博”都不认识,这个词库有点旧;
3. 现在苹果开始动关键词搜索算法了,说明ASO(App Store Keyword Optimization苹果商店关键词搜索排名优化)的市场将在1年左右形成。

4. 根据关键词检索论文用什么推荐算法最合适

必须在Ei Compendex 数据库中进行检索。
第一步:选择检索字段为“Subject/Title/Abstract”;
第二步:在检索框中输入关键词,点击“Search”按钮,得到检索结果;
第三步:在检索结果页面左栏点击“Country”,选择“China”,在左栏上方点击“Limit to”按钮,得到中国人发表的论文;
第四步:在检索结果左栏下方点击“Source Title”按钮,查看中国人习惯发表适合你的关键词的期刊。
如果需要进一步了解这些期刊的信息,可在“谷歌”中搜索。也可在“雅虎”中搜索。

5. 关键词密度究竟怎么算关键词出现次数究竟怎么算

关键词密度(Keyword Density)与关键词频率(Keyword Frequency)所阐述的实质上是同一个概念,用来量度关键词在网页上出现的总次数与其他文字的比例,一般用百分比表示。相对于页面总字数而言,关键词出现的频率越高,关键词密度也就越大。很多SEO前辈都回答过这个问题。答案分别是:2-9%、3-8%、低于10%、5%左右,你自己选一个吧。关键词密度是一个模糊的概念而不是绝对。不要太在意关键词密度值,合理优化即可。关键词密度是一个模糊的概念,没有一个准确的公式来限定其密度。各家搜索引擎的密度值控制都不一样,甚至是同一家的搜索引擎,对不同网站的关键词密度的大小所能允许的容忍阈值也不相同,比如同样一个页面,新浪、CCTV的网站密度值达到20%可能就没有什么事情,你的估计就马上被屏蔽了。这还涉及到了搜索引擎的信任值问题。
关键词密度并不是越高越好。一般说来,在大多数的搜索引擎中,关键词密度在2%~8%是一个较为适当的范围,有利于网站在搜索引擎中排名,同时也不虞被搜索引擎视为关键词Spam。个人感觉在网络上的关键字密度对排名较为重要,5%左右的密度应该是比较理想的,Google的可以更高些。
要正确理解关键词密度,首先得理解什么是关键词?关键词就是搜索者在查找信息、产品或服务时,在搜索引擎界面中输入的词条。一般的规则是,关键词越长,从搜索引擎索引中返回的信息也就越精确。关键词密度(Keyword Density)也叫关键词频率(Keyword Frequency),所阐述的实质上是同一个概念,它是用来量度关键词在网页上出现的总次数与其他文字的比例,一般用百分比表示。相对于页面总字数而言,关键词出现的频率越高,那么关键词密度也就越大。简单地举个例子,如果某个网页共有100个字符,而关键词本身是两个字符并在其中出现5次,则可以说关键词密度为10%。
当然,这个例子只是一种理想的简化方式,它没有有效包括HTML代码里面的诸如meta 标签中的Title、Keywords、Description,图像元素的Alt文本、注释文本等,这些在计算关键词密度时也都要考虑在内的。同样地,在计算关键词密度时,也不仅仅指网页可见部分中关键词出现的次数,也包括在上文中提到的非可见部分中的出现次数。同时,也要考虑Stop Words(停用词) ,这些词往往会在很大程度上稀释关键词密度。搜索引擎在算法上要比这复杂得多,但基本策略与此近似。
查询方法
推荐上"页面关键词密度查询"查询网页关键词的密度。
相对网络,Google搜索引擎赋予关键词密度的权重更小了,很多排名靠前的网页关键词密度可能高到20%以上,也可能完全没有关键词。独孤天骄曾经专门就这个观点做个实践,通过一个布满关键词的页面进行观察,网络更重视的是关键词密度,而Google相对而言,重视更多的则是外部链接的建立。

6. 请问谁知道asp关键词搜索最大匹配算法

要实现最大匹配算法,首先要有一个词库,根据词库把关键词的中的词语分出来,然后逐个词语搜索
用asp实现最大匹配算法是不理智的,asp是解释型语言,遍历词库查找词语将会非常缓慢

7. 搜索引擎对关键字的排序涉及到的因素有哪些

主要原因:

1、网站与搜索关键词的相关性


网站的主题和关键词匹配是非常重要的,网站主题和内容保持一致性也是这个道理,而且如果站点跨领域去发布导流内容,会被搜索识别,被判罚的例子也不少。而且,如果用户搜索的关键词与你网站是相关的,用户在网站内的转化点击也会高。


2、内容和搜索关键词相关性


目前网络及其他搜索引擎都越来越重视了内容生态的维护,让更多的原创作者获得更多收益,内容主题跟搜索关键词的相关性越高,获得排序有待的机会也越大。简单说如果网站内容足够丰富,能满足搜索用户的所有需求,那么一般这样的内容,展现和点击一定不会差到哪里去。


3、时效性


类似于新闻等具备时效性的内容,越快发现热点,且内容能够被搜索引擎发现,那么在流量上相信你也可以获得到更多。


4、网站访问速度


网站的访问速度一定要特别重视,网络前段时间推出了闪电算法就是针对访问速度的,特别是移动端访问速度差的站点影响特别大,另外网络搜索资源平台上推出了移动搜索建站优化白皮书,大家可以多学习一下,按照规则来。


5、网站评价


网站评价也可以说是网站的权威性,站长圈说的权重,是根据网站的规模、历史表现、站点关系网等多个维度进行的一个综合评定,对于我们来说一时半会是肯定无法提高网站评价的,只能够努力做好内容做好用户体验,等度娘或其他搜索引擎给予加权。



6、网站内外链


虽然随着搜索引擎算法的不断更新,网站内外链接的影响越来越小,但是网站合理的内链还是必不可少的,因为合理的内链有利于搜索引擎蜘蛛爬行网站,提高网站被收录的几率。

7、代码优化

title、keywords、description能够帮助搜索引擎快速了解网站内容,将关键词合理布局在其中能够对关键词排名起到莫大的帮助。此外,标签对强调网页主体内容有很大帮助。一般情况下网页logo图的alt属性可以使用标签进行强调,页面的导航或重要的栏目标题也用标签进行强调。

8、从左到右按重要区分部署关键词

用户无论是看标题还是阅读文章都是从左到右,搜索引擎也一样,标题权重是从左到右慢慢分散的,所以我们在部署关键词的时候尽量把重要的关键词放在左边依后顺序。


其他原因

一:人为的优化操作行为造成

二:黑客入侵

三:网站服务器的稳定性

四:搜索引擎算法更新

望采纳

8. 搜索引擎关键字如何优化

1. 搜索引擎营销 (SEM)
搜索引擎营销(SEM)英文全称为Search Engine Marketing,意指通过搜索引擎进行服务和产品的营销。搜索引擎营销又主要分为两种:搜索引擎优化(SEO)和付费点击(PPC,Pay-Per- Click)。搜索引擎优化(SEO)指通过优化网站和页面并让它们在搜索结果的页面中展示,而付费点击(PPC)指通过购买搜索引擎的点击将用户带到自 己的网站。(通常)这些点击来自搜索结果页面中的“赞助商链接”(译注:显然不适用于网络)。
2. 反向链接(Backlink)
反向链接(Backlink)又称为“回指链接”“入链”和“简易链接”,指从其他网站指向你的网站的一个超级链接。反向链接之所以对SEO异常重要,是因为它们直接影响一个网页的页面等级(PageRank),以及这个页面在搜索结果中的排名。
3. 页面等级(PageRank)
页面等级( PageRank) 是Goolgle用来评估一个页面相对于其他页面的重要性的一个算法规则。这个算法规则最基本的意思就是说,如果A页面有一个链接指向B页面,那就可以看 作是A页面对B页面的一种信任或推荐。所以,如果一个页面的反向链接越多,再根据这些链接的价值加权越高,那搜索引擎就会判断这样的页面更为重要,页面等 级(PageRank)也就越高。
4. 链接诱饵(饵链)(Linkt)
链接诱饵(Linkt),顾名思义这是一个网站或一个博客上为了尽可能多地吸引反向链接(目的是提高网站的PR值)而存在的一段内容。通常,这些做 为诱饵的内容为文字内容,但也可以是一段视频、一张图片、一个测验或其他的热门的内容。最经典的诱饵内容的例子是“十大(Top 10)”,因为这样的内容在一些社交网站很容易流行起来成为热门话题(译注:这个话题貌似已经臭街了)。
5. 互链车间或互链作坊(Link farm)
互链工厂或互链作坊(Link farm)是指很多网站(通常数量很大)为了提高组成一个类似车间或作坊式的团体,通过彼此的互相链接来提高团体每一个的网站的页面评级的手段。早期,这种方法很有用,但现在已经成为一种不耻的作弊手段(并可能会收到惩罚)。
6. 锚文本(Anchor text)
锚文本(Anchor text)在反向链接中是指一个页面中可点击的文本,而其中的关键词对搜索引擎优化(SEO)有很大的帮助,因为Google会将这些关键词和你的内容关联起来。
7. 链接属性-NoFollow
Nofollow是网站管理员使用的一个链接属性,其目的是告诉搜索引擎他们并不是为该链接所指向的网站投票。这种链接也可能是网站用户自己创造的内容 (比如博客评论中的链接),或者是一个付费交易的链接(比如广告或赞助商的链接)。当Google识别到这些反向链接的NoFollow属性后,基本就不 会在页面评级和搜索结果排名的算法中将这些链接的贡献计算在内了。
8. 链接修饰(Link Sculpting)
链接修饰(Link Sculpting)是指网站管理员对网站上其他网站的反向链接进行属性设置。比如,管理员给链接添加Nofollow属性,这可以让管理员决定利用自己 的网站为具体某个网站提高页面评级,或者不帮助具体某个网站提高网页评级。不过,现在这种做法的作用已经微乎其微,因为Google已经决定要用自己的算 法来决定怎么处理链接的Nofollow属性。
9. 页面标题(Title Tag)
页面标题(Title Tag),顾名思义是指一个页面的标题中,这也是Google搜索算法中最重要的一个参考。理论上,你的页面标题要独一无二并尽可能多地包括页面内容中的关键词。你在浏览网页时可以从浏览器最上方看到一个网页的标题。
10. 元标签(Meta Tags)
元标签(Meta Tags)和页面标题一般,主要用于为搜索引擎提供更多关于你页面内容的信息。元标签位于HTML代码的头部,还有就是对长眼睛的访客是不可见的。
11. 搜索算法(Search Algorithm)
Google的搜索算法是为了给每一次搜索请求找到最为相关的网站和页面而设定。这个算法考量的因素超过200种(谷歌自称),其中包括页面等级、标题、元标签、网站内容,以及域名的年龄等。
12. 搜索结果页面(SERP)
搜索结果页面(SERP)的英文全称为Search Engine Results Page.基本上,这就是你平时在Google键入关键词回车后的页面了。你的网站从这个页面得到的流量取决于你的网站在搜索结果中的排名等级。
13. 沙盒(Sandbox)
Google除了所有网站的索引之外,还有一个单独的索引沙盒,那里面是新近发现和收录的网站。当你的网站存在这个沙盒之中时,它就不会在一般的搜索结果中出现,而只有当Google确认了你的网站是合法的,这才会将其从沙盒中移出进入所有网站的索引。
14. 关键词密度(Keyword Density)
如何判断一个特定页面的关键词密度?你只要将一个关键词使用的次数除以页面的总词数就可以了。关键词密度过去是搜索引擎优化中非常重要的一个因素,因为早期的搜索算法对此十分看重,但现在已经时过境迁了。
15.关键词堆积(Keyword Stuffing)
因为早期搜索算法对关键词密度非常看重,站长们便通过使用人工堆积关键词的手法来作弊和蒙骗搜索引擎。这种手法就叫做关键词堆积,当然现在已经没用了,而且你还可能会因此受到惩罚。
16. 障眼法(Cloaking)
障眼法(Cloaking)是指利用代码在同一个页面上让机器人和真人看到不一样的内容。其目的是为了让页面通过关键词而提升页面评级,而真正的目的是推销和出售各种不相关的产品或服务。当然,这也是一种作弊的手段,有很大可能会受到搜索引擎惩罚,甚至剔除。
17. 网络爬虫或网络蜘蛛(Web Crawler)
网络爬虫或网络蜘蛛(Web Crawler)也简称为爬虫或蜘蛛,代表搜索引擎在网路上进行浏览,目的是发现新的链接和页面,这是进行索引的第一个环节。
18. 复制内容(Duplicate Content)
复制内容(Duplicate Content)也叫“重复内容”,通常是指一个页面在引用了站内或站外的大段实质内容,或者是存在完全相同和极其相似的情况,而这也是一个网站应该尽量避免发生的情况,否则很容易让你的网站受到惩罚。
19. 标准链接(Canonical URL)
标准链接(Canonical URL)是指一个网页的链接要符合规范和标准。
20. 机器人协议(Robots.txt)
机器人协议(Robots.txt)不过是一个TXT文本文件,存在于你域名根目录之下,作用是将网站的目录结构信息告诉爬虫和蜘蛛,并限制其对特定文件夹和内容的访问,或者是完全将它们关在门外。

9. java关键字查询算法

import java.io.FileReader;
import java.io.BufferedReader;
import java.io.File;

public class search
{
//查找方法,参数,文件绝对路径,查找关键字
public static boolean search(String filepath,String key)
{
try
{
File f = new File(filepath);
FileReader fr = new FileReader(f);
BufferedReader br = new BufferedReader(fr);
String s = "";
//int i = 1;
while((s = br.readLine()) != null)
{
if(s.indexOf(key) != -1)
{
return true;
}
}
return false;
}
catch(Exception e)
{
e.printStackTrace();
return false;
}
}
public static void main(String args[])
{
System.out.println(search.search("d://t.txt","l2"));
}
}

修改了下,加两个变量,可以指出查找的位置。
import java.io.FileReader;
import java.io.BufferedReader;
import java.io.File;

public class search
{
//查找方法,参数,文件绝对路径,查找关键字
public static String search(String filepath,String key)
{
try
{
File f = new File(filepath);
FileReader fr = new FileReader(f);
BufferedReader br = new BufferedReader(fr);
String s = "";
int i = 1;
int m = 0;
while((s = br.readLine()) != null)
{
if((m = s.indexOf(key)) != -1)
{
return "第"+i+"段,第"+m+"处";
}
i++;
}
return null;
}
catch(Exception e)
{
e.printStackTrace();
return null;
}
}
public static void main(String args[])
{
System.out.println(search.search("d://t.txt","asd"));
}
}

这个,查汉字是没有问题的。
另外,你要全文检索的话,indexOf()还有个方法,indexOf(int start,String key),指定开始查找的位置跟关键字,你查到一处后,将这个数值加1,做为继续查找的开始位置就可以了。

阅读全文

与关键词搜索算法相关的资料

热点内容
程序反编译教学 浏览:656
ecc加密算法c语言代码 浏览:877
nvr预览提示码流已加密 浏览:740
编程怎么让飞镖掉落下来 浏览:590
如何在服务器上运行后台代码 浏览:768
安卓手机编译时间 浏览:322
php插入数据库代码 浏览:389
明日之后怎么搜索别的服务器的人 浏览:826
思迅加密锁驱动未能正常升级 浏览:141
文件夹哪个是相册跟视频 浏览:168
用函数编译计算器程序 浏览:702
保卖数码是哪个app 浏览:133
汽车级单片机特点 浏览:280
visualstudio教程pdf 浏览:644
oracle命令窗口 浏览:984
51单片机开发板应用演示 浏览:490
编译程序利用子函数计算 浏览:1003
编译terminated 浏览:988
1u服务器如何才能静音 浏览:213
用python写登陆接口 浏览:558