⑴ 如何通过SEO让流量“飞”起来
由于,搜索引擎不断在更新。因此,我们并不保证这些SEO建议的时效性。只能说是目前对于外贸网站来说,会起到一定的帮助。以下为思亿欧对外贸网站SEO的建议,相信按此改进会让您的网站流量飞起来。
一、英文B2C网站的结构优化:
网站结构是SEO中比较重要的一点,网站结构的设计需要根据网站规模的大小来定。它没有一个既定通用的模式。网站结构设计的好坏会直接影响网站的PR值传递、网页排名的提升,还有搜索引擎收录等问题。
网站结构一般有两种:1、树型;2、扁平型。采用树型网站结构的站点,占多数。主要是因为这种类型的网站结构具有比较清晰的层次,逻辑关系。即从高到低,从总到细,一层层的细分。
扁平型的网站结构,就如http://www.seo.com.cn一样。
大型网站数据量在几万、几十万级别的,比较适合应用树型网站结构,因为条理清楚,逻辑清晰。
中小网站数据量在几百,几千级别的,比较适合用扁平型网站结构,文件数量不多的站点。这两种网站结构对于一些长尾关键词的竞争有明显优势。同时也因为网站的规模比较小,这种网站结构也更利于PR值的传递。
不管是这其中哪种网站结构,基本上不会影响到网站的收录。因为现在搜索引擎的蜘蛛程序也已经相当高级。
我们需要做的就是布置合理的、清晰的网站结构,让搜索引擎的蜘蛛能够顺畅的爬行到网站中的任何一个网页即可。
二、英文B2C网站的URL优化:
即每个网页的网址、路径。网站文件的目录结构直接体现于URL。清晰简短的目录结构和规范的命名不仅有利干用户体验和网址传播,要是搜索引擎友好的体现。
网站的URL从网站规划起,当固定了之后,就不应该再改变了。因为每一个URL当被搜索引擎收录之后,就在慢慢的积累信用,也就是域名信任度。所以,如果能够让URL不发生变化的话就千万不要去改动URL。
一些对搜索引擎不太了解的朋友常说,网站的URL太长了,搜索引擎好难收录,其实这是一个错误的观点。从现在的搜索引擎算法来看,对于一些动态的URL,搜索引擎也能够索引自如了。
对URL优化的几个建议:
1、要保证URL不发生变化。
2、URL能静态化的尽量静态化,或者伪静态。
3、每个网页的URL尽量简单好记,有含义,别太长。
4、通过几个单词可以体现出网页的意思。
5、如果必须为动态URL,别夹带太多的参数。
三、英文B2C网站的内容优化:
网站内容是搜索引擎优化中重要的优化点,尽管即使不是为了搜索引擎优化的话,网站内容也是一个网站的核心。
因为搜索引擎并不能够很好的索引和理解图片、Flash等多媒体信息的含义。所以文字信息,是被搜索引擎当作是一个网页或网站中的核心。搜索引擎分析网页文本内容的核心大意,判断这些文章的质量,最终进行搜索排序。所以,内容有40%的因素可以决定排名的高低。
我们简单将文本内容归类为:权威性,信任度,唯一性,完整性等4个方面。搜索引擎判断一段内容的质量,基本会从这4个方面进行判断。
外贸网站通常都会有很多的产品页面,而这些产品的信息又很大部分是差不多的。如果要降低页面的重复度的话,那就要尽可能地把产品的重要信息,优先显示在页面的顶部。例如:
1、标题上调用出产品的重要属性。即:产品名+重要属性的组合方式。
2、网页描述中结合多个产品属性进行优化。
3、给产品图片增加alt=””属性。例如:alt=”银灰色诺基亚N82手机”
4、给产品写200-300字左右的介绍。
5、多鼓励用户参与网站产品的评论,写的越详细越好。网站用户的评论,也是丰富产品信息的主要方式。
四、英文B2C网站的关键词分析:
关键词,在SEO中扮演着重要的角色。其重要程度不亚于网站内容、内部链接与外部链接等因素。时至今日的SEO行业,各个企业在各个搜索引擎上已经展开了激烈的战斗。除了比拼各自的SEO团队实力、资源以及SEO策略外,还有重要的一点就是关键词策略。所谓的关键词策略就是如何选择有效的关键词以及如何进行关键词部署。
每个SEO都会把关键词分为三、六、九等,例如常说一些,一级关键词、二级关键词、长尾关键词。将所有的关键词分等级有助你清晰的知道,哪个等级的关键词用什么样的网站页面优化的SEO策略去进行优化。
在选择关键词的问题上,一般都会认为是一件很简单的事,其实不然。如果不注意其中的技巧,往往会误入歧途,造成投入和产出不成正比。在选择关键词时企业应该注意以下几方面。
(1)选择与网站内容相关的关键词。即便是一个对关键词选择技巧一无所知的人,常识也会让他避免在销售家电时却选择诸如“食品”之类的毫不相干的关键词。同样道理,如果靠不相关的关键词吸引来的用户,对企业产品/服务的销售起不到任何作用。
(2)选择具体的关键词。关键词覆盖范围并不是越宽越好,因为意义越宽泛的关键词,其对应的信息需求种类也越多。有的用户以该关键词搜索的目的可能是要购买相关的产品,但更多的也许是其他方面的需求,并不一定会导致消费行为。
这一点在关键词竞价排名当中体现得尤为突出。由于企业必须为用户的没一次点击付费,企业当然是希望尽量只为那些能够转化成企业客户的人支付点击费,而含义宽泛的关键词却恰好会产生相反的结果。
提供几个建议:
1.https://adwords.google.cn/select/KeywordToolExternal Google关键词工具。
2、从同行网站中寻找相关关键词。
五、英文B2C网站的链接相关性优化:
相关性是搜索引擎排序的重要参考因素,一个网站、网页的相关性越高,那么它的排名可能就越高。大型网站信息量大,如何能做好相关性优化是SEO重点。对于相关性的搜索引擎工作原理,相信大部分的SEOER对于都缺乏了解。杭州思亿欧致力于搜索引擎技术中的相关性排名技术研究,以有多年的时间。作为职业SEO对于搜索引擎算法的研究是必须的,虽然说,我们不可能知道搜索引擎算法的全部。但是我们应该尽可能掌握搜索引擎算法的主流方向。
现阶段的相关度排序技术主要有以下几种:一是基于传统信息检索技术的方式,它主要利用关键词本身在文档中的重要程度来对文档与用户查询要求的相关度做出测量,如利用网页中关键词出现的频率和位置。一般而言,检索出的网页文档中含有的查询关键词个数越多,相关性越大,并且此关键词的区分度越高;同时,查询关键词如果出现在诸如标题字段等重要位置上,则比出现在正文的相关度要大。二是超链分析技术,使用此技术的代表性搜索引擎有Google和Bai等。和前者相比,它以网页被认可的重要程度作为检索结果的相关度排序依据。相关度排序技术主要依赖于超链分析技术实现。超链分析技术可以提供多种功能,其中的主要功能就是解决结果网页的相关度排序问题。它主要是利用网页间存在的各种超链指向,对网页之间的引用关系进行分析,依据网页链人数的多少计算该网页的重要度权值。一般认为,如果A网页有超链指向B网页,相当于A网页投了B 网页一票,即A认可了B网页的重要性。深入理解超链分析算法,可以根据链接结构把整个Web网页文档集看成一个有向的拓扑图,其中每个网页都构成图中的一个结点,网页之间的链接就构成了结点间的有向边,按照这个思想,可以根据每个结点的出度和入度来评价网页的重要性。
如何优化相关性,建议:尽可能地从相关类型的网站中获得链接。不管是首页、频道页、列表页还是文章页都好。只要是相关性的链接,链接的价值都不会低。当然来自于首页的链接,肯定是会比其他页面的价值要高。
六、英文B2C网站的标题优化:
标题虽然只有简单的十多个文字,但它确实是文章精髓中的精髓。标题好比商品价码标签。用它来向你的潜在买主打招呼。我们并不主张纯粹意义上的只从SEO的角度去优化网页的标题。
标题的优化应该是结合SEO与客户的实际营销需求而制定,标题若能引起读者的好奇心,他们很可能就会去读你的广告的正文。因此,在标题结尾前,你应该写点诱人继续往下读的东西进去。避免使用有字无实的瞎标题,就是那种读者不读后面的正文就不明其意的标题,而大多数人在遇到这种标题时是不会去读后面的正文的。
深度了解客户的营销需求,结合网络用户在搜索引擎上的行为习惯,才能够最大化发挥网页标题的作用。让网页发挥营销的价值,为客户捕捉更多的潜在用户。所以,标题看似简单的十多个文字,但其实是所有优化的重中之重。我们提倡优化与营销结合,只有这样才能够发挥SEO的作用。
提供以下几个建议:
1、产品终端页标题:产品名_分类名_网站名,绝大部分是这样的格式。如果产品太长的时候,可以省去分类名。同时发现大部分的产品名都太长,建议外贸网站的SEO可以重点突出下产品名的核心关键词。去掉没有必要的文字。
2、列表页标题:分类名_网站名,列表页的标题基本上是这种格式。列表页基本的内容都是一种产品的分类。在标题长度允许的情况下,结合营销手段,在标题中经常更新推荐1、2款产品。没有必要只是单独考虑SEO。
3、频道页标题:频道名_网站名。频道页通常是一个大分类的概括。建议在频道页的标题上增加相关的1、2个热门关键词。
4、首页标题:通常格式为:核心关键词_简短描述。针对1、2个核心关键词进行优化。
⑵ WEB超链分析算法的WEB超链分析算法
搜索引擎Google最初是斯坦福大学的博士研究生Sergey Brin和Lawrence Page实现的一个原型系统[2],现在已经发展成为WWW上最好的搜索引擎之一。Google的体系结构类似于传统的搜索引擎,它与传统的搜索引擎最大的不同处在于对网页进行了基于权威值的排序处理,使最重要的网页出现在结果的最前面。Google通过PageRank元算法计算出网页的PageRank值,从而决定网页在结果集中的出现位置,PageRank值越高的网页,在结果中出现的位置越前。
2.1.1PageRank算法
PageRank算法基于下面2个前提:
前提1:一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页。这种重要的网页称为权威(Authoritive)网页。
前提2:假定用户一开始随机的访问网页集合中的一个网页,以后跟随网页的向外链接向前浏览网页,不回退浏览,浏览下一个网页的概率就是被浏览网页的PageRank值。
简单PageRank算法描述如下:u是一个网页,是u指向的网页集合,是指向u的网页集合,是u指向外的链接数,显然=| | ,c是一个用于规范化的因子(Google通常取0.85),(这种表示法也适用于以后介绍的算法)则u的Rank值计算如下:
这就是算法的形式化描述,也可以用矩阵来描述此算法,设A为一个方阵,行和列对应网页集的网页。如果网页i有指向网页j的一个链接,则,否则=0。设V是对应网页集的一个向量,有V=cAV,V为A的特征根为c的特征向量。实际上,只需要求出最大特征根的特征向量,就是网页集对应的最终PageRank值,这可以用迭代方法计算。
如果有2个相互指向的网页a,b,他们不指向其它任何网页,另外有某个网页c,指向a,b中的某一个,比如a,那么在迭代计算中,a,b的rank值不分布出去而不断的累计。如下图:
为了解决这个问题,Sergey Brin和Lawrence Page改进了算法,引入了衰退因子E(u),E(U)是对应网页集的某一向量,对应rank的初始值,算法改进如下:
其中,=1,对应的矩阵形式为V’=c(AV’+E)。
另外还有一些特殊的链接,指向的网页没有向外的链接。PageRank计算时,把这种链接首先除去,等计算完以后再加入,这对原来计算出的网页的rank值影响是很小的。
Pagerank算法除了对搜索结果进行排序外,还可以应用到其它方面,如估算网络流量,向后链接的预测器,为用户导航等[2]。
2.1.2算法的一些问题
Google是结合文本的方法来实现PageRank算法的[2],所以只返回包含查询项的网页,然后根据网页的rank值对搜索到的结果进行排序,把rank值最高的网页放置到最前面,但是如果最重要的网页不在结果网页集中,PageRank算法就无能为力了,比如在 Google中查询search engines,像Google,Yahoo,Altivisa等都是很重要的,但是Google返回的结果中这些网页并没有出现。 同样的查询例子也可以说明另外一个问题,Google,Yahoo是WWW上最受欢迎的网页,如果出现在查询项car的结果集中,一定会有很多网页指向它们,就会得到较高的rank值, 事实上他们与car不太相关。
在PageRank算法的基础上,其它的研究者提出了改进的PageRank算法。华盛顿大学计算机科学与工程系的Matthew Richardson和Pedro Dominggos提出了结合链接和内容信息的PageRank算法,去除了PageRank算法需要的前提2,增加考虑了用户从一个网页直接跳转到非直接相邻的但是内容相关的另外一个网页的情况[3]。斯坦大学计算机科学系Taher Haveliwala提出了主题敏感(Topic-sensitive)PageRank算法[4]。斯坦福大学计算机科学系Arvind Arasu等经过试验表明,PageRank算法计算效率还可以得到很大的提高[22]。 PageRank算法中对于向外链接的权值贡献是平均的,也就是不考虑不同链接的重要性。而WEB的链接具有以下特征:
1.有些链接具有注释性,也有些链接是起导航或广告作用。有注释性的链接才用于权威判断。
2.基于商业或竞争因素考虑,很少有WEB网页指向其竞争领域的权威网页。
3.权威网页很少具有显式的描述,比如Google主页不会明确给出WEB搜索引擎之类的描述信息。
可见平均的分布权值不符合链接的实际情况[17]。J. Kleinberg[5]提出的HITS算法中引入了另外一种网页,称为Hub网页,Hub网页是提供指向权威网页链接集合的WEB网页,它本身可能并不重要,或者说没有几个网页指向它,但是Hub网页确提供了指向就某个主题而言最为重要的站点的链接集合,比一个课程主页上的推荐参考文献列表。一般来说,好的Hub网页指向许多好的权威网页;好的权威网页是有许多好的Hub网页指向的WEB网页。这种Hub与Authoritive网页之间的相互加强关系,可用于权威网页的发现和WEB结构和资源的自动发现,这就是Hub/Authority方法的基本思想。
2.2.1HITS算法
HITS(Hyperlink-Inced Topic Search)算法是利用Hub/Authority方法的搜索方法,算法如下:将查询q提交给传统的基于关键字匹配的搜索引擎.搜索引擎返回很多网页,从中取前n个网页作为根集(root set),用S表示。S满足如下3个条件:
1.S中网页数量相对较小
2.S中网页大多数是与查询q相关的网页
3.S中网页包含较多的权威网页。
通过向S中加入被S引用的网页和引用S的网页将S扩展成一个更大的集合T.
以T中的Hub网页为顶点集Vl,以权威网页为顶点集V2,Vl中的网页到V2中的网页的超链接为边集E,形成一个二分有向图SG=(V1,V2,E)。对V1中的任一个顶点v,用h(v)表示网页v的Hub值,对V2中的顶点u,用a(u)表示网页的Authority值。开始时h(v)=a(u)=1,对u执行I操作修改它的a(u),对v执行O操作修改它的h(v),然后规范化a(u),h(v),如此不断的重复计算下面的操作I,O,直到a(u),h(v)收敛。(证明此算法收敛可见)
I 操作: (1) O操作: (2)
每次迭代后需要对a(u),h(v)进行规范化处理:
式(1)反映了若一个网页由很多好的Hub指向,则其权威值会相应增加(即权威值增加为所有指向它的网页的现有Hub值之和)。式(2)反映了若一个网页指向许多好的权威页,则Hub值也会相应增加(即Hub值增加为该网页链接的所有网页的权威值之和)。
和PageRank算法一样,可以用矩阵形式来描述算法,这里省略不写。
HITS算法输出一组具有较大Hub值的网页和具有较大权威值的网页。
2.2.2HITS的问题
HITS算法有以下几个问题:
1.实际应用中,由S生成T的时间开销是很昂贵的,需要下载和分析S中每个网页包含的所有链接,并且排除重复的链接。一般T比S大很多,由T生成有向图也很耗时。需要分别计算网页的A/H值,计算量比PageRank算法大。
2.有些时候,一主机A上的很多文档可能指向另外一台主机B上的某个文档,这就增加了A上文档的Hub值和B上文档的Authority,相反的情况也如此。HITS是假定某一文档的权威值是由不同的单个组织或者个人决定的,上述情况影响了A和B上文档的Hub和Authority值[7]。
3.网页中一些无关的链接影响A,H值的计算。在制作网页的时候,有些开发工具会自动的在网页上加入一些链接,这些链接大多是与查询主题无关的。同一个站点内的链接目的是为用户提供导航帮助,也与查询主题不甚无关,还有一些商业广告,赞助商和用于友情交换的链接,也会降低HITS算法的精度[8]。
4.HITS算法只计算主特征向量,也就是只能发现T集合中的主社区(Community),忽略了其它重要的社区[12]。事实上,其它社区可能也非常重要。
5.HITS算法最大的弱点是处理不好主题漂移问题(topic drift)[7,8],也就是紧密链接TKC(Tightly-Knit Community Effect)现象[8]。如果在集合T中有少数与查询主题无关的网页,但是他们是紧密链接的,HITS算法的结果可能就是这些网页,因为HITS只能发现主社区,从而偏离了原来的查询主题。下面讨论的SALSA算法中解决了TKC问题。
6.用HITS进行窄主题查询时,可能产生主题泛化问题[5,9],即扩展以后引入了比原来主题更重要的新的主题,新的主题可能与原始查询无关。泛化的原因是因为网页中包含不同主题的向外链接,而且新主题的链接具有更加的重要性。
2.2.3HITS的变种
HITS算法遇到的问题,大多是因为HITS是纯粹的基于链接分析的算法,没有考虑文本内容,继J. Kleinberg提出HITS算法以后,很多研究者对HITS进行了改进,提出了许多HITS的变种算法,主要有:
2.2.3.1Monika R. Henzinger和Krishna Bharat对HITS的改进
对于上述提到的HITS遇到的第2个问题,Monika R. Henzinger和Krishna Bharat在[7]中进行了改进。假定主机A上有k个网页指向主机B上的某个文档d,则A上的k个文档对B的Authority贡献值总共为1,每个文档贡献1/k,而不是HITS中的每个文档贡献1,总共贡献k。类似的,对于Hub值,假定主机A上某个文档t指向主机B上的m个文档,则B上m个文档对t的Hub值总共贡献1,每个文档贡献1/m。I,O操作改为如下
I 操作:
O操作:
调整后的算法有效的解决了问题2,称之为imp算法。
在这基础上,Monika R. Henzinger和Krishna Bharat还引入了传统信息检索的内容分析技术来解决4和5,实际上也同时解决了问题3。具体方法如下,提取根集S中的每个文档的前1000个词语,串连起来作为查询主题Q,文档Dj和主题Q的相似度按如下公式计算:
,,=项i在查询Q中的出现次数,
=项i在文档Dj中的出现次数,IDFi是WWW上包含项i的文档数目的估计值。
在S扩展到T后,计算每个文档的主题相似度,根据不同的阈值(threshold)进行刷选,可以选择所有文档相似度的中值,根集文档相似度的中值,最大文档相似度的分数,如1/10,作为阈值。根据不同阈值进行处理,删除不满足条件的文档,再运行imp算法计算文档的A/H值,这些算法分别称为med,startmed,maxby10。
在此改进的算法中,计算文档的相似度时间开销会很大。
2.2.3.2ARC算法
IBM Almaden研究中心的Clever工程组提出了ARC(Automatic Resource Compilation)算法,对原始的HITS做了改进,赋予网页集对应的连结矩阵初值时结合了链接的锚(anchor)文本,适应了不同的链接具有不同的权值的情况。
ARC算法与HITS的不同主要有以下3点:
1.由根集S扩展为T时,HITS只扩展与根集中网页链接路径长度为1的网页,也就是只扩展直接与S相邻的网页,而ARC中把扩展的链接长度增加到2,扩展后的网页集称为增集(Augment Set)。
2.HITS算法中,每个链接对应的矩阵值设为1,实际上每个链接的重要性是不同的,ARC算法考虑了链接周围的文本来确定链接的重要性。考虑链接p->q,p中有若干链接标记,文本1<a href=”q”>锚文本</a>文本2,设查询项t在文本1,锚文本,文本2,出现的次数为n(t),则w(p,q)=1+n(t)。文本1和文本2的长度经过试验设为50字节[10]。构造矩阵W,如果有网页i->j ,Wi,j=w(i,j),否则Wi,j=0,H值设为1,Z为W的转置矩阵,迭代执行下面3个的操作:
(1)A=WH (2)H=ZA (3)规范化A,H
3.ARC算法的目标是找到前15个最重要的网页,只需要A/H的前15个值相对大小保持稳定即可,不需要A/H整个收敛,这样2中迭代次数很小就能满足,[10]中指出迭代5次就可以,所以ARC算法有很高的计算效率,开销主要是在扩展根集上。
2.2.3.3Hub平均( Hub-Averaging-Kleinberg)算法
Allan Borodin等在[11]指出了一种现象,设有M+1个Hub网页,M+1个权威网页,前M个Hub指向第一个权威网页,第M+1个Hub网页指向了所有M+1个权威网页。显然根据HITS算法,第一个权威网页最重要,有最高的Authority值,这是我们希望的。但是,根据HITS,第M+1个Hub网页有最高的Hub值,事实上,第M+1个Hub网页既指向了权威值很高的第一个权威网页,同时也指向了其它权威值不高的网页,它的Hub值不应该比前M个网页的Hub值高。因此,Allan Borodin修改了HITS的O操作:
O操作: ,n是(v,u)的个数
调整以后,仅指向权威值高的网页的Hub值比既指向权威值高又指向权威值低的网页的Hub值高,此算法称为Hub平均(Hub-Averaging-Kleinberg)算法。
2.2.3.4阈值(Threshhold—Kleinberg)算法
Allan Borodin等在[11]中同时提出了3种阈值控制的算法,分别是Hub阈值算法,Authority阈值算法,以及结合2者的全阈值算法。
计算网页p的Authority时候,不考虑指向它的所有网页Hub值对它的贡献,只考虑Hub值超过平均值的网页的贡献,这就是Hub阈值方法。
Authority阈值算法和Hub阈值方法类似,不考虑所有p指向的网页的Authority对p的Hub值贡献,只计算前K个权威网页对它Hub值的贡献,这是基于算法的目标是查找最重要的K个权威网页的前提。
同时使用Authority阈值算法和Hub阈值方法的算法,就是全阈值算法 PageRank算法是基于用户随机的向前浏览网页的直觉知识,HITS算法考虑的是Authoritive网页和Hub网页之间的加强关系。实际应用中,用户大多数情况下是向前浏览网页,但是很多时候也会回退浏览网页。基于上述直觉知识,R. Lempel和S. Moran提出了SALSA(Stochastic Approach for Link-Structure Analysis)算法[8],考虑了用户回退浏览网页的情况,保留了PageRank的随机漫游和HITS中把网页分为Authoritive和Hub的思想,取消了Authoritive和Hub之间的相互加强关系。
具体算法如下:
1.和HITS算法的第一步一样,得到根集并且扩展为网页集合T,并除去孤立节点。
2.从集合T构造无向图G’=(Vh,Va,E)
Vh = { sh | s∈C and out-degree(s) > 0 } ( G’的Hub边).
Va = { sa | s∈C and in-degree(s) > 0 } (G’的Authority边).
E= { (sh , ra) |s->r in T}
这就定义了2条链,Authority链和Hub链。
3.定义2条马尔可夫链的变化矩阵,也是随机矩阵,分别是Hub矩阵H,Authority矩阵A。
4.求出矩阵H,A的主特征向量,就是对应的马尔可夫链的静态分布。
5.A中值大的对应的网页就是所要找的重要网页。
SALSA算法没有HITS中相互加强的迭代过程,计算量远小于HITS。SALSA算法只考虑直接相邻的网页对自身A/H的影响,而HITS是计算整个网页集合T对自身AH的影响。
实际应用中,SALSA在扩展根集时忽略了很多无关的链接,比如
1.同一站点内的链接,因为这些链接大多只起导航作用。
2.CGI 脚本链接。
3.广告和赞助商链接。
试验结果表明,对于单主题查询java,SALSA有比HITS更精确的结果,对于多主题查询abortion,HITS的结果集中于主题的某个方面,而SALSA算法的结果覆盖了多个方面,也就是说,对于TKC现象,SALSA算法比HITS算法有更高的健壮性。
2.3.1BFS(Backword Forward Step)算法
SALSA算法计算网页的Authority值时,只考虑网页在直接相邻网页集中的受欢迎程度,忽略其它网页对它的影响。HITS算法考虑的是整个图的结构,特别的,经过n步以后,网页i的Authority的权重是,为离开网页i的的路径的数目,也就是说网页j<>i,对i的权值贡献等于从i到j的路径的数量。如果从i到j包含有一个回路,那么j对i的贡献将会呈指数级增加,这并不是算法所希望的,因为回路可能不是与查询相关的。
因此,Allan Borodin等[11]提出了BFS(Backward Forward Step)算法,既是SALSA的扩展情况,也是HITS的限制情况。基本思想是,SALSA只考虑直接相邻网页的影响,BFS扩展到考虑路径长度为n的相邻网页的影响。在BFS中,被指定表示能通过路径到达i的结点的集合,这样j对i的贡献依赖就与j到i的距离。BFS采用指数级降低权值的方式,结点i的权值计算公式如下:
=|B(i)|+ |BF(i)| +|BFB(i)|+……+||
算法从结点i开始,第一步向后访问,然后继续向前或者向后访问邻居,每一步遇到新的结点加入权值计算,结点只有在第一次被访问时加入进去计算。 D.Cohn and H.Chang提出了计算Hub和Authority的统计算法PHITS(Probabilistic analogue of the HITS)[12]。他们提出了一个概率模型,在这个模型里面一个潜在的因子或者主题z影响了文档d到文档c的一个链接,他们进一步假定,给定因子z,文档c的条件分布P(c|z)存在,并且给定文档d,因子z的条件分布P(z|d)也存在。
P(d) P(z|d) P(c|z) ,其中
根据这些条件分布,提出了一个可能性函数(likelihood function)L,
,M是对应的连结矩阵
然后,PHITS算法使用Dempster等提出的EM算法[20]分配未知的条件概率使得L最大化,也就是最好的解释了网页之间的链接关系。算法要求因子z的数目事先给定。Allan Borodin指出,PHITS中使用的EM算法可能会收敛于局部的最大化,而不是真正的全局最大化[11]。D. Cohn和T. Hofmann还提出了结合文档内容和超链接的概率模型[13]。 Allan Borodin等提出了完全的贝叶斯统计方法来确定Hub和Authoritive网页[11]。假定有M个Hub网页和N个Authority网页,可以是相同的集合。每个Hub网页有一个未知的实数参数,表示拥有超链的一般趋势,一个未知的非负参数,表示拥有指向Authority网页的链接的趋势。每个Authoritive网页j,有一个未知的非负参数,表示j的Authority的级别。
统计模型如下,Hub网页i到Authority网页j的链接的先验概率如下给定:
P(i,j)=Exp(+)/(1+Exp(+))
Hub网页i到Authority网页j没有链接时,P(i,j)=1/(1+Exp(+))
从以上公式可以看出,如果很大(表示Hub网页i有很高的趋势指向任何一个网页),或者和都很大(表示i是个高质量Hub,j是个高质量的Authority网页),那么i->j的链接的概率就比较大。
为了符合贝叶斯统计模型的规范,要给2M+N个未知参数(,,)指定先验分布,这些分布应该是一般化的,不提供信息的,不依赖于被观察数据的,对结果只能产生很小影响的。Allan Borodin等在中指定满足正太分布N(μ,),均值μ=0,标准方差δ=10,指定和满足Exp(1)分布,即x>=0,P(>=x)=P(>=x)=Exp(-x)。
接下来就是标准的贝叶斯方法处理和HITS中求矩阵特征根的运算。
2.5.1简化的贝叶斯算法
Allan Borodin同时提出了简化的上述贝叶斯算法,完全除去了参数,也就不再需要正太分布的参数μ,δ了。计算公式变为:P(i,j)=/(1+),Hub网页到Authority网页j没有链接时,P(i,j)=1/(1+)。
Allan Borodin 指出简化的贝叶斯产生的效果与SALSA算法的结果非常类似。 上面的所有算法,都是从查询项或者主题出发,经过算法处理,得到结果网页。多伦多大学计算机系Alberto Mendelzon, Davood Rafiei提出了一种反向的算法,输入为某个网页的URL地址,输出为一组主题,网页在这些主题上有声望(repution)[16]。比如输入,www.gamelan.com,可能的输出结果是“java”,具体的系统可以访问htpp://www.cs.toronto.e/db/topic。
给定一个网页p,计算在主题t上的声望,首先定义2个参数,渗透率和聚焦率,简单起见,网页p包含主题项t,就认为p在主题t上。
是指向p而且包含t的网页数目,是指向p的网页数目,是包含t的网页数目。结合非条件概率,引入,,是WEB上网页的数目。P在t上的声望计算如下:
指定是既指向p有包含t的概率,即,显然有
我们可以从搜索引擎(如Altavista)的结果得到,, ,WEB上网页的总数估计值某些组织会经常公布,在计算中是个常量不影响RM的排序,RM最后如此计算:
给定网页p和主题t,RM可以如上计算,但是多数的情况的只给定网页p,需要提取主题后计算。算法的目标是找到一组t,使得RM(p,t)有较大的值。TOPIC系统中是抽取指向p的网页中的锚文本的单词作为主题(上面已经讨论过锚文本能很好描述目标网页,精度很高),避免了下载所有指向p的网页,而且RM(p,t)的计算很简单,算法的效率较高。主题抽取时,还忽略了用于导航、重复的链接的文本,同时也过滤了停止字(stop word),如“a”,“the”,“for”,“in”等。
Reputation算法也是基于随机漫游模型的(random walk),可以说是PageRank和SALSA算法的结合体。
3.链接算法的分类及其评价
链接分析算法可以用来提高搜索引擎的查询效果,可以发现WWW上的重要的社区,可以分析某个网站的拓扑结构,声望,分类等,可以用来实现文档的自动分类等。归根结底,能够帮助用户在WWW海量的信息里面准确找到需要的信息。这是一个正在迅速发展的研究领域。
上面我们从历史的角度总结了链接分析算法的发展历程,较为详细的介绍了算法的基本思想和具体实现,对算法的存在的问题也做了讨论。这些算法有的处于研究阶段,有的已经在具体的系统实现了。这些算法大体可以分为3类,基于随机漫游模型的,比如PageRank,Repution算法,基于Hub和Authority相互加强模型的,如HITS及其变种,基于概率模型的,如SALSA,PHITS,基于贝叶斯模型的,如贝叶斯算法及其简化版本。所有的算法在实际应用中都结合传统的内容分析技术进行了优化。一些实际的系统实现了某些算法,并且获得了很好的效果,Google实现了PageRank算法,IBM Almaden Research Center 的Clever Project实现了ARC算法,多伦多大学计算机系实现了一个原型系统TOPIC,来计算指定网页有声望的主题。
AT&T香农实验室的Brian Amento在指出,用权威性来评价网页的质量和人类专家评价的结果是一致的,并且各种链接分析算法的结果在大多数的情况下差别很小[15]。但是,Allan Borodin也指出没有一种算法是完美的,在某些查询下,结果可能很好,在另外的查询下,结果可能很差[11]。所以应该根据不同查询的情况,选择不同的合适的算法。
基于链接分析的算法,提供了一种衡量网页质量的客观方法,独立于语言,独立于内容,不需人工干预就能自动发现WEB上重要的资源,挖掘出WEB上重要的社区,自动实现文档分类。但是也有一些共同的问题影响着算法的精度。
1.根集的质量。根集质量应该是很高的,否则,扩展后的网页集会增加很多无关的网页,产生主题漂移,主题泛化等一系列的问题,计算量也增加很多。算法再好,也无法在低质量网页集找出很多高质量的网页。
2.噪音链接。WEB上不是每个链接都包含了有用的信息,比如广告,站点导航,赞助商,用于友情交换的链接,对于链接分析不仅没有帮助,而且还影响结果。如何有效的去除这些无关链接,也是算法的一个关键点。
3.锚文本的利用。锚文本有很高的精度,对链接和目标网页的描述比较精确。上述算法在具体的实现中利用了锚文本来优化算法。如何准确充分的利用锚文本,对算法的精度影响很大。
4.查询的分类。每种算法都有自身的适用情况,对于不同的查询,应该采用不同的算法,以求获得最好的结果。因此,对于查询的分类也显得非常重要。
结束语:当然,这些问题带有很大的主观性,比如,质量不能精确的定义,链接是否包含重要的信息也没有有效的方法能准确的判定,分析锚文本又涉及到语义问题,查询的分类也没有明确界限。如果算法要取得更好的效果,在这几个方面需要继续做深入的研究,相信在不久的将来会有更多的有趣和有用的成果出现。
⑶ google算法提问
《最新google搜索引擎技术算法研究和探讨(详细图文论文)》
http://wangjifeixing.blog.163.com/blog/static/5023822007817101330646
最近几年,许多研究者发现,WWW上超链结构是个非常丰富和重要的资源,如果能够充分利用的话,可以极大的提高检索结果的质量。基于这种超链分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法[1] ,同年J. Kleinberg提出了HITS算法[5],其它一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法。这些算法有的已经在实际的系统中实现和使用,并且取得了良好的效果。
文章的第2部分按照时间顺序详细剖析了各种链接分析算法,对不同的算法进行了比较。第3部分对这些算法做了评价和总结,指出了存在的问题和改进方向。
2.WEB超链分析算法
2.1 Google和PageRank算法
搜索引擎Google最初是斯坦福大学的博士研究生Sergey Brin和Lawrence Page实现的一个原型系统[2],现在已经发展成为WWW上最好的搜索引擎之一。Google的体系结构类似于传统的搜索引擎,它与传统的搜索引擎最大的不同处在于对网页进行了基于权威值的排序处理,使最重要的网页出现在结果的最前面。Google通过PageRank元算法计算出网页的PageRank值,从而决定网页在结果集中的出现位置,PageRank值越高的网页,在结果中出现的位置越前。
2.1.1 PageRank算法
PageRank算法基于下面2个前提:
前提1:一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页。这种重要的网页称为权威(Authoritive)网页。
前提2:假定用户一开始随机的访问网页集合中的一个网页,以后跟随网页的向外链接向前浏览网页,不回退浏览,浏览下一个网页的概率就是被浏览网页的PageRank值。
《最新google搜索引擎技术算法研究和探讨(详细图文论文)》
http://wangjifeixing.blog.163.com/blog/static/5023822007817101330646
⑷ 百度的超链分析的原理是什么百度的收录网站规则和算法是怎么的呢
悬赏分5,哪怕后面再加N个0也没有人回答
⑸ 求百度的超链分析和Google的pagerank技术的区别,要权威的
== 这是 中国WEB信息博物馆 (Web InfoMall) 2003年10月09日 存储的网页 == 点击这里查看本网页的其他版本 请选择: 2003年10月09日 2004年05月04日 当前最新网页 隐藏InfoMall信息 -------------------------------------------------------------------------------- 转到主要内容 竹笋炒肉 东坡有诗“无竹则俗,无肉则廋;不俗不廋,竹笋炒肉”。:) 欢迎光临的每一位朋友。这是我的第一个BLOG,用来记录我的所学、所做、所思、所想、所经历、所感受。 « Log4J学习笔记(3) | Main | Google的PageRank算法学习(2) » August 28, 2003 Google的PageRank算法学习 据车东在CNBLOG推荐文章,作的学习笔记。 1、PageRank(网页级别)的概念 互联网发展早期的搜索引擎,对web页面的排序,是根据搜索的词组(短语)在页面中的出现次数(occurence ),并用页面长度和html标签的重要性提示等进行权重修订。链接名气(link popularity)技术通过其它文档链接到当前页面(inbound links)的链接数量来决定当前页的重要性,这样可以有效地抵制被人为加工的页面欺骗搜索引擎的手法。 PageRank计算页面的重要性,对每个链入(inbound)赋以不同的权值,链接提供页面的越重要则此链接入越高。当前页的重要性,是由其它页面的重要性决定的。 2、PageRank算法1 PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 其中:PR(A):页面A的网页级别, PR(Ti):页面Ti的网页级别,页面Ti链向页面A, C(Ti):页面Ti链出的链接数量, d:阻尼系数,取值在0-1之间. 由此可见,1)这个算法不以站点排序,页面网页级别由一个个独立的页面决定;2)页面的网页级别由链向它的页面的网页级别决定,但每个链入页面的贡献的值是不同的。如果Ti页面中链出越多,它对当前页面A的贡献就越小。A的链入页面越多,其网页级别也越高;3)阻尼系数的使用,减少了其它页面对当前页面A的排序贡献。 3、随机冲浪模型 Lawrence Page 和 Sergey Brin 提出了用户行为的随机冲浪模型,来解释上述算法。他们把用户点击链接的行为,视为一种不关心内容的随机行为。而用户点击页面内的链接的概率,完全由页面上链接数量的多少决定的,这也是上面PR(Ti)/C(Ti)的原因。一个页面通过随机冲浪到达的概率就是链入它的别的页面上的链接的被点击概率的和。阻尼系数d的引入,是因为用户不可能无限的点击链接,常常因劳累而随机跳入另一个页面。d可以视为用户无限点击下去的概率,(1-d)则就是页面本身所具有的网页级别。 4、PageRank算法2(对算法1的修订) PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 其中N是互联网上所有网页的数量 由此,所有页面的网页级别形成的一个概率分布,所有页面的网页级别之和是1。在算法1中,随机冲浪访问某个页面的概率由互联网的总页数决定,在算法2中,网页级别是一个页面被随机访问的期望值。 以下讲解,皆基于算法1,主要是计算简单,因为不用考虑N的值。 5、PageRank的特性 所有页面的网页级别之和等于互联网的总页数。在网页数比较少的情况下,网页级别方程可以解出,而面对互联网上成亿的网页,再解方程是不可能的。 此处设阻尼系数为0.5,虽然Lawrence Page 和 Sergey Brin在实际将其设为0.85. PR(A) = 0.5 + 0.5 PR(C) PR(B) = 0.5 + 0.5 (PR(A) / 2) PR(C) = 0.5 + 0.5 (PR(A) / 2 + PR(B)) 解得: PR(A) = 14/13 = 1.07692308 PR(B) = 10/13 = 0.7692307
⑹ 如何做好网站优化
如何让网站的排名能显示在网络首页甚至第一第二位,相信这是绝大部分从事网站优化的朋友们日思夜想的一个问题。那么我们首先应该想想,网站排名的原理是什么呢?搜索引擎是根据什么去排名网站的呢?同时又有另外一个问题,如果你稍微了解一点搜索引擎的知识,应该知道搜索引擎的算法是不会公开的,那我们应该依据什么去做网站优化呢?理论上说,优化排名的原理就是:在透彻了解搜索引擎的排名规则、更新规则、收录规则、惩罚规则的情况下,通过各种方法让网站尽可能符合搜索引擎的排名规则,从而获得较好的排名。优就业SEO培训学院认为,我们应该结合《网络搜索引擎工作原理》及《网络搜素引擎网页质量白皮书》等网络官方发布的一些指导下文章,同时结合平时的观察和经验去做优化排名。
一、网站优化排名的对象是什么
1、一个网站是由众多的网页组成的,网站是一个或者多个网页组成的。(搜索引擎排名过程简介)
2、seo优化的对象是网页而不是网站,就像奥运会上的运动员得奖一样,针对的对象是运动员,而不是运动员所在的国家。
关于网站优化排名的误区就是,一般的人总是以为优化的对象是网站。我们平时所说的“网站排名”、“网站优化”是不正确的。
二、什么是超链分析、超链分析简介
1、“超链分析”是网络的一项专利,原理就是,通过分析链接网站的数量来评价其被链接的网站的质量如何,这样的作用就是,保证了用户在使用搜索引擎时,质量越高、越受欢迎的页面越靠前。
网络总裁李彦宏是这项技术的唯一持有人,而且该技术已经被全世界的各大搜索引擎普遍采用了。
2、我们如何来理解超链分析技术呢?
简单来讲,确定某个页面是否优秀或者权威,其它的页面的“意见”是非常重要的。即便一个网页并不那么优秀,但是只要其他网页对它的“信任投票”(反向链接)超过了其它页面,那么它的排名也会靠前,甚至排名第一。
比如,在阿里巴巴的网站上,整个网站都没有“国际站”这个词的出现,但是它在“国际站”这个词的排名上却非常好,原因就是阿里巴巴旗下的数量庞大的网页都给了它一个“信任投票”(锚文本)。
需要注意的是,“超链分析”只是排名的一个重要参考,但不是唯一参考。
三、相关页面的推荐
1、相关页面就是内容相关的页面。比如说,我这个页面是关于手机功能介绍的,所连接的那个页面是关于手机厂商介绍的,那么这两个页面就是手机的相关页面。
2、相关页面之间的互相推荐很重要。比如,在我这个页面介绍完了手机功能之后,我还要给访客介绍一些手机制造商,那么我会给他们推荐您的网页,也就是在我的网页上放置上了您这个网页的链接,同样的在您这个网页介绍完手机制造商之后,您也可以给您的访客推荐我的网页,也就是在您的网页上放上我网页的链接,这就是相关推荐。
3、相关页面对于排名的意义就是,它让用户对网页有了更好的体验,而且,搜索引擎会更加信任被推荐的网页。
四、seo模型的重要性
1、全世界的网页有很多,它们通过链接来联系,搜索引擎通过链接来访问他们, 搜索引擎会挑选获得相关页面链接有优势的页面排名靠前,这种优势包括页面的质量、给我们反向链接的页面的权重和相关性非常的重要。
2、比如说,新浪首页给我们网页一个反向链接,跟新浪的一个个人免费博客页给我们一个反向链接的效果肯定是不一样的。如果我们的网站是卖汽车的,那一个卖轮胎的网页给我们一个反向链接的效果肯定比一个卖锅炉的网页给的反向链接要好得多。
3、反向链接的数量很重要。五个网站的首页给我们5个反向链接,和10个同等水平的网站首页各给我们一个反向链接效果肯定是不一样的。
⑺ 网站关键词排名优化哪里好
SEO由于容易入门,见效比较明显,已经变得家喻户晓。不过这个东西有的时候却让人捉摸不透,因为每次算法的调整都可能引起一些无法解释的现象,这样导致有些时候,SEO的效果被抹杀,但最根本的优化算法还是不会有过大变化,所以如果想优化有长久效果,可以用旺道营销软件。
⑻ 百度是啥
网络
网络(www..com)(Nasdaq:BIDU)是全球最大的中文搜索引擎,2000年1月由李彦宏、徐勇两人创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。 “网络”二字源于中国宋朝词人辛弃疾的《青玉案》诗句:“众里寻他千网络”,象征着网络对中文信息检索技术的执着追求。
网络以自身的核心技术“超链分析”为基础,提供的搜索服务体验赢得了广大用户的喜爱;超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在网络搜索时,越受用户欢迎的内容排名越靠前。网络总裁李彦宏就是超链分析专利的唯一持有人,目前该技术已为世界各大搜索引擎普遍采用。
网络拥有全球最大的中文网页库,目前收录中文网页已超过12亿,这些网页的数量每天正以千万级的速度在增长;同时,网络在中国各地分布的服务器,能直接从最近的服务器上,把所搜索信息返回给当地用户,使用户享受极快的搜索传输速度。
网络每天处理来自138个国家超过数亿次的搜索请求,每天有超过7万用户将网络设为首页,用户通过网络搜索引擎可以搜到世界上最新最全的中文信息。2004年起,“有问题,网络一下”在中国开始风行,网络成为搜索的代名词。
网络还为各类企业提供软件、竞价排名以及关联广告等服务,为企业提供了一个获得潜在消费者的营销平台,并为大型企业和政府机构提供海量信息检索与管理方案。网络的主要商业模式为竞价排名(P4P,Pay for Performance),即为一种按效果付费的网络推广方式,该服务为广大中小企业进行网络营销提供了较佳的发展机会,但同时也引起了一些争议;有人认为该服务会影响用户体验。
网络目前提供:网页搜索、MP3搜索、图片搜索、网络新闻搜索、网络贴吧、网络知道、网络空间、网络搜索风云榜、网络硬盘搜索、网络、网络搜藏等主要产品和服务,同时也提供多项满足用户更加细分需求的搜索服务,如网络地图搜索、网络地区搜索、网络国学搜索、网络黄页搜索、网络文档搜索、网络邮编搜索、网络政府网站搜索、网络教育网站搜索、网络邮件新闻订阅、网络WAP贴吧、网络WAP知道、手机搜索(与Nokia合作)、网络少儿搜索等服务;同时,网络还在个人服务领域提供了包括网络影视、网络传情、网络手机娱乐、网络视频等服务。2004年8月,网络还收购了中国国内最大的个人网站Hao123.com,为初级网民提供网络站点导航等服务。2007年2月,网络风云榜发布《家电行业报告》。通过跟踪网络2006年关于家电产品的全年搜索数据,从品牌价值、消费倾向、娱乐偏好及信息获取方式等几大方向上全面透视中国家电市场。网络风云榜是“关注度”,即“人气”榜。
在中文搜索领域,网络首次提供了多项体贴普通用户的搜索功能,包括相关搜索、中文人名识别、简繁体中文自动转换、网络快照等。
网络还为各类企业提供软件、竞价排名以及关联广告服务。每个月,有超过5千家的企业通过网络获得商机,5万家企业使用网络竞价排名服务,超过300家大型企业使用网络搜索广告服务。
网络不会因此而满足,技术的创新永无止境。网络会一如既往地专注于互联网搜索引擎,通过坚定不移地努力,以先进的搜索技术与优质的服务,让人们的生活变得更美好。
网络是世界上规模最大的中文搜索引擎之一,拥有全球最大的中文网页库。
网络每天处理来自一百多个国家的超过一亿人次的搜索请求。
网络简单强大的搜索功能深受网民的信赖,每天有超过七万用户将网络设为首页。
同时网络也为企业提供了一个获得潜在消费者的平台,并为大型企业和政府机构提供海量信息检索与管理方案。
在信息过剩的时代,网络凭借“简单,可依赖”的搜索体验使“网络一下”成为搜索的代名词。
网络一直以开发最符合中国人使用习惯的搜索引擎为己任,目前,网络搜索引擎已成为世界上最强大的中文搜索引擎之一。
截止到2006年的第4季度,用户最常用的搜索引擎为网络,这样的一个份额已经上升到了62.6%。而如果按照搜索量来计算的话,我们市场份额已经达到了69%。在用户觉得最离不开的互联网品牌当中,网络也是排名最高,是高达65.8%。在用户最愿意就职的互联网企业当中网络也排第一。
网络群体基本代表了中国互联网整体用户群体的形象。中国互联网一共一亿三千六百万的用户中,80%、90%都是使用网络的用户。
⑼ 超链分析的历史
这其实就是现实生活中类似于链接关系的应用。要判断哪个页面最具权威性,不能光看页面自己怎么说,还要看其他页面怎么评价。
李彦宏1997年就提交了一份名为“超链文件检索系统和方法”的专利申请,这比GOOGLE创始人发明PR要早得多,不得不说这是非常具有前瞻性的研究工作。在这份专利中,李彦宏提出了与传统信息检索系统不同的基于链接的排名方法。
这个系统除了索引页面之外,还建立一个链接词库,记录链接锚文字的一些相关信息,如锚文字中包含哪些关键词,发出链接的页面索引,包含特定锚文字的链接总数,包含特定关键词的链接都指向哪些页面。词库不仅包含关键词原型,也包含同一个词干的其他衍生关键词。
根据这些链接数据,尤其是锚文字,计算出基于链接的文件相关性。在用户搜索时,将得到的基于链接的相关性与基于关键词匹配的传统相关性综合使用,得到更准确的排名。
在今天看来,这种基于链接的相关性计算是搜索引擎的常态,每个SEO人员都知道。但是在十三四年前,这无疑是非常创新的概念。当然现在的搜索引擎算法对链接的考虑,已经不仅仅是锚文字,实际上要复杂的多。
这份专利所有人是李彦宏当时所在的公司,发明人是李彦宏本人。
⑽ 类似于搜索引擎的 对搜索结果排序的算法急求。
理论上,我们可以根据任意的规则对搜索引擎结果进行排序,比如按照访问量排序等,然而在Google使用的排序算法问世后,上述的排序方试都被证明并不适用于互联网。 Google是目前为止最流行的一个通用的搜索引擎,最初只是两个斯坦福大学学生的科研项目,Sergey和Larry Page希望让绝大部分使用搜索引擎的人都能搜索结果的第一页找到他想要的结果,为了达到这个目的他们发明了开创时代的PageRank(据说名字来源于LarryPage)排序算法,并将此发表在论文《The Anatomy of a Large-Scale Hypertextual Wed Search Engine》中,之后的实践证明,PageRank对搜索结果的排序优于其他算法。 PageRank的原理类似于科技论文中的引用机制:谁的论文被引用次数多,谁就是权威。在互联网上,链接就相当于“引用”,在B网页中链接了A,相当于B引用了A,如果在C、D、E、F中都链接了A,则说明A网页重要,A网页的PageRank值也就高。 计算PR值有一个简单的公式: 网页A级别=(1-系数)+系数*(网页1级别/网页1链出个数+网页2级别/网页2链出个数+++++ 网页N级别/网页链出个数)其中系数为一个大于0小于1的数。一般设置为0.85。网页1、网页N表示所有链接指向A的网页。 由以上公式可以看出如下三点。 1、链指向A的网页越多,A的级别越高。即A的级别和指向A的网页个数成正比,在公式中表示,N越大,A的级别越高。 2、链指向A的网页,其网页级别越高,A的级别也越高。即A的级别成正比,在网页中表示,网页N级别越高,A的级别也越高。 3、链指向A的网页,其链出的个数越多,A的级别越低。即A的级别和指向A的网页的链出个数成反比,在公式中表示,网页N链出个数越多,A的级别越低。 通俗的讲,从网页A导向网页B的链接,可以看作是网页A对页面B 的支持投票,Google根据这个投票数来判断页面的重要性,但Google看了投票数之后还对投票者(链接的页面)进行了分析、重要性较高的链接所投的票的价值会更高,比如新浪、雅虎、微软的首页都有某页面的链接,可能比其在另外网站取得的30个链接都要有效。 通过上面公式,可以形成一个巨大的方程组,对这个方程组求解,就得到每个网页的PR值。当然互联网有数百亿个网页,那么这个方程组就有数百亿个未知数,方程组虽然是有解,但计算非常复杂。 每个网页都有PR值。下载Google的免费工具栏后,没打开一个网页都可以清楚地看见其PR值(大概) 国内的网络是全球最重要的的搜索引擎,其创始人李彦宏在1996年申请了名为“超链分析”的专利。“超链分析”的原理和PR的原理类似,所以在搜索引擎的算法上,两种搜索引擎的主体很相近。 除了用PR算法衡量网页的重要程度意外,还有上百种因素参与排序。现在常用的算法有如下3中: (1)HillTop算法,HillTo是搜索引擎结果排序算法,由Google工程师Bharat在2001年提出并获得专利。Google自诞生之日起,其排序规则就经常变化,但变化最大的一次就是基于HillTo算法进行的改进。 HillTo算法的指导思想和PR是一致的,都是通过网页被链接的数量和链接质量来确定搜索结果的排序权重,但HillTo认为只计算来自具有相同主题的相关文档链接对搜索者的价值会更大:即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。如果网站是介绍服装的,有10个链接都是从“服装”相关网站链接过来,则这10个链接比另外10个从“电器”网站链接过来的贡献大。Bharat称这种对主题有影响的文档为“专家”文档,从这些专家文档页面到目标文档的链接决定了被链接网页的重要性。 PR与HillTop算法结合后,在排序过程中就能更好的提现文档与搜索关键词之间的匹配程度,在两个具有同样主题且PR相近的网页排序中,HillTop算法显得非常重要。HillTop同时也避免了许多想通过增加无效链接来提高网页PR值的作弊方法。 (2)锚文本。锚文本就是链接文本。锚文本可以作为其所在内容的评估。正常来讲,页面中增加的链接都会个页面本身的内容有一定关系。如服装的行业网站上会增加一些同行网站的链接或者一些做服装的致命企业的链接。另一方面,锚文本能作为所指向页面的评估。锚文本能耐精确地描述所指向的内容,如个人网站上你增加Google的链接,则锚文本显示问“搜索引擎”。这样通过锚文本本身就能知道,Google是搜索引擎。 由此可见,在网页中选择合适的锚文本,则可让所在网页和所指向的网页的重要程度有所提升。 (3)页面板式。每个网页都有板式,包括标题、字体、标签等。搜索引擎也会利用这些板式来识别搜索词也页面内容的相关程度。以静态的html格式的网页为例,搜索引擎通过蜘蛛把网页抓取下来后,需要图区里面的正文内容,过滤其他HTML代码。在提取内容时,搜索引擎就可以记录所有板式信息,包括:哪些词在标题中出现,哪些词在正文中出现,哪些词比其他字体大,哪些词加粗过,哪些词用KeyWord表示过的等,这样在搜索过程中就可以根据这些信息来确定所搜索词的相关程度。 对于排序算法的真正实现细节,Google等搜索引擎不会透露,但我们能掌握一些原则。MattCutts是一位Google的雇员,他在其博客上说“SEM工作中最明智的选择是从下面这个问题得来的:对用户最有用的是什么?”而DannySullivan,这位当今搜索领域非常致命的权威人士,在回答“如何考虑SEO的真谛”这个问题事表示“好的Html标题。优秀的页面正文、高价值的内容,同时还要确保蜘蛛能够顺利访问网站,这些准则已经发挥了将近二十年的作用”。