hits算法java_Hits的算法

㈠ Hits的算法

HITS,网页分析，算法，搜索引擎
HITS 算法是由康奈尔大学( Cornell University ) 的JonKleinberg 博士于1998 年首先提出的,HITS 的英文全称为Hyperlink - Inced Topic Search,为IBM公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。
具体解释：
一个网页重要性的分析的算法，根据一个网页的入度（指向此网页的超链接）和出度（从此网页指向别的网页）来衡量网页的重要性。其最直观的意义是如果一个网页的重要性很高，则他所指向的网页的重要性也高。一个重要的网页被另一个网页所指，则表明指向它的网页重要性也会高。指向别的网页定义为Hub值,被指向定义为Authority值。
通常HITS算法是作用在一定范围的，比如一个以程序开发为主题的网页，指向另一个以程序开发为主题的网页，则另一个网页的重要性就可能比较高，但是指向另一个购物类的网页则不一定。
在限定范围之后根据网页的出度和入度建立一个矩阵，通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。
理解HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。HITS算法通过两个评价权值——内容权威度（Authority）和链接权威度（Hub）来对网页质量进行评估。其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息（如权威性），具有计算简单且效率高的特点。HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑，在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价，然后给出该页面的综合评价。内容权威度与网页自身直接提供内容信息的质量相关，被越多网页所引用的网页，其内容权威度越高；链接权威度与网页提供的超链接页面的质量相关，引用越多高质量页面的网页，其链接权威度越高。
首先，它完全将网页的内容或文本排除在外，仅考虑网页之间的链接结构来分析页面的权威性，这与现实网络中的权威页面相比，其不科学性显而易见。然而HITS算法也有其明显的不足。
因为权威页面必须针对某一主题或关键词而言。某一页面对一确定主题的具有较大权威性的页面并不意味在其他与其无关的主题方面同样具有权威性。其次一个页面对另一页面的引用有多种情况，其中包含了一页面对另一页面的认可，但除此之外也有其他目的链接，如为了导航或为了付费广告。就HITS算法的思想与实现过程做了细致的研究与概括。而HITS算法在实现过程中均没有考虑以上情况．导致了结果与目标的差距。
对HITS算法的第二个不足，即非正常目的的引用．在HITS算法看来，也误认为是正常引用，导致实际结果与目标的出入。针对前面第一种不足，就有相关的学者提出了一种利用超链文字及其周围文字与关键字相匹配而计算超链权值的方法，并引入系数对周围文字和超链文字进行权值的相对控制，很好地将页面文本信息引入到HITS算法，提高了算法的可靠性，并在现实中取得了很好的效果。
后来，经过不断的改进。HITS算法又引入了时间参数，即利用对一链接引用的时间长短来评价是否为正常引用。因为非正常链接其引用时间肯定不会很长（如交换链接、广告链接），相反，如果一页面对另一页面的链接时间较长，则必然反映此页面就是用户的寻找页面。即目标页面或至少是正常引用。
如设定访问时间少于1分钟者为非正常引用。如果设定时间阀值，则可以将非正常引用的链接在HITS算法的实现过程中筛选出来。另外可构造时间访问函数，控制权威页面的相对大小。如随访问时间的增大而其权威性也逐渐非线性增大．这样可为HITS算法的权威页面提供更合理、更科学的解释。

㈡ WEB超链分析算法的WEB超链分析算法

搜索引擎Google最初是斯坦福大学的博士研究生Sergey Brin和Lawrence Page实现的一个原型系统[2]，现在已经发展成为WWW上最好的搜索引擎之一。Google的体系结构类似于传统的搜索引擎，它与传统的搜索引擎最大的不同处在于对网页进行了基于权威值的排序处理，使最重要的网页出现在结果的最前面。Google通过PageRank元算法计算出网页的PageRank值，从而决定网页在结果集中的出现位置，PageRank值越高的网页，在结果中出现的位置越前。
2.1.1PageRank算法
PageRank算法基于下面2个前提：
前提1：一个网页被多次引用，则它可能是很重要的；一个网页虽然没有被多次引用，但是被重要的网页引用，则它也可能是很重要的；一个网页的重要性被平均的传递到它所引用的网页。这种重要的网页称为权威（Authoritive）网页。
前提2：假定用户一开始随机的访问网页集合中的一个网页，以后跟随网页的向外链接向前浏览网页，不回退浏览，浏览下一个网页的概率就是被浏览网页的PageRank值。
简单PageRank算法描述如下：u是一个网页，是u指向的网页集合，是指向u的网页集合，是u指向外的链接数，显然=| | ，c是一个用于规范化的因子（Google通常取0.85），（这种表示法也适用于以后介绍的算法）则u的Rank值计算如下：
这就是算法的形式化描述，也可以用矩阵来描述此算法，设A为一个方阵，行和列对应网页集的网页。如果网页i有指向网页j的一个链接，则，否则=0。设V是对应网页集的一个向量，有V=cAV，V为A的特征根为c的特征向量。实际上，只需要求出最大特征根的特征向量，就是网页集对应的最终PageRank值，这可以用迭代方法计算。
如果有2个相互指向的网页a，b,他们不指向其它任何网页，另外有某个网页c，指向a，b中的某一个，比如a，那么在迭代计算中，a，b的rank值不分布出去而不断的累计。如下图：
为了解决这个问题，Sergey Brin和Lawrence Page改进了算法，引入了衰退因子E(u)，E(U)是对应网页集的某一向量，对应rank的初始值，算法改进如下：
其中，=1，对应的矩阵形式为V’=c(AV’+E)。
另外还有一些特殊的链接，指向的网页没有向外的链接。PageRank计算时，把这种链接首先除去，等计算完以后再加入，这对原来计算出的网页的rank值影响是很小的。
Pagerank算法除了对搜索结果进行排序外，还可以应用到其它方面，如估算网络流量，向后链接的预测器，为用户导航等[2]。
2.1.2算法的一些问题
Google是结合文本的方法来实现PageRank算法的[2]，所以只返回包含查询项的网页，然后根据网页的rank值对搜索到的结果进行排序，把rank值最高的网页放置到最前面，但是如果最重要的网页不在结果网页集中，PageRank算法就无能为力了，比如在 Google中查询search engines，像Google，Yahoo，Altivisa等都是很重要的，但是Google返回的结果中这些网页并没有出现。同样的查询例子也可以说明另外一个问题，Google，Yahoo是WWW上最受欢迎的网页，如果出现在查询项car的结果集中，一定会有很多网页指向它们，就会得到较高的rank值，事实上他们与car不太相关。
在PageRank算法的基础上，其它的研究者提出了改进的PageRank算法。华盛顿大学计算机科学与工程系的Matthew Richardson和Pedro Dominggos提出了结合链接和内容信息的PageRank算法，去除了PageRank算法需要的前提2，增加考虑了用户从一个网页直接跳转到非直接相邻的但是内容相关的另外一个网页的情况[3]。斯坦大学计算机科学系Taher Haveliwala提出了主题敏感（Topic-sensitive）PageRank算法[4]。斯坦福大学计算机科学系Arvind Arasu等经过试验表明，PageRank算法计算效率还可以得到很大的提高[22]。 PageRank算法中对于向外链接的权值贡献是平均的，也就是不考虑不同链接的重要性。而WEB的链接具有以下特征：
1.有些链接具有注释性，也有些链接是起导航或广告作用。有注释性的链接才用于权威判断。
2.基于商业或竞争因素考虑，很少有WEB网页指向其竞争领域的权威网页。
3.权威网页很少具有显式的描述，比如Google主页不会明确给出WEB搜索引擎之类的描述信息。
可见平均的分布权值不符合链接的实际情况[17]。J. Kleinberg[5]提出的HITS算法中引入了另外一种网页，称为Hub网页，Hub网页是提供指向权威网页链接集合的WEB网页，它本身可能并不重要，或者说没有几个网页指向它，但是Hub网页确提供了指向就某个主题而言最为重要的站点的链接集合，比一个课程主页上的推荐参考文献列表。一般来说，好的Hub网页指向许多好的权威网页；好的权威网页是有许多好的Hub网页指向的WEB网页。这种Hub与Authoritive网页之间的相互加强关系，可用于权威网页的发现和WEB结构和资源的自动发现，这就是Hub/Authority方法的基本思想。
2.2.1HITS算法
HITS（Hyperlink－Inced Topic Search）算法是利用Hub/Authority方法的搜索方法，算法如下：将查询q提交给传统的基于关键字匹配的搜索引擎．搜索引擎返回很多网页，从中取前n个网页作为根集(root set)，用S表示。S满足如下3个条件：
1．S中网页数量相对较小
2．S中网页大多数是与查询q相关的网页
3．S中网页包含较多的权威网页。
通过向S中加入被S引用的网页和引用S的网页将S扩展成一个更大的集合T．
以T中的Hub网页为顶点集Vl，以权威网页为顶点集V2，Vl中的网页到V2中的网页的超链接为边集E，形成一个二分有向图SG=(V1，V2，E)。对V1中的任一个顶点v，用h(v)表示网页v的Hub值，对V2中的顶点u，用a(u)表示网页的Authority值。开始时h(v)=a(u)=1，对u执行I操作修改它的a(u)，对v执行O操作修改它的h(v)，然后规范化a（u），h（v），如此不断的重复计算下面的操作I，O，直到a（u），h（v）收敛。（证明此算法收敛可见）
I 操作：（1） O操作：（2）
每次迭代后需要对a(u),h(v)进行规范化处理：
式(1)反映了若一个网页由很多好的Hub指向，则其权威值会相应增加(即权威值增加为所有指向它的网页的现有Hub值之和)。式(2)反映了若一个网页指向许多好的权威页，则Hub值也会相应增加(即Hub值增加为该网页链接的所有网页的权威值之和)。
和PageRank算法一样，可以用矩阵形式来描述算法，这里省略不写。
HITS算法输出一组具有较大Hub值的网页和具有较大权威值的网页。
2.2.2HITS的问题
HITS算法有以下几个问题：
1．实际应用中，由S生成T的时间开销是很昂贵的，需要下载和分析S中每个网页包含的所有链接，并且排除重复的链接。一般T比S大很多，由T生成有向图也很耗时。需要分别计算网页的A/H值，计算量比PageRank算法大。
2．有些时候，一主机A上的很多文档可能指向另外一台主机B上的某个文档，这就增加了A上文档的Hub值和B上文档的Authority，相反的情况也如此。HITS是假定某一文档的权威值是由不同的单个组织或者个人决定的，上述情况影响了A和B上文档的Hub和Authority值[7]。
3．网页中一些无关的链接影响A，H值的计算。在制作网页的时候，有些开发工具会自动的在网页上加入一些链接，这些链接大多是与查询主题无关的。同一个站点内的链接目的是为用户提供导航帮助，也与查询主题不甚无关，还有一些商业广告，赞助商和用于友情交换的链接，也会降低HITS算法的精度[8]。
4．HITS算法只计算主特征向量，也就是只能发现T集合中的主社区（Community），忽略了其它重要的社区[12]。事实上，其它社区可能也非常重要。
5．HITS算法最大的弱点是处理不好主题漂移问题（topic drift）[7,8]，也就是紧密链接TKC（Tightly-Knit Community Effect）现象[8]。如果在集合T中有少数与查询主题无关的网页，但是他们是紧密链接的，HITS算法的结果可能就是这些网页，因为HITS只能发现主社区，从而偏离了原来的查询主题。下面讨论的SALSA算法中解决了TKC问题。
6．用HITS进行窄主题查询时，可能产生主题泛化问题[5,9]，即扩展以后引入了比原来主题更重要的新的主题，新的主题可能与原始查询无关。泛化的原因是因为网页中包含不同主题的向外链接，而且新主题的链接具有更加的重要性。
2.2.3HITS的变种
HITS算法遇到的问题，大多是因为HITS是纯粹的基于链接分析的算法，没有考虑文本内容，继J. Kleinberg提出HITS算法以后，很多研究者对HITS进行了改进，提出了许多HITS的变种算法，主要有：
2.2.3.1Monika R. Henzinger和Krishna Bharat对HITS的改进
对于上述提到的HITS遇到的第2个问题，Monika R. Henzinger和Krishna Bharat在[7]中进行了改进。假定主机A上有k个网页指向主机B上的某个文档d，则A上的k个文档对B的Authority贡献值总共为1,每个文档贡献1/k，而不是HITS中的每个文档贡献1，总共贡献k。类似的，对于Hub值，假定主机A上某个文档t指向主机B上的m个文档，则B上m个文档对t的Hub值总共贡献1，每个文档贡献1/m。I，O操作改为如下
I 操作：
O操作：
调整后的算法有效的解决了问题2，称之为imp算法。
在这基础上，Monika R. Henzinger和Krishna Bharat还引入了传统信息检索的内容分析技术来解决4和5，实际上也同时解决了问题3。具体方法如下，提取根集S中的每个文档的前1000个词语，串连起来作为查询主题Q，文档Dj和主题Q的相似度按如下公式计算：
，，=项i在查询Q中的出现次数，
=项i在文档Dj中的出现次数，IDFi是WWW上包含项i的文档数目的估计值。
在S扩展到T后，计算每个文档的主题相似度，根据不同的阈值（threshold）进行刷选，可以选择所有文档相似度的中值，根集文档相似度的中值，最大文档相似度的分数，如1/10，作为阈值。根据不同阈值进行处理，删除不满足条件的文档，再运行imp算法计算文档的A/H值，这些算法分别称为med，startmed，maxby10。
在此改进的算法中，计算文档的相似度时间开销会很大。
2.2.3.2ARC算法
IBM Almaden研究中心的Clever工程组提出了ARC（Automatic Resource Compilation）算法，对原始的HITS做了改进，赋予网页集对应的连结矩阵初值时结合了链接的锚（anchor）文本，适应了不同的链接具有不同的权值的情况。
ARC算法与HITS的不同主要有以下3点：
1．由根集S扩展为T时，HITS只扩展与根集中网页链接路径长度为1的网页，也就是只扩展直接与S相邻的网页，而ARC中把扩展的链接长度增加到2，扩展后的网页集称为增集（Augment Set）。
2．HITS算法中，每个链接对应的矩阵值设为1，实际上每个链接的重要性是不同的，ARC算法考虑了链接周围的文本来确定链接的重要性。考虑链接p－>q，p中有若干链接标记，文本1<a href=”q”>锚文本</a>文本2，设查询项t在文本1，锚文本，文本2，出现的次数为n（t），则w（p，q）=1+n（t）。文本1和文本2的长度经过试验设为50字节[10]。构造矩阵W，如果有网页i－>j ，Wi,j=w（i，j），否则Wi,j=0，H值设为1，Z为W的转置矩阵，迭代执行下面3个的操作：
（1）A=WH （2）H=ZA （3）规范化A，H
3．ARC算法的目标是找到前15个最重要的网页，只需要A/H的前15个值相对大小保持稳定即可，不需要A/H整个收敛，这样2中迭代次数很小就能满足，[10]中指出迭代5次就可以，所以ARC算法有很高的计算效率，开销主要是在扩展根集上。
2.2.3.3Hub平均（ Hub－Averaging－Kleinberg）算法
Allan Borodin等在[11]指出了一种现象，设有M+1个Hub网页，M+1个权威网页，前M个Hub指向第一个权威网页，第M+1个Hub网页指向了所有M+1个权威网页。显然根据HITS算法，第一个权威网页最重要，有最高的Authority值，这是我们希望的。但是，根据HITS，第M+1个Hub网页有最高的Hub值，事实上，第M+1个Hub网页既指向了权威值很高的第一个权威网页，同时也指向了其它权威值不高的网页，它的Hub值不应该比前M个网页的Hub值高。因此，Allan Borodin修改了HITS的O操作：
O操作：，n是(v,u)的个数
调整以后，仅指向权威值高的网页的Hub值比既指向权威值高又指向权威值低的网页的Hub值高，此算法称为Hub平均（Hub－Averaging－Kleinberg）算法。
2.2.3.4阈值（Threshhold—Kleinberg）算法
Allan Borodin等在[11]中同时提出了3种阈值控制的算法，分别是Hub阈值算法，Authority阈值算法，以及结合2者的全阈值算法。
计算网页p的Authority时候，不考虑指向它的所有网页Hub值对它的贡献，只考虑Hub值超过平均值的网页的贡献，这就是Hub阈值方法。
Authority阈值算法和Hub阈值方法类似，不考虑所有p指向的网页的Authority对p的Hub值贡献，只计算前K个权威网页对它Hub值的贡献，这是基于算法的目标是查找最重要的K个权威网页的前提。
同时使用Authority阈值算法和Hub阈值方法的算法，就是全阈值算法 PageRank算法是基于用户随机的向前浏览网页的直觉知识，HITS算法考虑的是Authoritive网页和Hub网页之间的加强关系。实际应用中，用户大多数情况下是向前浏览网页，但是很多时候也会回退浏览网页。基于上述直觉知识，R. Lempel和S. Moran提出了SALSA（Stochastic Approach for Link-Structure Analysis）算法[8]，考虑了用户回退浏览网页的情况，保留了PageRank的随机漫游和HITS中把网页分为Authoritive和Hub的思想，取消了Authoritive和Hub之间的相互加强关系。
具体算法如下：
1．和HITS算法的第一步一样，得到根集并且扩展为网页集合T，并除去孤立节点。
2．从集合T构造无向图G’=（Vh，Va，E）
Vh = { sh | s∈C and out-degree(s) > 0 } ( G’的Hub边).
Va = { sa | s∈C and in-degree(s) > 0 } (G’的Authority边).
E= { (sh , ra) |s－>r in T}
这就定义了2条链，Authority链和Hub链。
3．定义2条马尔可夫链的变化矩阵，也是随机矩阵，分别是Hub矩阵H，Authority矩阵A。
4．求出矩阵H，A的主特征向量，就是对应的马尔可夫链的静态分布。
5．A中值大的对应的网页就是所要找的重要网页。
SALSA算法没有HITS中相互加强的迭代过程，计算量远小于HITS。SALSA算法只考虑直接相邻的网页对自身A/H的影响，而HITS是计算整个网页集合T对自身AH的影响。
实际应用中，SALSA在扩展根集时忽略了很多无关的链接，比如
1．同一站点内的链接，因为这些链接大多只起导航作用。
2．CGI 脚本链接。
3．广告和赞助商链接。
试验结果表明，对于单主题查询java，SALSA有比HITS更精确的结果，对于多主题查询abortion，HITS的结果集中于主题的某个方面，而SALSA算法的结果覆盖了多个方面，也就是说，对于TKC现象，SALSA算法比HITS算法有更高的健壮性。
2.3.1BFS（Backword Forward Step）算法
SALSA算法计算网页的Authority值时，只考虑网页在直接相邻网页集中的受欢迎程度，忽略其它网页对它的影响。HITS算法考虑的是整个图的结构，特别的，经过n步以后，网页i的Authority的权重是，为离开网页i的的路径的数目，也就是说网页j<>i，对i的权值贡献等于从i到j的路径的数量。如果从i到j包含有一个回路，那么j对i的贡献将会呈指数级增加，这并不是算法所希望的，因为回路可能不是与查询相关的。
因此，Allan Borodin等[11]提出了BFS（Backward Forward Step）算法，既是SALSA的扩展情况，也是HITS的限制情况。基本思想是，SALSA只考虑直接相邻网页的影响，BFS扩展到考虑路径长度为n的相邻网页的影响。在BFS中，被指定表示能通过路径到达i的结点的集合，这样j对i的贡献依赖就与j到i的距离。BFS采用指数级降低权值的方式，结点i的权值计算公式如下：
=|B(i)|+ |BF(i)| +|BFB(i)|+……+||
算法从结点i开始，第一步向后访问，然后继续向前或者向后访问邻居，每一步遇到新的结点加入权值计算，结点只有在第一次被访问时加入进去计算。 D.Cohn and H.Chang提出了计算Hub和Authority的统计算法PHITS（Probabilistic analogue of the HITS）[12]。他们提出了一个概率模型，在这个模型里面一个潜在的因子或者主题z影响了文档d到文档c的一个链接，他们进一步假定，给定因子z，文档c的条件分布P(c|z)存在，并且给定文档d，因子z的条件分布P（z|d）也存在。
P(d) P(z|d) P(c|z) ，其中
根据这些条件分布，提出了一个可能性函数（likelihood function）L,
，M是对应的连结矩阵
然后，PHITS算法使用Dempster等提出的EM算法[20]分配未知的条件概率使得L最大化，也就是最好的解释了网页之间的链接关系。算法要求因子z的数目事先给定。Allan Borodin指出，PHITS中使用的EM算法可能会收敛于局部的最大化，而不是真正的全局最大化[11]。D. Cohn和T. Hofmann还提出了结合文档内容和超链接的概率模型[13]。 Allan Borodin等提出了完全的贝叶斯统计方法来确定Hub和Authoritive网页[11]。假定有M个Hub网页和N个Authority网页，可以是相同的集合。每个Hub网页有一个未知的实数参数，表示拥有超链的一般趋势，一个未知的非负参数，表示拥有指向Authority网页的链接的趋势。每个Authoritive网页j，有一个未知的非负参数，表示j的Authority的级别。
统计模型如下，Hub网页i到Authority网页j的链接的先验概率如下给定：
P（i，j）=Exp（+）/（1+Exp（+））
Hub网页i到Authority网页j没有链接时，P（i，j）=1/（1+Exp（+））
从以上公式可以看出，如果很大（表示Hub网页i有很高的趋势指向任何一个网页），或者和都很大（表示i是个高质量Hub，j是个高质量的Authority网页），那么i－>j的链接的概率就比较大。
为了符合贝叶斯统计模型的规范，要给2M+N个未知参数（，，）指定先验分布，这些分布应该是一般化的，不提供信息的，不依赖于被观察数据的，对结果只能产生很小影响的。Allan Borodin等在中指定满足正太分布N（μ，）,均值μ=0，标准方差δ=10，指定和满足Exp（1）分布，即x>=0，P(>=x)=P(>=x)=Exp（－x）。
接下来就是标准的贝叶斯方法处理和HITS中求矩阵特征根的运算。
2.5.1简化的贝叶斯算法
Allan Borodin同时提出了简化的上述贝叶斯算法，完全除去了参数，也就不再需要正太分布的参数μ，δ了。计算公式变为：P（i，j）=/（1+），Hub网页到Authority网页j没有链接时，P（i，j）=1/(1+)。
Allan Borodin 指出简化的贝叶斯产生的效果与SALSA算法的结果非常类似。上面的所有算法，都是从查询项或者主题出发，经过算法处理，得到结果网页。多伦多大学计算机系Alberto Mendelzon, Davood Rafiei提出了一种反向的算法，输入为某个网页的URL地址，输出为一组主题，网页在这些主题上有声望（repution）[16]。比如输入，www.gamelan.com，可能的输出结果是“java”，具体的系统可以访问htpp://www.cs.toronto.e/db/topic。
给定一个网页p，计算在主题t上的声望，首先定义2个参数，渗透率和聚焦率，简单起见，网页p包含主题项t，就认为p在主题t上。
是指向p而且包含t的网页数目，是指向p的网页数目，是包含t的网页数目。结合非条件概率，引入，，是WEB上网页的数目。P在t上的声望计算如下：
指定是既指向p有包含t的概率，即，显然有
我们可以从搜索引擎（如Altavista）的结果得到，, ,WEB上网页的总数估计值某些组织会经常公布，在计算中是个常量不影响RM的排序，RM最后如此计算：
给定网页p和主题t，RM可以如上计算，但是多数的情况的只给定网页p，需要提取主题后计算。算法的目标是找到一组t，使得RM（p，t）有较大的值。TOPIC系统中是抽取指向p的网页中的锚文本的单词作为主题（上面已经讨论过锚文本能很好描述目标网页，精度很高），避免了下载所有指向p的网页，而且RM（p，t）的计算很简单，算法的效率较高。主题抽取时，还忽略了用于导航、重复的链接的文本，同时也过滤了停止字（stop word），如“a”，“the”，“for”，“in”等。
Reputation算法也是基于随机漫游模型的（random walk），可以说是PageRank和SALSA算法的结合体。
3.链接算法的分类及其评价
链接分析算法可以用来提高搜索引擎的查询效果，可以发现WWW上的重要的社区，可以分析某个网站的拓扑结构，声望，分类等，可以用来实现文档的自动分类等。归根结底，能够帮助用户在WWW海量的信息里面准确找到需要的信息。这是一个正在迅速发展的研究领域。
上面我们从历史的角度总结了链接分析算法的发展历程，较为详细的介绍了算法的基本思想和具体实现，对算法的存在的问题也做了讨论。这些算法有的处于研究阶段，有的已经在具体的系统实现了。这些算法大体可以分为3类，基于随机漫游模型的，比如PageRank，Repution算法，基于Hub和Authority相互加强模型的，如HITS及其变种，基于概率模型的，如SALSA，PHITS，基于贝叶斯模型的，如贝叶斯算法及其简化版本。所有的算法在实际应用中都结合传统的内容分析技术进行了优化。一些实际的系统实现了某些算法，并且获得了很好的效果，Google实现了PageRank算法，IBM Almaden Research Center 的Clever Project实现了ARC算法，多伦多大学计算机系实现了一个原型系统TOPIC，来计算指定网页有声望的主题。
AT&T香农实验室的Brian Amento在指出，用权威性来评价网页的质量和人类专家评价的结果是一致的，并且各种链接分析算法的结果在大多数的情况下差别很小[15]。但是，Allan Borodin也指出没有一种算法是完美的，在某些查询下，结果可能很好，在另外的查询下，结果可能很差[11]。所以应该根据不同查询的情况，选择不同的合适的算法。
基于链接分析的算法，提供了一种衡量网页质量的客观方法，独立于语言，独立于内容，不需人工干预就能自动发现WEB上重要的资源，挖掘出WEB上重要的社区，自动实现文档分类。但是也有一些共同的问题影响着算法的精度。
1．根集的质量。根集质量应该是很高的，否则，扩展后的网页集会增加很多无关的网页，产生主题漂移，主题泛化等一系列的问题，计算量也增加很多。算法再好，也无法在低质量网页集找出很多高质量的网页。
2．噪音链接。WEB上不是每个链接都包含了有用的信息，比如广告，站点导航，赞助商，用于友情交换的链接，对于链接分析不仅没有帮助，而且还影响结果。如何有效的去除这些无关链接，也是算法的一个关键点。
3．锚文本的利用。锚文本有很高的精度，对链接和目标网页的描述比较精确。上述算法在具体的实现中利用了锚文本来优化算法。如何准确充分的利用锚文本，对算法的精度影响很大。
4．查询的分类。每种算法都有自身的适用情况，对于不同的查询，应该采用不同的算法，以求获得最好的结果。因此，对于查询的分类也显得非常重要。
结束语：当然，这些问题带有很大的主观性，比如，质量不能精确的定义，链接是否包含重要的信息也没有有效的方法能准确的判定，分析锚文本又涉及到语义问题，查询的分类也没有明确界限。如果算法要取得更好的效果，在这几个方面需要继续做深入的研究，相信在不久的将来会有更多的有趣和有用的成果出现。

㈢ HITS算法的Hits算法

HITS (Hyperlink – Inced Topic Search) 算法是利用HubPAuthority的搜索方法,
具体算法如下:
将查询q提交给基于关键字查询的检索系统，从返回结果页面的集合中取前n个网页(如n=200)，作为根集合(root set)，记为S，则S满足：
1.S中的网页数量较少
2.S中的网页是与查询q相关的网页
3.S中的网页包含较多的权威(Authority)网页
通过向S 中加入被S 引用的网页和引用S 的网页,将S 扩展成一个更大的集合T. 以T 中的Hub 网页为顶点集V1 ,以权威网页为顶点集V2 。
V1 中的网页到V2 中的网页的超链接为边集E ,形成一个二分有向图. 对V1 中的任一个顶点v ,用h ( v) 表示网页v 的Hub 值,且h ( v)收敛;对V2 中的顶点u ,用a ( u) 表示网页的Authority 值。
开始时h ( v) = a ( u) = 1 ,对u 执行I 操作,修改它的a ( u) ,对v执行O操作,修改它的h ( v) ,然后规范化a ( u),h ( v) ,如此不断的重复计算下面的I操作和O操作,直到a ( u),h(v)收敛。
其中I操作:a ( u) = Σh ( v) ;O 操作: h ( v) = Σa ( u) 。每次迭代对a ( u) 、h ( v) 进行规范化处理: a ( u) = a ( u)/Σ[ a ( q) ]2 ; h ( v) = h ( v)/Σ[ h ( q) ]2 。 HITS算法伪代码如下：
1G:= set of pages
2for eachpagepinGdo
3p.auth = 1 //p.auth is the authority score of the pagep
4p.hub = 1 //p.hub is the hub score of the pagep
5functionHubsAndAuthorities(G)
6forstepfrom1tokdo// run the algorithm for k steps
7 norm = 0
8for eachpagepinGdo// update all authority values first
9p.auth = 0
10for eachpageqinp.incomingNeighborsdo//p.incomingNeighborsis the set of pages that link top
11p.auth +=q.hub
12 norm += square(p.auth) // calculate the sum of the squared auth values to normalise
13 norm = sqrt(norm)
14for eachpagepinGdo// update the auth scores
15p.auth =p.auth / norm // normalise the auth values
16 norm = 0
17for eachpagepinGdo// then update all hub values
18p.hub =
019for eachpagerinp.outgoingNeighborsdo//p.outgoingNeighborsis the set of pages thatplinks to
20p.hub +=r.auth
21 norm += square(p.hub) // calculate the sum of the squared hub values to normalise
22 norm = sqrt(norm)
23for eachpagepinGdo// then update all hub values
24p.hub =p.hub / norm // normalise the hub values

㈣两道JAVA题目，求大神解答

A、
循环执行n次，时间复杂度为O(n)。

B、
for(int i=0;i<n;i++)
for(int j=0;j<n;j++)
第一重循环每1次，第二重循环n次，第一重循环每共n次，所以这个循环总共n²次
for(int i=0;i<n;i++)
for(int j=0;j<i;j++)
这个循环总共执行1+2+...+n=(1+n)n/2次
总共循环n²+(1+n)n/2次，时间复杂度为O(n²)。

C、
for(int i=1;i<=n;i*=2)
for(int j=1;j<=n;j++)
第一重循环每1次，第二重循环n次，第一重循环每共log2n次，所以这个循环总共nlog2n次，时间复杂度为O(nlog2n)。

D、
for(int i=1;i<=n;i*=2)
for(int j=1;j<=i;j++)
这个循环总共执行1+2+...+log2n=(1+log2n)log2n/2次，时间复杂度为O(n)

㈤求问：HITS算法的实现代码！！C语言，或者JAVA都可以！

随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性，如：�

(1) 不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。�
(2) 通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。�
(3) 万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频/视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。�
(4) 通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。�
为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。与通用爬虫(general�purpose web crawler)不同，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。�

1 聚焦爬虫工作原理及关键技术概述�
网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件，如图1(a)流程图所示。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止，如图1(b)所示。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。�

相对于通用网络爬虫，聚焦爬虫还需要解决三个主要问题：�
(1) 对抓取目标的描述或定义；�
(2) 对网页或数据的分析与过滤；�
(3) 对URL的搜索策略。�
抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。�

2 抓取目标描述�
现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。�
基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为：�
（1）预先给定的初始抓取种子样本；�
（2）预先给定的网页分类目录和与分类目录对应的种子样本，如Yahoo!分类结构等；�
（3）通过用户行为确定的抓取目标样例，分为：�
a) 用户浏览过程中显示标注的抓取样本；�
b) 通过用户日志挖掘得到访问模式及相关样本。�
其中，网页特征可以是网页的内容特征，也可以是网页的链接结构特征，等等。�
现有的聚焦爬虫对抓取目标的描述或定义可以分为基于目标网页特征，基于目标数据模式和基于领域概念三种。�
基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。具体的方法根据种子样本的获取方式可以分为：（1）预先给定的初始抓取种子样本；（2）预先给定的网页分类目录和与分类目录对应的种子样本，如Yahoo!分类结构等；（3）通过用户行为确定的抓取目标样例。其中，网页特征可以是网页的内容特征，也可以是网页的链接结构特征，等等。�

-----------------------------------------------------------

2 爬虫技术研究综述
基于目标数据模式的爬虫针对的是网页上的数据，所抓取的数据一般要符合一定的模式，或者可以转化或映射为目标数据模式。�

另一种描述方式是建立目标领域的本体或词典，用于从语义角度分析不同特征在某一主题中的重要程度。�

3 网页搜索策略�
网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致爬虫的陷入(trapped)问题，目前常见的是广度优先和最佳优先方法。�
3.1 广度优先搜索策略�
广度优先搜索策略是指在抓取过程中，在完成当前层次的搜索后，才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页，一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用，先用广度优先策略抓取网页，再将其中无关的网页过滤掉。这些方法的缺点在于，随着抓取网页的增多，大量的无关网页将被下载并过滤，算法的效率将变低。�

3.2 最佳优先搜索策略�
最佳优先搜索策略按照一定的网页分析算法，预测候选URL与目标网页的相似度，或与主题的相关性，并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预测为“有用”的网页。存在的一个问题是，在爬虫抓取路径上的很多相关网页可能被忽略，因为最佳优先策略是一种局部最优搜索算法。因此需要将最佳优先结合具体的应用进行改进，以跳出局部最优点。将在第4节中结合网页分析算法作具体的讨论。研究表明，这样的闭环调整可以将无关网页数量降低30%~90%。�

4 网页分析算法�

网页分析算法可以归纳为基于网络拓扑、基于网页内容和基于用户访问行为三种类型。�
4.1 基于网络拓扑的分析算法�
基于网页之间的链接，通过已知的网页或数据，来对与其有直接或间接链接关系的对象（可以是网页或网站等）作出评价的算法。又分为网页粒度、网站粒度和网页块粒度这三种。�
4.1.1 网页(Webpage)粒度的分析算法�
PageRank和HITS算法是最常见的链接分析算法，两者都是通过对网页间链接度的递归和规范化计算，得到每个网页的重要度评价。PageRank算法虽然考虑了用户访问行为的随机性和Sink网页的存在，但忽略了绝大多数用户访问时带有目的性，即网页和链接与查询主题的相关性。针对这个问题，HITS算法提出了两个关键的概念：权威型网页（authority）和中心型网页（hub）。�

基于链接的抓取的问题是相关页面主题团之间的隧道现象，即很多在抓取路径上偏离主题的网页也指向目标网页，局部评价策略中断了在当前路径上的抓取行为。文献[21]提出了一种基于反向链接（BackLink）的分层式上下文模型（Context Model），用于描述指向目标网页一定物理跳数半径内的网页拓扑图的中心Layer0为目标网页，将网页依据指向目标网页的物理跳数进行层次划分，从外层网页指向内层网页的链接称为反向链接。�

4.1.2 网站粒度的分析算法�
网站粒度的资源发现和管理策略也比网页粒度的更简单有效。网站粒度的爬虫抓取的关键之处在于站点的划分和站点等级(SiteRank)的计算。SiteRank的计算方法与PageRank类似，但是需要对网站之间的链接作一定程度抽象，并在一定的模型下计算链接的权重。�
网站划分情况分为按域名划分和按IP地址划分两种。文献[18]讨论了在分布式情况下，通过对同一个域名下不同主机、服务器的IP地址进行站点划分，构造站点图，利用类似PageRank的方法评价SiteRank。同时，根据不同文件在各个站点上的分布情况，构造文档图，结合SiteRank分布式计算得到DocRank。文献[18]证明，利用分布式的SiteRank计算，不仅大大降低了单机站点的算法代价，而且克服了单独站点对整个网络覆盖率有限的缺点。附带的一个优点是，常见PageRank 造假难以对SiteRank进行欺骗。�
4.1.3 网页块粒度的分析算法�
在一个页面中，往往含有多个指向其他页面的链接，这些链接中只有一部分是指向主题相关网页的，或根据网页的链接锚文本表明其具有较高重要性。但是，在PageRank和HITS算法中，没有对这些链接作区分，因此常常给网页分析带来广告等噪声链接的干扰。在网页块级别(Block�level)进行链接分析的算法的基本思想是通过VIPS网页分割算法将网页分为不同的网页块(page block)，然后对这些网页块建立page�to�block和block�to�page的链接矩阵，�分别记为Z和X。于是，在page�to�page图上的网页块级别的PageRank为�W�p=X×Z；�在block�to�block图上的BlockRank为�W�b=Z×X。�已经有人实现了块级别的PageRank和HITS算法，并通过实验证明，效率和准确率都比传统的对应算法要好。�
4.2 基于网页内容的网页分析算法�
基于网页内容的分析算法指的是利用网页内容（文本、数据等资源）特征进行的网页评价。网页的内容从原来的以超文本为主，发展到后来动态页面（或称为Hidden Web）数据为主，后者的数据量约为直接可见页面数据（PIW，Publicly Indexable Web）的400~500倍。另一方面，多媒体数据、Web Service等各种网络资源形式也日益丰富。因此，基于网页内容的分析算法也从原来的较为单纯的文本检索方法，发展为涵盖网页数据抽取、机器学习、数据挖掘、语义理解等多种方法的综合应用。本节根据网页数据形式的不同，将基于网页内容的分析算法，归纳以下三类：第一种针对以文本和超链接为主的无结构或结构很简单的网页；第二种针对从结构化的数据源（如RDBMS）动态生成的页面，其数据不能直接批量访问；第三种针对的数据界于第一和第二类数据之间，具有较好的结构，显示遵循一定模式或风格，且可以直接访问

base set
基本集
基础集合

base基数

在HITS 算法中,对每个文档都要计算两个值:权威值(authority)与中心值(hub)。开始时,由用户发出查询,HITS 算法使用一个基于文本的搜索引擎,得到许多被返回的页面,构成根集合(root set)R。把根集合中的页面所指向的页面都包括进来,再把指向根集合中的页面的页面也包括进来,这样就扩充成了基础集合(base set)T.

㈥ hits算法为什么归一化

您好，为了空间的考虑，我们在存储Web图的时候，一般都是用的邻接矩阵表示。
经过分析发现，一个页面的权威值，其实是指向它的页面的中心值之和；一个页面的中心值，是它指向的页面的权威值的过程。这是一个相互加强的过程。
为什么要归一化。主要原因是消除不同维度数据之间的差异，还以加快训练算法的收敛速度。包括去除量纲不一致的缺陷，时间序列不平稳。

㈦ HITS算法的算法由来

HITS的算法由来

HITS 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM
公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。

HITS
(Hyperlink – Inced Topic Search) 算法是利用HubPAuthority的搜索方法,

具体算法如下:

将查询q提交给基于关键字查询的检索系统，从返回结果页面的集合中取前n个网页(如n=200)，作为根集合(root set)，记为S，则S满足：

S中的网页数量较少
S中的网页是与查询q相关的网页
S中的网页包含较多的权威(Authority)网页

通过向S 中加入被S 引用的网页和引用S 的网页,将S 扩展成一个更大的集合T. 以T 中的Hub 网页为顶点集V1 ,以权威网页为顶点集V2 。

V1 中的网页到V2 中的网页的超链接为边集E ,形成一个二分有向图. 对V1 中的任一个顶点v ,用h ( v) 表示网页v 的Hub 值,且h ( v)收敛;对V2 中的顶点u ,用a ( u) 表示网页的Authority 值。

开始时h ( v) = a ( u) = 1 ,对u 执行I 操作,修改它的a ( u) ,对v执行O操作,修改它的h ( v) ,然后规范化a ( u),h ( v) ,如此不断的重复计算下面的I操作和O操作,直到a ( u),h(v)收敛。

其中I操作:a ( u) = Σh ( v) ;O 操作: h ( v) = Σa ( u) 。每次迭代对a ( u) 、h ( v) 进行规范化处理: a ( u) = a ( u)/Σ[ a ( q) ]2 ;h ( v) = h ( v)/Σ[ h ( q) ]2 。

㈧如何利用HITS算法SEO优化网站提升排名

一个完整的SEO优化方案主要由四个小组组成：
一、前端/页编人员
二、内容编辑人员
三、推广人员
四、数据分析人员
接下来，我们就对这四个小组分配工作。
首先，前端/页编人员主要负责站内优化，主要从四个方面入手：
第一个，站内结构优化
合理规划站点结构（1、扁平化结构 2、辅助导航、面包屑导航、次导航）
内容页结构设置（最新文章、推荐文章、热门文章、增加相关性、方便自助根据链接抓取更多内容）
较快的加载速度
简洁的页面结构
第二个，代码优化
Robot.txt
次导航
404页面设置、301重定向
网站地图
图片Alt、title标签
标题
关键词
描述
关键字密度
个别关键字密度
H1H2H3中的关键字
关键字强调
外链最好nofollow
为页面添加元标记meta
丰富网页摘要（微数据、微格式和RDFa）
第三个，网站地图设置
html网站地图（1、为搜索引擎建立一个良好的导航结构 2、横向和纵向地图：01横向为频道、栏目、专题/02纵向主要针对关键词 3、每页都有指向网站地图的链接）
XML网站地图（sitemap.xml提交给网络、google）
第四个，关键词部署
挑选关键词的步骤（1、确定目标关键词 2、目标关键词定义上的扩展 3、模拟用户的思维设计关键词 4、研究竞争者的关键词）
页面关键词优化先后顺序（1、最终页>专题>栏目>频道>首页 2、最终页：长尾关键词 3、专题页：【a、热门关键词 b、为热点关键词制作专题 c、关键词相关信息的聚合 d、辅以文章内链导入链接】 4、栏目页：固定关键词 5、频道页：目标关键词 6、首页：做行业一到两个顶级关键词，或者网站名称）
关键词部署建议（1、不要把关键词堆积在首页 2、每个页面承载关键词合理数目为3-5个 3、系统规划）
然后，我们的内容编辑人员要对网站进行内容建设，怎样合理的做到网站内部优化的功效？这里主要有五个方面：
第一个，网站内容来源
原创内容或伪原创内容
编辑撰稿或UGC
扫描书籍、报刊、杂志
第二个，内容细节优化
标题写法、关键词、描述设置
文章摘要规范
URL标准化
次导航
内页增加锚文本以及第一次出现关键词进行加粗
长尾关键词记录单
图片Alt、titile标签
外链最好nofollow
网络站长工具、google管理员工具的使用
建立反向链接
第三个，关键词部署
挑选关键词的步骤（1、确定目标关键词 2、目标关键词定义上的扩展 3、模拟用户的思维设计关键词 4、研究竞争者的关键词）
页面关键词优化先后顺序（1、最终页>专题>栏目>频道>首页 2、最终页：长尾关键词 3、专题页：【a、热门关键词 b、为热点关键词制作专题 c、关键词相关信息的聚合 d、辅以文章内链导入链接】 4、栏目页：固定关键词 5、频道页：目标关键词 6、首页：做行业一到两个顶级关键词，或者网站名称）
关键词部署建议（1、不要把关键词堆积在首页 2、每个页面承载关键词合理数目为3-5个 3、系统规划）+（网站商城定制开发修改需要关注本资料+联是来看）
第四个，内链策略
控制文章内部链接数量
链接对象的相关性要高
给重要网页更多的关注
使用绝对路径
需要改进的地方
第五个，注意事项
不要大量采集
有节奏的更新
编辑发布文章的时候要做好锚文本
做好长尾关键词记录单
接下来，我们的推广人员就要对网站进行站外优化了，这里主要包括两个大的方面：
第一个，外链建设基本途径
友情链接
软文
目录提交
独立博客
论坛签名
黄页网站
提交收藏
分类信息
微博推广
sns推广
第二个，链接诱饵建设思路
举办活动，带上相关链接，引导网友大规模转播
最后，我们的数据分析人员就要对网站进行每天的数据分析，总结流量来源，这里主要从五个方面分析：
第一个，数据分析
根据统计（网络统计工具，CNZZ统计工具等等），分析用户进入的关键词，模拟用户思路，思考长尾关键词
第二个，竞争对手分析
网络权重、PR值
快照
反链
内链
收录
网站历史
品牌关键词
长尾关键词
网站结构
第三个，关键词定位
目标关键词
品牌关键词
热门关键词
长尾关键词
第四个，长尾关键词挖掘—长尾关键词类型
目标型长尾（目标型指的是网站的产品或者服务延伸的长尾关键词，往往优化长尾的时候都是先以目标型长尾为主，因为这些长尾可以真实给我们带来目标客户和目标量）
营销型长尾（营销型长尾是指与行业站服务相关的长尾，可以让我们进行二次转化成我们的目标用户）
第五个，挖掘长尾关键词用到的工具
网络指数工具
网络知道
网络及其他SE的相关搜索及下拉框
网络站长工具、google关键词分析工具
至此，一个完整的网站SEO优化方案已经完成。

㈨ hits算法：在网上找了几个关于hits的java实现算法，算法的输入都是一个方阵，请问不是方阵的如何实现

k相当于你用来记录每次运算的进度的，k不断的增长的过程，就是假设你用手算一个一个运算的过程。你写两个矩阵A是3*3的，B是3*3的，两个矩阵相乘，你看看是不是你手算的过程和这个程序的步骤是一致的。如果不是方阵假设A是2*3.B是3*2那么k还是原来的东西。只不过，2用i来循环，3用j来循环，for (int i = 0; i < len; i++)中的len=2. for (int j = 0; j < len; j++)中的len=3而已了。k=2因为C=A*B是2*2的。不明白你再问O(∩_∩)O

㈩ HITS算法的具体解释

按照HITS算法，用户输入关键词后，算法对返回的匹配页面计算两种值，一种是枢纽值（Hub Scores），另一种是权威值(Authority Scores),这两种值是互相依存、互相影响的。所谓枢纽值，指的是页面上所有导出链接指向页面的权威值之和。权威值是指所有导入链接所在的页面中枢纽之和。
一个网页重要性的分析的算法。
通常HITS算法是作用在一定范围的，比如一个以程序开发为主题网页，指向另一个以程序开发为主题的网页，则另一个网页的重要性就可能比较高，但是指向另一个购物类的网页则不一定。
在限定范围之后根据网页的出度和入度建立一个矩阵，通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。

导航:首页 > 源码编译 > hits算法java

hits算法java

与hits算法java相关的资料