关键词检索算法_论淘宝搜索推荐算法排序机制及2021年搜索的方向

A. 什么是关键字搜索什么是目录搜索什么是引擎搜索

关键字搜索又称保留字搜索是指在搜索引擎行业中，希望访问者了解的产品、服务或者公司等内容名称的用语。另外，关键字也是电脑语言用语。

目录搜索引擎是以人工方式或半自动方式搜集信息，由编辑员查看信息之后，人工形成信息摘要，并将信息置于事先确定的分类框架中。信息大多面向网站，提供目录浏览服务和直接检索服务。

所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。

搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。

(1)关键词检索算法扩展阅读：

根据一定的策略、运用特定的计算机程序从互联网上采集信息，在对信息进行组织和处理后，为用户提供检索服务，将检索的相关信息展示给用户的系统。

工作于互联网上的一门检索技术，它指在提高人们获取搜集信息的速度，为人们提供更好的网络使用环境。从功能和原理上搜索引擎大致被分为全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎等四大类。

基础架构和算法在技术上都已经基本成型和成熟。搜索引擎已经发展成为根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。

B. 英文搜索引擎bing的核心算法是什么

英文搜索引擎bing的核心算法是：获得网站网页资料，建立数据库并提供查询的系统，搜索引擎的数据库是依靠一个叫“网络机器人（crawlers）”或叫“网络蜘蛛（Spider）”的软件，通过网络上的各种链接自动获取大量网页信息内容，并按一定的规则分析整理形成的。

bing加上为雅虎提供的搜索技术支持，必应已占据29.3%的市场份额。

(2)关键词检索算法扩展阅读：

关键词分数：

1、网页title中关键词的处理

2、H标签（h1-h6）中关键词的处理

3、文本内容中关键词的密度

4、外链中关键词的选择

5、域名中的关键词

域名权重：

1、域名注册前的历史问题

2、域名注册时间的长短

3、外链网站的权重

4、外链、给出链接的相关度

5、是否使用历史、链接形式

C. 什么是关键词关键词怎么来的

关键词这个叫法的溯源我们先从一些知识网络来了解下。中文的叫法应该是从英文那边翻译过来的。网络的解释是关键词特指单个媒体在制作使用索引时，所用到的词汇。在wikipedia上的解释是a term used as a keyword toretriewv documenet in an inofrmation system such as catalog or a search engine.它的意思是关键词是一种获取信息的一种精炼的词汇。因为我们知道如果要获取一整块信息它的量是非常大的，我们没有办法通过一整段的句子去找源头，所以我们要从所有的信息当中去挖取出信息的核心意思，再从核心意思去转换成一个单词，这个单词或是小段短语就是所谓的关键词了。因此，关键词是一个大内容下的精炼体。
随后我们从字面意思也能看出，keyword的翻译就是钥匙或关键的意思，也就非常的形象告诉我们能否属于个对的关键词核心是要找到对的"钥匙"。当在搜索的一刹那，用户所用的关键词种类可以非常之多，但所得到的搜索结果是不一样的。不同的钥匙是打开不同的门的，门就像搜索引擎里的算法，算法是源自于搜索引擎本身内部的综合的计算能力。而要把这个门打开，就需要使用正确的关键词。我这里也特意提到，钥匙词不等同就是一个关键词，因为钥匙词是在一堆钥匙中找对应的门，当用错误的钥匙开错误的门是打不开的，所以当你用不对的关键词去找对应的内容时可能找不到。因此我们必须要有一个清楚的概念就是，关键词虽然每天我们都在这样的称呼它，但是它是否在实际意义上帮你找到了你要的内容了吗?成功的关键词的定义应该是结果是不是对，是不是找到你所要的信息了?
对于搜索引擎的关键词其实就是要找到海量数字信息中的那一块内容，在网络上面所有的讯息和文档都是数字化的。内容是否匹配很重要，这里举一个例子，比如你想找上海的地铁图，你一般会在搜索框上搜上海地铁图这样的关键词，出来的结果我看了下基本上都可以找到上海轨道交通图的大图的。所以对于这个关键词来讲是成功的!那又假如这个用户用的词是地铁示意图，地铁图，出现的结果不一定是这个的大图或不一定是上海的地铁图，虽然听起来有点小怪，为什么你会觉得既然要找上海地铁图，为什么不去搜索带上海地域字样的关键词呢。你要知道，不是所有的用户会很好的利用或是使用搜索引擎，搜索的动作不一定和他们的意图能够最好的匹配起来，所以说这样的词就可能不是一个成功的关键词。
搜索引擎与关键词的关系。其实搜索引擎的工作原理应该大部分人都知道，总结起来讲就是爬、抓、处、排、展。爬的意思就是派蜘蛛出来做搬运工的事情，也就是在你的网站上进行爬取，但记住爬取不代表抓取，抓取是指蜘蛛觉得你的内容是不错的，它把内容带回到处理中心，反过来内容不好的话就没有抓取这个动作。所以在抓的过程中就有了处理这个过程，处理的过程一般我们称为它是一个算法，英文叫做 Algorithm。在这个算法过程中，对于用户来讲没有办法进行所谓的人工干预，但也不排除某些搜索引擎会的，在算法过程中我们知道所有的排序，内容处理，匹配，仿spam的处理。整个处理过程中最终是会展现出关键词的在首页或是前几页的顺序，这个顺序不只是排名的高与低，还有各式的形式或是称为排名多样性等等。那在排之后就是所谓给予用户的一个展现。
那排名的展现，它是基于什么东西呢?虽然搜索引擎已经把不同的内容作了这样的处理，那问题是靠什么东西把这个排名激发出来呢?这就牵涉到我们用户所做的一个动作了，那就是关键词搜索。在5个动作中，搜索引擎端会根据用户端在浏览器中的输入进行排名的展现。也就是说我们搜不同关键词出来的排名展现是不一样的，比如刚才讲到的搜地铁图和搜上海1号线地铁图，你所看到的展现结果完全会不一样的。虽然会有内容的一些重复，但在排名或是展现上肯定是不一样的。所以总结来说搜索引擎的算法决定排名，用户的关键词开启展现。有些是客观的，有些是用户能决定。
虽然大家通常都在讲做网站之前都需要做嵌入式的seo建站方法，此话不假。只是说当你在说这个话的时候，你是否真知道什么是植入式的seo建站?它应该到底在什么时候发生?通常把植入seo建站分为4个等级步骤，第一个等级是网站主题的一个定位，因为很多人可能会纠结说我到底是先设计网站呢，还是先设计关键词?其实对于我来讲，我还是会选择从市场角度入手，你本身做这个网站为了是什么?你的网站主题是什么才是最要紧的，因为这将是这个网站今后的基因。基于网站主题上的开始必须要放弃一些行业里很热的词，不要因为这类词热所以我要做这个事情，这样你的网站建设的初衷就变了。不管是卖产品还是卖服务你一定要保留你这个想法。定完网站主题后你就要考虑网站的整体架构是什么了，所以网站架构这步就要考虑seo了，它是一个比较伤筋动骨的东西，一开始如果做不好后面再去翻工是一个非常糟糕的一件事情。在架构上seo融入进入更多考量是蜘蛛抓取和收录上为主的改良，在这基础上再去对于网站设计进行操作。设计做好后就要去做内容的纲要了，之所以先做纲要的目的是给自己一个整体的填内容展望，你不太可能一下子把内容全部做好的。不同栏目下的核心内容纲要撰写，轴心就不容易偏移。做好以上事情后，就要给你的上级去审核，是否所有的规划都是合理准确的。

D. 百度指数的算法是什么

网络指数基于网络网页搜索和网络新闻搜索的海量数据，计算出每个关键词的用户关注度和媒体关注度的数值。网络指数每天更新一次，并且提供自2006年6月至今任意时间段的用户关注度数据。

同时，根据不同的关键词，机器自动从网络新闻搜索中获取与该关键词最相关的10条热门新闻，并将新闻按时间顺序均匀分布在“用户关注度”的曲线图上，以字母标识，每个字母对应一条新闻。

(4)关键词检索算法扩展阅读

网络指数（Bai Index）是以网络海量网民行为数据为基础的数据分析平台，是当前互联网乃至整个数据时代最重要的统计分析平台之一，自发布之日便成为众多企业营销决策的重要依据。

“世界很复杂，网络更懂你”，网络指数能够告诉用户：某个关键词在网络的搜索规模有多大，一段时间内的涨跌态势以及相关的新闻舆论变化，关注这些词的网民是什么样的，分布在哪里，同时还搜了哪些相关的词，帮助用户优化数字营销活动方案。

截至2014年，网络指数的主要功能模块有：基于单个词的趋势研究（包含整体趋势、PC趋势还有移动趋势）、需求图谱、舆情管家、人群画像；基于行业的整体趋势、地域分布、人群属性、搜索时间特征。

网络指数的理想是“让每个人都成为数据科学家”。对个人而言，大到置业时机、报考学校、入职企业发展趋势，小到约会、旅游目的地选择，网络指数可以助其实现“智赢人生”；

对于企业而言，竞品追踪、受众分析、传播效果，均以科学图标全景呈现，“智胜市场”变得轻松简单。大数据驱动每个人的发展，而网络倡导数据决策的生活方式，正是为了让更多人意识到数据的价值。

E. 论淘宝搜索推荐算法排序机制及2021年搜索的方向。

[写在前面]淘宝搜索引擎至今反复多次，搜索顺序也从最初的统计模型升级到机械学习模型，到2010年为止没有标签没有基础标签，随着计算能力的提高，2010年后开始挖掘用户的基础标签，从3年到2013年开始使用大规模的机械学习和实时特征
但你有没有想过为什么2016-2017年的两年是各种各样的黑搜索盛行的一年，为什么今天几乎消失了？
最根本的原因是从统计算法模型到机械学习模型的转型期。
说白了，这时不收割就没有收割的机会。因为统计模型即将退出历史舞台。
因此，各路大神各自扩大了统计模型算法中的影响因素。统计算法无论在哪里，点击率和坑产都很容易搜索。
那两年成了中小卖家的狂欢盛宴，很多大神的烟火也是旺盛的。
今天推荐算法的第三代使用后，加上疫情的影响进行了鲜明的比较，真的很感慨。
淘宝真的没有流量了吗？电器商务真的做不到吗？还是大家的思维没有改变，停留在2016-2017年的黑搜宴会上不想醒来？
2017年、2018年、2019年是淘宝推荐算法反复最快的3年，每年的算法升级都不同，整体上到2019年9月为止统计算法模型的影响因素还很大，从2019年下半年开始第三代推荐算法后，全面的真正意义进入了以机械学习模型为中心的推荐算法时代。
各路大神也无法验证，加上百年疫情的影响，很多大神的隐蔽布也泄露了。
基本上以统计模型为主，训练基本上没有声音，典型的是坑产游戏。
如果现在还能看到的话，基本上可以判断他不是在训练，而是在制作印刷用纸，一定会推荐使用资源，资源是多么安全。
刷子的生产增加真的没有效果吗？不是我以前的文章说:不是不行，而是从坑产的角度思考，而是从改变竞争环境的角度思考，用补充书改变竞争环境，改变场地，有新的天地，任何手段都要为商业本质服务。
正文
概述统计算法模型时代。
统计模型时代搜索引擎的排名是最原始的排名思考，如果你的类别不错，关键词比较正确，就能得到很大的流量，当时产品需求少，只要上下架的优化就能使产品上升。
到2016年为止没有坑产游戏吗？黑色搜索的效果不好吗？其实，什么时候坑产是最核心的机密，谁来教大家，什么时候教的最多的是类别优化，关键词优化，大部分优化都围绕关键词，电器商的老人想起了你什么时候得到关键词的人得到了世界。
有人告诉我做坑产，关键词找到生意也来了。什么时候知道坑产也没有人给你刷子，大规模的补充书也出现在黑色搜索盛行的时期。
为什么关键词者得天下？
搜索关键词是用户目前意图最直观的表达，也是用户表达意图最直接的方式。
搜索的用户购物意图最强，成交意愿也最强，现在搜索也是转化率最高的流量来源。
统计时代关键词背后直接依赖的是类别商品，只要制作类别和关键词分词即可，哪个时代最出现的黑马通常是类别机会、关键词机会、黑科学技术机会。
最基本的是商业本质，什么时候产品需求少，没有很多现在的类别，自己找类别，现在想想什么概念。
记得什么时候类别错了，搜索也可以来。如果你的商品点击反馈好的话，错误的类别没有什么影响，现在试试吧
搜索类是搜索的基础。
什么时候能称霸，背后有商业逻辑，用户行为数据好就行了。
但无论如何发展检索都离不开关键词。例如，上述关键词是用户表达意图的最直接的方法，是当前消费者的检索行为和购买行为发生了根本性的变化。
检索依然根据消费者的行为数据和关键词来判断需求，这就是机械学习模型时代。
机器学习模式时代-推荐搜索算法。
现在的商品体积和消费者购物行为的丰富性，统计算法不能满足检索的本质要求。
所以现在搜索引擎开始发展深度学习模式更精细的建模-推荐搜索算法，搜索排名更智能。
在此重点讨论推荐检索算法，
2017、2018、2019是推荐检索算法真正意义发展的3年，3年3个系统版本每年更换一次，很多电器商人都不知道头脑。
推荐检索算法和统计算法模型的最大区别在于，Query的处理能力和算法有召回机制
简单表示推荐算法的程序:
1:对检索关键词进行分词、重写的处理进行类别预判
2:根据用户信息，即用户以前的行为数据记录和预测的性别、年龄、购买力、店铺喜好、品牌喜好、实时行动作等信息存档
3:根据检索用户信息，根据检索用户以前的行为数据检索引擎和预测的性别、年龄、购买力、店铺喜好、品牌喜好、实时行动作为等信息存档3:根据检索用户信息的检索用户信息
也就是说，在第一关召回阶段基本上与统计模型时代的最佳化途径相同，核心是标题分词和类别，现在最大的区别是根据用户信息推荐最佳化，这是标签和正确人群标签图像最佳化的基本意义。
为什么现在一直在谈论标签，谈论人标签图像？入池实际上是为了匹配真正的消费者用户信息，通过直通车测试来判断人群也是为了通过性别、年龄和购买力来优化匹配真正的消费者。
召回机制:
通过构建子单元索引方式加快商品检索，不必经历平台上亿级的所有商品。该索引是搜索引擎中的倒置索引，利用倒置索引初始筛选商品的过程是召回阶段。
在这个阶段，不会进行复杂的计算，主要是根据现在的搜索条件进行商品候选集的快速圈定。
之后再进行粗排和精排，计算的复杂程度越来越高，计算的商品集合逐渐减少，最后完成整个排序过程。
主要召回路径分为
1:语言召回
2:向量召回
这些都是商业秘密不方便的说明，有兴趣的是学习我们的在线会员课程标签重叠游戏6是基于语言和向量召回的基础逻辑实战落地的课程。
下一阶段进入粗行列，粗行列受这些因素的影响:
粗行列作为召回后的第一个门槛，希望用户体验以时间低的模型快速排序和筛选商品，第一关系将过滤到不适合本次检索词要求的商品
为了实现这个目的，首先要明确影响粗排名得分的因素
1:类别匹配得分和文本匹配得分，
2:商品信息质量(商品发布时间、商品等级、商品等级)
3:商品组合得分
点击得分
交易得分卖方服务商业得分
在粗排列框架下，系统粗排列算法根据商品类别的预测得分进行得分
点击得分交易得分
交易得分卖方服务商业得分粗排列框架下，系统粗排列的大排列
最后是精排，检索顺序的主要目标是高相关性、高个性化的正确性。
每个用户的喜好不同，系统会根据每个用户的Query结合用户信息进行召回。然后通过粗排后，商品数量从万级下降到千级。
千级商品经排后直接向用户展示，搜索过程中商品集合的思考和具体变化如下图

前面的召回、粗排主要解决主题相关性，通过主题相关性的限制，首先缩小商品集合和我们的在线会员课程标签
精排阶段系是真正系统推荐算法发挥真正威力时，应根据用户行为反馈迅速进行机械学习建模，判断用户真实性、准确性和可持续控制性。
为什么现在的游戏和黑色技术暂时出现，核心是系统算法模型机械学习模型，系统分析用户有问题，不正确，不稳定，维持性差，可以迅速调整。
也就是说，即使发现脆弱性，研究快速有效的方法，系统也会根据你精排阶段的用户行为迅速分析学习建模，发现模型有问题，你的玩法就结束了。
猜机器学习建模的速度有多快？
想玩黑色的东西早点死去吧。
现在使用的检索顺序模型主要是
CTR模型和CVR模型，具体模型过于复杂也不需要深入，但影响这两种模型的最基本因素是用户行为数据
真的不能假的，假的也不能假的算法模型越来越智能化，算法越来越强，只有回归商业本质才能真正解决算法模型背后真正想解决的问题，算法基于商业逻辑。
2021年搜索向哪个方向发生变化:
2020年电器商人和蚂蚁是不平凡的一年。2020年也是蚂蚁从神坛上拉下来的元年，现在蚂蚁有各种各样的黑色。
基于中小卖家的走势无疑是阿里必须正面面对的现实。
如何让中小卖家回流或留在平台上，搜索该怎么做？
检索一定是基于三方的考虑，买方、卖方和平台本身，现在市场上又开始提倡坑产搜索逻辑，坑产妖风又开始，根据推荐搜索算法逻辑来谈这个问题。
为什么坑产思维是不死的小强，每次危机都会跳出来。
以统计模型为中心的坑产时代是淘宝从2003年到2015年一直使用的搜索算法模型长达13年。
同时也是淘宝和中国网分红的野蛮生长期，统计算法模式让太多电商赚钱。除了
之外，十年的奴役思维已经习惯了，在电器商圈，坑产游戏一定有人相信，其他人不一定被认可。所以，我们夹着尾巴发展的原因，时间真的可以证明一切，不用多说，做自己。
习惯性思维加上特殊时期的赚钱蝴蝶效应，使许多电器商人活在历史的长梦中。正确地说，统计算法模型的真正废除是在2019年下半年。
同学说坑产永远有效，我也这么想。
永远有效的是起爆模型坑产权重驱动和统计算法模型中的坑产排名不同。
起爆模型的坑产要素永远有效，这永远不会改变。
但是，如何有效地加上这个起爆模型的坑产权重，并不像模仿购物的意图那么简单。
坑产游戏在2021年绝对不行。淘宝不会把现在的算法系统换成15年前的。
基于三方利益:
购买者体验
卖方利益
平台的发展
搜索肯定会向高精度和高控制性发展。以标签为中心的用户标签图像仍然是影响流量精度的基本因素。
必须从标签的角度考虑和优化种子组的图像。
通过种子组的图像向相似人扩展到叶类人，业界喜好人最后向相关人扩展也是扩大流量的过程渠道。
基于推荐搜索算法逻辑:
精密排列阶段算法更强，精度更高，转化率更高，持续稳定性更强。
基于中小卖方流通的现状，优化精排阶段并非中小卖方能够简单接触。
推荐算法从搜索排名阶段出现在哪个阶段？
个人判断
一是召回阶段
二是粗排阶段
上述提到召回阶段的算法简单复盖商品为万级，排序规则也比较简单，中小卖方在召回阶段提高精度尤为重要。
在这个万级商品库中，如上下架的权重上升，中小卖方有机会上升到主页，从子单元的索引召回中寻找机会。
或者根据中小卖方的新产品和中小卖方的店铺水平进行特别优先搜索推荐，使中小卖方的新产品在低销售状态下显示，可以实现锦囊算法。
中小卖方有机会搜索主页，不调用用户信息直接打开主页的展示权可能是中小卖方最大的支持。
根据召回阶段的用户行为数据，在粗排阶段以比例融入用户信息，即标签的影响。
在初始召回阶段，类别和分词权重，看业者主图场景反应背后的人们反馈，用系统引导，给中小卖方真正参考的流量方向和成交方向。
谁疯狂地印刷用纸直接关闭黑屋，理解印刷用纸优化竞争场景，从优化人群的角度出发，适当放宽处罚。
通过召回阶段，得到的用户信息会影响粗体结果。在这个阶段，用户信息的权重比例不应该太大，流量卡也不应该太死。
在各检索顺序阶段用户信息，即用户标签对检索的影响权重的问题。
这个方向我的个人观点是可能的。

F. 如何对关键词和对应的网页进行加权搜索

2.1基于词频统计——词位置加权的搜索引擎
利用关键词在文档中出现的频率和位置排序是搜索引擎最早期排序的主要思想，其技术发展也最为成熟，是第一阶段搜索引擎的主要排序技术，应用非常广泛，至今仍是许多搜索引擎的核心排序技术。其基本原理是：关键词在文档中词频越高，出现的位置越重要，则被认为和检索词的相关性越好。
1）词频统计
文档的词频是指查询关键词在文档中出现的频率。查询关键词词频在文档中出现的频率越高，其相关度越大。但当关键词为常用词时，使其对相关性判断的意义非常小。TF/IDF很好的解决了这个问题。TF/IDF算法被认为是信息检索中最重要的发明。TF（Term
Frequency）：单文本词汇频率，用关键词的次数除以网页的总字数，其商称为“关键词的频率”。IDF（Inverse Document
Frequency）：逆文本频率指数，其原理是，一个关键词在N个网页中出现过，那么N越大，此关键词的权重越小，反之亦然。当关键词为常用词时，其权重极小，从而解决词频统计的缺陷。
2）词位置加权
在搜索引擎中，主要针对网页进行词位置加权。所以，页面版式信息的分析至关重要。通过对检索关键词在Web页面中不同位置和版式，给予不同的权值，从而根据权值来确定所搜索结果与检索关键词相关程度。可以考虑的版式信息有：是否是标题，是否为关键词，是否是正文，字体大小，是否加粗等等。同时，锚文本的信息也是非常重要的，它一般能精确的描述所指向的页面的内容。
2.2基于链接分析排序的第二代搜索引擎
链接分析排序的思想起源于文献引文索引机制，即论文被引用的次数越多或被越权威的论文引用，其论文就越有价值。链接分析排序的思路与其相似，网页被别的网页引用的次数越多或被越权威的网页引用，其价值就越大。被别的网页引用的次数越多，说明该网页越受欢迎，被越权威的网页引用，说明该网页质量越高。链接分析排序算法大体可以分为以下几类：基于随机漫游模型的，比如PageRank和Repution算法；基于概率模型的，如SALSA、PHITS；基于Hub和Authority相互加强模型的，如HITS及其变种；基于贝叶斯模型的，如贝叶斯算法及其简化版本。所有的算法在实际应用中都结合传统的内容分析技术进行了优化。本文主要介绍以下几种经典排序算法：
1）PageRank算法
PageRank算法由斯坦福大学博士研究生Sergey Brin和Lwraence
Page等提出的。PageRank算法是Google搜索引擎的核心排序算法，是Google成为全球最成功的搜索引擎的重要因素之一，同时开启了链接分析研究的热潮。
PageRank算法的基本思想是：页面的重要程度用PageRank值来衡量，PageRank值主要体现在两个方面：引用该页面的页面个数和引用该页面的页面重要程度。一个页面P（A）被另一个页面P（B）引用，可看成P（B）推荐P（A），P（B）将其重要程度（PageRank值）平均的分配P（B）所引用的所有页面，所以越多页面引用P（A），则越多的页面分配PageRank值给P（A），PageRank值也就越高，P（A）越重要。另外，P(B)越重要，它所引用的页面能分配到的PageRank值就越多，P（A）的PageRank值也就越高，也就越重要。
其计算公式为：

PR（A）：页面A的PageRank值；
d：阻尼系数，由于某些页面没有入链接或者出链接，无法计算PageRank值，为避免这个问题（即LinkSink问题），而提出的。阻尼系数常指定为0.85。
R（Pi）：页面Pi的PageRank值；
C（Pi）：页面链出的链接数量；
PageRank值的计算初始值相同，为了不忽视被重要网页链接的网页也是重要的这一重要因素，需要反复迭代运算，据张映海撰文的计算结果，需要进行10次以上的迭代后链接评价值趋于稳定，如此经过多次迭代，系统的PR值达到收敛。
PageRank是一个与查询无关的静态算法，因此所有网页的PageRank值均可以通过离线计算获得。这样，减少了用户检索时需要的排序时间，极大地降低了查询响应时间。但是PageRank存在两个缺陷：首先PageRank算法严重歧视新加入的网页，因为新的网页的出链接和入链接通常都很少，PageRank值非常低。另外PageRank算法仅仅依靠外部链接数量和重要度来进行排名，而忽略了页面的主题相关性，以至于一些主题不相关的网页（如广告页面）获得较大的PageRank值，从而影响了搜索结果的准确性。为此，各种主题相关算法纷纷涌现，其中以以下几种算法最为典型。
2）Topic-Sensitive PageRank算法
由于最初PageRank算法中是没有考虑主题相关因素的，斯坦福大学计算机科学系Taher
Haveli-wala提出了一种主题敏感（Topic-Sensitive）的PageRank算法解决了“主题漂流”问题。该算法考虑到有些页面在某些领域被认为是重要的，但并不表示它在其它领域也是重要的。
网页A链接网页B，可以看作网页A对网页B的评分，如果网页A与网页B属于相同主题，则可认为A对B的评分更可靠。因为A与B可形象的看作是同行，同行对同行的了解往往比不是同行的要多，所以同行的评分往往比不是同行的评分可靠。遗憾的是TSPR并没有利用主题的相关性来提高链接得分的准确性。
3）HillTop算法
HillTop是Google的一个工程师Bharat在2001年获得的专利。HillTop是一种查询相关性链接分析算法，克服了的PageRank的查询无关性的缺点。HillTop算法认为具有相同主题的相关文档链接对于搜索者会有更大的价值。在Hilltop中仅考虑那些用于引导人们浏览资源的专家页面（Export

Sources）。Hilltop在收到一个查询请求时，首先根据查询的主题计算出一列相关性最强的专家页面，然后根据指向目标页面的非从属专家页面的数量和相关性来对目标页面进行排序。
HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过分依靠PageRank的值去寻找那些权威页面的方法，避免了许多想通过增加许多无效链接来提高网页PageRank值的作弊方法。HillTop算法通过不同等级的评分确保了评价结果对关键词的相关性，通过不同位置的评分确保了主题（行业）的相关性，通过可区分短语数防止了关键词的堆砌。
但是，专家页面的搜索和确定对算法起关键作用，专家页面的质量对算法的准确性起着决定性作用，也就忽略了大多数非专家页面的影响。专家页面在互联网中占的比例非常低（1.79%），无法代表互联网全部网页，所以HillTop存在一定的局限性。同时，不同于PageRank算法，HillTop算法的运算是在线运行的，对系统的响应时间产生极大的压力。
4）HITS
HITS（Hyperlink Inced Topic
Search）算法是Kleinberg在1998年提出的，是基于超链接分析排序算法中另一个最着名的算法之一。该算法按照超链接的方向，将网页分成两种类型的页面：Authority页面和Hub页面。Authority页面又称权威页面，是指与某个查询关键词和组合最相近的页面，Hub页面又称目录页，该页面的内容主要是大量指向Authority页面的链接，它的主要功能就是把这些Authority页面联合在一起。对于Authority页面P，当指向P的Hub页面越多，质量越高，P的Authority值就越大；而对于Hub页面H，当H指向的Authority的页面越多，Authority页面质量越高，H的Hub值就越大。对整个Web集合而言，Authority和Hub是相互依赖、相互促进，相互加强的关系。Authority和Hub之间相互优化的关系，即为HITS算法的基础。
HITS基本思想是：算法根据一个网页的入度（指向此网页的超链接）和出度（从此网页指向别的网页）来衡量网页的重要性。在限定范围之后根据网页的出度和入度建立一个矩阵，通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。
实验数据表明，HITS的排名准确性要比PageRank高，HITS算法的设计符合网络用户评价网络资源质量的普遍标准，因此能够为用户更好的利用网络信息检索工具访问互联网资源带来便利。
但却存在以下缺陷：首先，HITS算法只计算主特征向量，处理不好主题漂移问题；其次，进行窄主题查询时，可能产生主题泛化问题；第三，HITS算法可以说一种实验性质的尝试。它必须在网络信息检索系统进行面向内容的检索操作之后，基于内容检索的结果页面及其直接相连的页面之间的链接关系进行计算。尽管有人尝试通过算法改进和专门设立链接结构计算服务器（Connectivity
Server）等操作，可以实现一定程度的在线实时计算，但其计算代价仍然是不可接受的。
2.3基于智能化排序的第三代搜索引擎
排序算法在搜索引擎中具有特别重要的地位，目前许多搜索引擎都在进一步研究新的排序方法，来提升用户的满意度。但目前第二代搜索引擎有着两个不足之处，在此背景下，基于智能化排序的第三代搜索引擎也就应运而生。
1）相关性问题
相关性是指检索词和页面的相关程度。由于语言复杂，仅仅通过链接分析及网页的表面特征来判断检索词与页面的相关性是片面的。例如：检索“稻瘟病”，有网页是介绍水稻病虫害信息的，但文中没有“稻瘟病”这个词，搜索引擎根本无法检索到。正是以上原因，造成大量的搜索引擎作弊现象无法解决。解决相关性的的方法应该是增加语意理解，分析检索关键词与网页的相关程度，相关性分析越精准，用户的搜索效果就会越好。同时，相关性低的网页可以剔除，有效地防止搜索引擎作弊现象。检索关键词和网页的相关性是在线运行的，会给系统相应时间很大的压力，可以采用分布式体系结构可以提高系统规模和性能。
2）搜索结果的单一化问题
在搜索引擎上，任何人搜索同一个词的结果都是一样。这并不能满足用户的需求。不同的用户对检索的结果要求是不一样的。例如：普通的农民检索“稻瘟病”，只是想得到稻瘟病的相关信息以及防治方法，但农业专家或科技工作者可能会想得到稻瘟病相关的论文。
解决搜索结果单一的方法是提供个性化服务，实现智能搜索。通过Web数据挖掘，建立用户模型（如用户背景、兴趣、行为、风格），提供个性化服务。

G. appstore上按某个关键字搜索那个排序是怎么排的呢

观察一：中国区AppStore的搜索算法按第一个字/词进行搜索排序
分词技术是搜索算法的第一个步骤，指把用户输入的关键词进行拆解，先去掉“的”“呀”之类的无意义词后，然后从关键词后往前进行分词拆解。
比如：疯狂的猴子，分词后成为“疯狂”“猴子”；愤怒的小鸟分词后成为“愤怒”“小鸟”；微博分词后成为2个独立的字。
App Store搜索“疯狂的猴子”和搜索“疯狂”的结果几乎一样。
例如搜索：微博，以前第一个是微博，全称匹配所以排名第一；而现在第一是微信、第二是新浪微博、第三是腾讯微博，我查看了微信的文字介绍，没有出现过“微博”这个词，按出现过很多“微”这个字。
我们再搜索“电影”，手电筒APP却排名考前；感觉APP STORE完全u懂中文了。
观察二：美国区搜索中文，还是采用标题完全匹配的老方法
在美国区，我们分别搜索了“腾讯微博”和“微博腾讯”，按理说都应该出现腾讯微博的APP，但当搜索“微博腾讯”时完全没有结果。说明在美国区的中文搜索算法还保持原样。
APPYING康轶文观察后的感受：
1. 苹果App Store在调整对中文关键词搜索的排序算法，现在只是刚开始；
2. 算法中的中文词库还很稚嫩，因为连“微博”都不认识，这个词库有点旧；
3. 现在苹果开始动关键词搜索算法了，说明ASO（App Store Keyword Optimization苹果商店关键词搜索排名优化）的市场将在1年左右形成。

H. 百度搜索引擎的算法是怎样的

衡量网页质量的维度
网络搜索引擎在衡量网页质量时，会从以下三个维度综合考虑给出一个质量打分。下面会一一介绍这些影响网页质量判断的维度特征：
• 内容质量
• 浏览体验
• 可访问性
一个访问流畅，内容质量高且浏览体验好的网页具有较高的质量；反之，任何一个维度出现问题，都会影响网页的整体质量。下面我们具体介绍下这三个维度。

衡量网页质量的维度——内容质量

网页主体内容是网页的价值所在，是满足用户需求的前提基础。网络搜索引擎评价网页内容质量主要看其主体内容的好坏，以及主体内容是否可以让用户满意。不同类型网页的主体内容不同，网络搜索引擎判断不同网页的内容价值时，需要关注的点也有区别，如：
• 首页：导航链接和推荐内容是否清晰、有效。
• 文章页：能否提供清晰完整的内容，图文并茂更佳。
• 商品页：是否提供了完整真实的商品信息和有效的购买入口。
• 问答页：是否提供了有参考价值的答案。
• 下载页：是否提供下载入口，是否有权限限制，资源是否有效。
• 文档页：是否可供用户阅读，是否有权限限制。
• 搜索结果页：搜索出来的结果是否与标题相关。

网络搜索引擎考量网页内容质量的维度非常多，最为重要的是：成本；内容完整；信息真实有效以及安全。下面我们通过举例来感受一下网络搜索引擎是如何对网页的内容质量进行分类的，请站长对比自己站点的页面，站在搜索引擎和用户的角度为自己打分：
1、内容质量好：
网络搜索引擎认为内容质量好的网页，花费了较多时间和精力编辑，倾注了编者的经验和专业知识；内容清晰、完整且丰富；资源有效且优质；信息真实有效；安全无毒；不含任何作弊行为和意图，对用户有较强的正收益。对这部分网页，网络搜索引擎会提高其展现在用户面前的机率。例如：
• 专业医疗机构发布的内容丰富的医疗专题页面；
• 资深工程师发布的完整解决某个技术问题的专业文章；
• 专业视频网站上，播放清晰流畅的正版电影或影视全集页面；
• 知名B2C网站上，一个完整有效的商品购买页；
• 权威新闻站原创或经过编辑整理的热点新闻报道；
• 经过网友认真编辑，内容丰富的词条；
• 问答网站内，回答的内容可以完美解决提问者的问题。

实例参考：

示例

内容质量

说明

case 3.1.1-1

好

专业医疗网站发布的丰富医疗专题页面

case 3.1.1-2

好

资深工程师发布的完整解决某个技术问题的专业文章

case 3.1.1-3

好

专业视频网站上，播放清晰流畅的正版影视全集页面

case 3.1.1-4

好

京东的一个完整有效的商品购买页

case 3.1.1-5

好

权威新闻站原创的热点新闻的报道

case 3.1.1-6

好

经过网友认真编辑，内容丰富的网络词条

case3.1.1-7

好

网络知道上，完美解决用户问题的问答页

2、内容质量中：
内容质量中等的网页往往能满足用户需求，但未花费较多时间和精力进行制作编辑，不能体现出编者的经验和专业知识；内容完整但并不丰富；资源有效但质量欠佳；信息虽真实有效但属采集得来；安全无毒；不含作弊行为和意图。在互联网中，中等质量网页其实是一个比较大的数量集合，种类面貌也繁杂多样，网络搜索引擎在评价这类网页时往往还要考虑其它非常多因素。在这里，我们仅部分举例来让各位感受一下：
• 论坛类网站里一个普通的帖子；
• 一个普通的问答网页；
• 没有进行任何编辑，直接转载其它网站的新闻；
• 无版权信息的普通电影播放页
• 采集知名小说网站的盗版小说页。

实例参考：

示例

内容质量

说明

case 3.1.2-1

中

网易直接转载了中国新闻网的一篇新闻。

case 3.1.2-2

中

文库上网友上传的“国庆放假安排”新闻

case 3.1.2-3

中

采集起点小说网的盗版小说站

case 3.1.2-4

中

网络贴吧里一个普通的帖子

3、内容质量差：
网络搜索引擎认为主体内容信息量较少，或无有效信息、信息失效过期的都属于内容质量差网页，对用户没有什么实质性的帮助，应该减少其展现的机会。同时，如果一个网站内该类网页的占比过大，也会影响网络搜索引擎对站点的评级，尤其是UGC网站、电商网站、黄页网站要尤其重视对过期、失效网页的管理。例如：
• 已下架的商品页，或已过期的团购页；
• 已过有效期的招聘、交易页面；
• 资源已失效，如视频已删除、软件下载后无法使用等。

4、没有内容质量可言：
没有内容质量可言的网页指那些制作成本很低，粗制滥造；从别处采集来的内容未经最起码的编辑整理即放置线上；挂木马等病毒；含有作弊行为或意图；完全不能满足用户需求，甚至含有欺骗内容的网页。例如：
• 内容空短，有很少量的内容，却不能支撑页面的主要意图；
• 问答页有问无答，或回答完全不能解决问题；
• 站内搜索结果页，但没有给出相关信息

除上述网页外，欺骗用户和搜索引擎的网页在无内容质量可言集合里占很高比例。网络搜索引擎对作弊网页的定义是：不以满足用户需求为目的，通过不正当手段欺骗用户和搜索引擎从而获利的网页。目前互联网上这部分网页还属少数，但作弊网页的价值是负向的，对用户的伤害非常大，对这类网页，搜索引擎持坚决打击态度。

衡量网页质量的维度——浏览体验
不同质量的网页带给用户的浏览体验会有很大差距，一个优质的网页给用户的浏览体验应该是正向的。用户希望看到干净、易阅读的网页，排版混乱、广告过多会影响用户对网页主体内容的获取。在网络搜索引擎网页质量体系中，用户对网页主体内容的获取成本与浏览体验呈反比，即获取成本越高，浏览体验越低。面对内容质量相近的网页，浏览体验佳者更容易获得更高的排位，而对于浏览体验差的网页，网络搜索引擎会视情况降低其展现的机率甚至拒绝收录。
影响用户浏览体验好坏的因素很多，目前网络搜索引擎主要从内容排版、广告影响两方面对网页进行考量：
内容排版：用户进入网页第一眼看到的就是内容排版，排版决定了用户对网页的第一印象，也决定了用户对内容获取的成本。
广告影响：网络搜索引擎理解网站的生存发展需要资金支持，对网页上放置正当广告持支持态度。网页应该以满足用户需求为主旨，最佳状态即“主体内容与广告一起满足用户需求，内容为主，广告为辅”，而不应让广告成为网页主体。

下面我们通过举例来感受一下网络搜索引擎是如何对网页的浏览体验进行分类的，站长可以据此对比检验自己站点的浏览体验如何：
1、浏览体验好：
页面布局合理，用户获取主体内容成本低，一般具有以下特征：
• 排版合理，版式美观，易于阅读和浏览；
• 用户需要的内容占据网页最重要位置；
• 能够通过页面标签或页面布局十分清楚地区分出哪些是广告；
• 广告不抢占主体内容位置，不阻碍用户对主要内容的获取；

实例参考：

示例

浏览体验

说明

case 3.2.1-1

好

招聘、房产等网站首页也有很多广告，但都是招聘相关的，浏览体验是ok的。

case 3.2.1-2

好

文章页，页面布局合理，无广告，排版好，结构合理

case 3.2.1-3

好

游戏首页，排版美观，布局合理，无广告，浏览体验优

2、浏览体验差：
页面布局和广告放置影响了用户对主体内容的获取，提高了用户获取信息的成本，令用户反感。包括但不仅限于以下情况：
• 正文内容不换行或不分段，用户阅读困难；
• 字体和背景颜色相近，内容辨别困难；
• 页面布局不合理，网页首屏看不到任何有价值的主体内容；
• 广告遮挡主体内容；或者在通用分辨率下，首屏都是广告，看不到主体内容；
• 弹窗广告过多；
• 影响阅读的浮动广告过多
• 点击链接时，出现预期之外的弹窗；
• 广告与内容混淆，不易区分；

衡量网页质量的维度——可访问性
用户希望快速地从搜索引擎获取到需要的信息，网络搜索引擎尽可能为用户提供能一次性直接获取所有信息的网页结果。网络搜索引擎认为不能直接获取到主体内容的网页对用户是不友好的，会视情况调整其展现机率。

网络搜索引擎会从正常打开、权限限制、有效性三方面判断网页的可访问性，对于可以正常访问的网页，可以参与正常排序；对于有权限限制的网页，再通过其它维度对其进行观察；对于失效网页，会降权其展现机制甚至从数据库中删除。

1、可正常访问的网页
无权限限制，能直接访问所有主体内容的网页。

2、有权限限制的网页
此类网页分为两种：打开权限和资源获取权限
1）打开权限：指打开网页都需要登录权限，没有权限完全无法看到具体内容，普通用户无法获取或获取成本很高，网络搜索引擎会降低其展现机率。不包括以登录为主要功能的网页。
2）资源获取权限：指获取网页主要内容，如文档、软件、视频等，需要权限或者需要安装插件才能获得完整内容。此时会分三种情况：
• 提供优质、正版内容的网站，由于内容建设成本很高，尽管查看全文或下载时需要权限或安装插件，但属于用户预期之内，网络搜索引擎也不认为权限行为对用户造成伤害，给予与正常可访问页面相同的对待。
• 对于一些非优质、非正版的资源，来自于用户转载甚至机器采集，本身成本较低，内容也不独特，用户获取资源还有权限限制——需要用户注册登录或者付费查看，网络搜索引擎会根据具体情况决定是否调整其展现。
• 还有一些视频、下载资源页，也许自身资源质量并不差，但需要安装非常冷门的插件才能正常访问，比如要求安装“xx大片播放器”，网络搜索引擎会怀疑其有恶意倾向。

实例参考：

示例

可访问性

说明

case 3.2-1

好

CNKI上的一篇论文，收费才能下载，但有版权，浏览体验好

case 3.2-2

好

优酷上一部新电影，需要付费才能观看，浏览体验好。

case 3.2-3

中

内容是来，但是需要登录才能看更多

case 3.2-4

差

入党申请书，本身就是转载的，网上到处都是，但这个页面仍然要求收费才能下载。

3、失效网页
往往指死链和主体资源失效的网页。网络搜索引擎认为这部分网页无法提供有价值信息，如果站点中此类网页过多，也会影响网络搜索引擎对其的收录和评级。建议站长对此类网页进行相应设置，并及时登录网络站长平台，使用死链提交工具告知网络搜索引擎。
失效网页包括但不仅限于：
• 404、403、503等网页；
• 程序代码报错网页；
• 打开后提示内容被删除，或因内容已不存在跳转到首页的网页；
• 被删除内容的论坛帖子，被删除的视频页面（多出现在UGC站点）

具体请参阅《网络搜索引擎网页质量白皮书》，望采纳！

I. java关键字查询算法

import java.io.FileReader;
import java.io.BufferedReader;
import java.io.File;

public class search
{
//查找方法，参数，文件绝对路径，查找关键字
public static boolean search(String filepath,String key)
{
try
{
File f = new File(filepath);
FileReader fr = new FileReader(f);
BufferedReader br = new BufferedReader(fr);
String s = "";
//int i = 1;
while((s = br.readLine()) != null)
{
if(s.indexOf(key) != -1)
{
return true;
}
}
return false;
}
catch(Exception e)
{
e.printStackTrace();
return false;
}
}
public static void main(String args[])
{
System.out.println(search.search("d://t.txt","l2"));
}
}

修改了下，加两个变量，可以指出查找的位置。
import java.io.FileReader;
import java.io.BufferedReader;
import java.io.File;

public class search
{
//查找方法，参数，文件绝对路径，查找关键字
public static String search(String filepath,String key)
{
try
{
File f = new File(filepath);
FileReader fr = new FileReader(f);
BufferedReader br = new BufferedReader(fr);
String s = "";
int i = 1;
int m = 0;
while((s = br.readLine()) != null)
{
if((m = s.indexOf(key)) != -1)
{
return "第"+i+"段,第"+m+"处";
}
i++;
}
return null;
}
catch(Exception e)
{
e.printStackTrace();
return null;
}
}
public static void main(String args[])
{
System.out.println(search.search("d://t.txt","asd"));
}
}

这个，查汉字是没有问题的。
另外，你要全文检索的话，indexOf（）还有个方法，indexOf(int start,String key),指定开始查找的位置跟关键字，你查到一处后，将这个数值加1，做为继续查找的开始位置就可以了。

导航:首页 > 源码编译 > 关键词检索算法

关键词检索算法

与关键词检索算法相关的资料