导航:首页 > 源码编译 > 谷歌搜索引擎算法

谷歌搜索引擎算法

发布时间:2022-08-21 19:41:51

A. 谷歌优化的介绍

谷歌(Google)优化,是针对Google搜索引擎进行的“搜索结果优化”,指根据Google搜索引擎的网站排名规则进行网站的规划,网页的设计,以确保网站从内容、结构、链接等尽量符合Google排名规律,能在Google搜索结果中获得较好的排位,让更多的潜在客户能够很快地找到,从而求得网络营销效果的最大化。google优化也是seo(搜索引擎优化)的主要发展方向,遵守google搜索引擎算法,遵循PAGERANK做好网站整体调整工作。

B. 谷歌企鹅算法是指什么

美国时间2012年4月24号周二,谷歌推出新的算法更新方案,代号“Penguin Update”。Penguin,直译为企鹅,是谷歌继2011年2月24号发布的“熊猫”之后再次推出的新算法调整。其目标直指那个通过过分SEO手段提高排名的网站,意在降权那些充斥着广告的网站。随后,谷歌预计在4月底开始惩罚“过度优化”的网站排名,并鼓励那些使用白帽技术的优化工程师。

进程

美国时间2013年05月22日,谷歌推出升级版算法更新方案“Penguin 2.0”。
美国时间2013年10月04日,谷歌推出升级版算法更新方案“Penguin 2.1”。[1]
美国时间2014年10月17日,谷歌推出升级版算法更新方案“Penguin 3.0“。[2]

目的

"白帽"SEO可以提高网站的可用性,帮助创建丰富的内容,或者使网站访问更快,这些对用户和搜索引擎都是比较友好的,良好的搜索引擎优化也意味着良好的营销思维的创造性的方式,使网站更具吸引力,这可以帮助搜索引擎以及社会媒体。

背景

网站在网络上,它可以转化为更多的人链接或访问一个网站。相反使用黑帽的垃圾网站,它们是在追求更高的排名或者流量,他们所使用的技术,是不利于用户的,目的是寻找捷径或漏洞,以提高他们网站的排名。我们每天都会看到各种黑帽技术。从关键词堆积到试图操控搜索排名的链接计划。我们的许多排名变化的目标是帮助搜索者找到网站,提供出色的用户体验和满足他们的信息需求。我们推出了熊猫算法,在搜索结果中成功的反馈更高品质的网站。在今年早些时候,我们推出了“页面布局算法”,降低没有多少优质内容的网站的排名。在接下来的一些日子,我们将推出一个重要的算法变化针对垃圾网站,这种变化将降低网站的排名,我们的排名算法中一直有针对垃圾内容网站的算法,但是这次有另一个重要的改进。我们努力减少垃圾网站,推荐高质量的内容,创建良好的用户体验和白帽的SEO方法,而不是积极从事Spam技术。

手段

1、对运用黑帽手法的网站,倡导运用白帽手法优化;
2、少量的关键词堆砌,包括站内和站外;
3、不相关的spun内容中随机拔出链接,这个是这次算法针对的一个次要方面;
4、一切言语的网站都会遭到影响;
5、搜索的关键词后果能否是用户所想要的。

影响

对于这次谷歌过度优化惩罚算法,虽然对于外贸行业来说是一个打击,但是我们也要看到好的一面,那就是谷歌算法正在不断完善,互联网正在净化,这也体现了谷歌的一个公平性。只要我们按照谷歌那样做,不使用黑帽手法,关键词堆砌以及不相关的链接随机插入等等,相信你网站的排名提高指日可待。

第一次调整

目标:保护原创
方式:为原创作者提供文章点击率和展示次数。
本质:为用户提供更好的搜索体验。
与网络比较:在国内,SEO伪原创已经让网络变成了“百毒”,各种各样的伪原创泛滥,以至于网络开始关注SEO了,去年,google推出Google Panda,即熊猫算法,旨在反垃圾,保护原创;
2012年3月,网络SEO:会出现网络提示您:SEO是一项非常重要的工作,请参考网络关于SEO的建议。可见,无论是国内还是国外,都在保护原创内容了。

如何应对

避免关键词堆砌

在更新内容的时候,保持 2%-3%的关键词密度就 OK 了,保持自然,不用刻意添加。
关键词密度公式如下:=*100)/关键词密度=(关键词数量*100)/*100)/文章数量

避免 Cloaking(伪装)
Cloaking 是一个黑帽技术,也就是搜索引擎看到的和用户看到的内容不是一样的,这些页面将会被 Google 删除或者整站惩罚。

避免重复内容

在 2011 年 panda 更新的时候对这个还不是很严格,但是对于现在的企鹅算法,重复内容显然不被接受,所以尽量保持文章原创和独立性非常重要。
Tips:
原创文章成本比较高,很多人都会用伪原创的,这里我建议手动,用 TBS 去更改句子、词语及语法,因为手动的质量会更好高,另外我建议找两篇差不多内容的文章自行合并调整一下,这样原创度更高。还可以为文章添加图片或者视频,这样会让 Google 认为更加有质量。

避免过多的垃圾链接

外链数量不需要太多,只要合理的每天做一点就好了,必须要记住的一点是,质量比数量重要。

C. google算法提问

《最新google搜索引擎技术算法研究和探讨(详细图文论文)》
http://wangjifeixing.blog.163.com/blog/static/5023822007817101330646

最近几年,许多研究者发现,WWW上超链结构是个非常丰富和重要的资源,如果能够充分利用的话,可以极大的提高检索结果的质量。基于这种超链分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法[1] ,同年J. Kleinberg提出了HITS算法[5],其它一些学者也相继提出了另外的链接分析算法,如SALSA,PHITS,Bayesian等算法。这些算法有的已经在实际的系统中实现和使用,并且取得了良好的效果。

文章的第2部分按照时间顺序详细剖析了各种链接分析算法,对不同的算法进行了比较。第3部分对这些算法做了评价和总结,指出了存在的问题和改进方向。

2.WEB超链分析算法

2.1 Google和PageRank算法

搜索引擎Google最初是斯坦福大学的博士研究生Sergey Brin和Lawrence Page实现的一个原型系统[2],现在已经发展成为WWW上最好的搜索引擎之一。Google的体系结构类似于传统的搜索引擎,它与传统的搜索引擎最大的不同处在于对网页进行了基于权威值的排序处理,使最重要的网页出现在结果的最前面。Google通过PageRank元算法计算出网页的PageRank值,从而决定网页在结果集中的出现位置,PageRank值越高的网页,在结果中出现的位置越前。

2.1.1 PageRank算法

PageRank算法基于下面2个前提:

前提1:一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页。这种重要的网页称为权威(Authoritive)网页。

前提2:假定用户一开始随机的访问网页集合中的一个网页,以后跟随网页的向外链接向前浏览网页,不回退浏览,浏览下一个网页的概率就是被浏览网页的PageRank值。

《最新google搜索引擎技术算法研究和探讨(详细图文论文)》
http://wangjifeixing.blog.163.com/blog/static/5023822007817101330646

D. 百度seo和google seo算法比较

网络seo和google seo算法比较

1、自家产品优势
输入任意一个热门关键词,网络首页基本都会出现网络自家产品的排名,即使这些自家产品没有做过任何SEO,它们依然能够坚挺的排在首页。SEO人如果能学会利用网络自家产品借力使力,可以达到事半功倍的效果。
而谷歌对于自家产品一视同仁,如果违反谷歌站长指南,即使是自家产品,谷歌一样格杀勿论,谷歌日本、谷歌浏览器等被降权就是很好的例子们。
所以,要做好谷歌SEO,必须严格遵守谷歌站长指南,没有捷径;要做好网络SEO,如果要短期获得效果,尝试借助网络自身平台的优势将会是一个很不错的想法。

2、搜索结果首页用户行为
在谷歌,用户找到他们想要的信息通常只需要网络用户一半的时间(谷哥是30秒,而度娘是55秒),大部分用户只看前三个结果;
反之,在网络,用户通常会把搜索结果上的内容从头扫到尾,同时我们注意在网络的那张热力图上,红点表示点击,大量出现在网络搜索框和底部相关搜索上,而非搜索结果的网页,这对于网络来说可不算是一个给力的数据,那为啥会这样子?很大程度原因要和搜索质量有关,网络的搜索结果相对是比较混沌的,很多时候用户根本分不清那些是付费广告,那些是自然结果,而通常这些付费广告的内容又不能很好满足用户的需求,所以用户可能会选择再次提炼搜索字词,或者干脆拉到底部看相关推荐去再次寻找他们真正想要的内容。当然,可也是为什么网络用户平均要花费55秒,几乎是谷歌的两倍的搜索时间去发现他们想要的信息。

3、页面收录
从页面收录的时间来看,谷歌绝对是比网络快很多,而且通常只要在外围放置少量的外链入口谷歌就能顺着链接爬到你的网站并且建立索引,而网络则不同,对于新站不会立刻收录,甚至相当长的时间都不收录。新网站通过网络的考核期后,网络才开始收录你的网站,这个考核期对于很多站长来说是比较难熬的,考核期的时间有时候确实让人琢磨不透,有的网站甚至一个多月两个月才开始收录,也有的网站两三天就收录了,如果说是一些高质量的网站收录快,质量较差的网站收录慢也能理解,可是据了解一些非法的网站、质量很差的网站也有很多很快就被收录了,这就让人有些琢磨不透了。
所以,做网络SEO,特别是新站,不要随便去保证别人二、三个月见效之类的话,很可能两个月网络都没有把你的网站放出来,呵呵。所以一般我们和客户去谈这样类型的SEO优化,都是至少要6个月的优化期,少于这个时间一般是不做的,除非他不要保证绩效。

4、对待新站的策略
对待新站网络和谷歌都有各自的审核标准,谷歌有谷歌沙盒,网络也有自己的审核期,从持续的时间来看,基本上也差不过,都为3-6个月的时间。不同的是,过了审核期后,谷歌评判关键词排名的标准更多是从这个页面本身的质量度和外部链接的推荐情况来排序,不会因为你的站点年轻而影响某个具体页面的排名,而网络依旧会考虑整站的权重,所以新站很难从网络获取热词、难词的排名,更多的情况是通过大网站转载之后,被大网站抢去流量和排名,而对于谷歌来说,新站获取热词排名是极有可能的事情。

5、网站被K后的恢复机制
网站一定被谷歌K了之后,不用过于担心,按照谷歌站长指南调整好自己的网站,再通过谷歌管理员工具和谷歌沟通,谷歌会重新观察网站是否改正之前的作弊手段,一旦改正之后,谷歌还是会恢复的。但网络,如果网站被K,那么恢复的几率就很小了,虽然网络也有申诉通道,但是个人认为这些只是形式上的摆设,大部分得到的回复都是答非所问,当然网络也可以怪大部分站长问的问题很不明确,属于无效提问。但事实上,即使是有效提问,处理的速度和回复效率仍然是很低下的,如果要举例,足可以写一篇博文,这里暂不详述。当然这个也是和网络自身人员的素质有关,没有专人专项去管这件事情必然导致目前这种尴尬的局面。所以对于网络SEO,一定要严格遵守网络站长指南,虽然可以说有些网站作弊也能排到网络首页,这种情况我无法解释,就像为什么有些人无所作为,在公司里混混也能拿高工资,或许看到的只是表面现象。

6、robots协议遵守情况
谷歌完全遵守robots协议,一旦robots设置屏蔽谷歌蜘蛛之后,谷歌就不会对网站进行抓取和索引,但是网络似乎并不严格遵守,当给网站设置robots协议之后,网络蜘蛛有时会绕过/无视robots文件,仍然会继续爬行空间文件,当然这里只是说它们在爬行,没有放出来而已,但,个人猜测,网站数据都完完整整的被网络记录在他们的服务器内,只是没有生成摘要在搜索结果页显示而已。网络并不严格遵守robots协议。

7、外部链接评判标准
谷歌和网络对于外链的评判标准其实很不同,对于谷歌而言,外链更像是外部推荐,不仅仅局限于那个写在a标签里面可以直接点击的链接,来自social端的推荐因素也能够影响排名。而对于网络来说,链接就是链接,和social没有直接关系,同时网络也会认可那些没有写在a标签里的链接(这点谷歌是不接受的),这个也是取决于互联网这个大环境,很多人不愿意给可以点击的外链,但是这些外链又确实是真心推荐的,到底算还是不算呢?网络站长平台说过,评判链接的唯一标准就是这条链接是否是用户真心推荐。所以,不管链接形式如何,只要这条链接推荐的东西有价值,就被网络算做一条外部链接,并且可以传递权重。
另外,外链重要程度网络和谷歌也各不相同。谷歌认为外链(外部的真实推荐)是网站的一个非常重要的信号,甚至要比一些站内SEO优化,如关键词密度,H标签、内链、URL结构都重要,因为谷歌完全有能力去索引和识别一个网站,而用户推荐的数据是谷歌所看中的。
而网络则不同,外部链接重要性占比没有谷歌那么大,一方面中国互联网的推荐机制还不够成熟,外链的可信度其实并不怎么高;另一方面,网络自身对于网站的索引和识别能力并没有谷歌那么强,所以对于网络SEO,做好站内优化、特别是关键词部署、网站结构梳理包括导航、内链机制都是非常重要的。

8、内容更新
网络似乎比谷歌更重视内容的更新,一个网站或者页面有持续更新的内容对于网络来说是很友好的。也可以搜索一些冷门行业的热门关键词看看搜索结果前十的网站异同,你会发现排在谷歌前十的网站的内容几乎不怎么更新,而如果要排到网络首页的话,网站则必须是有海量内容更新机制,网络给予新鲜内容的权重度要远高于谷歌。

9、原创识别机制
中国互联网转载和抄袭是司空见惯的事情,这个时候对搜索引擎来说,识别原创的能力就显得尤为重要,网络这方面做得非常不好。

10、热门事件效应速度
谷歌对于热门信息的处理相对较快,往往能够很准确的找到新闻源的位置,而网络更多的是依靠大网站来获取热门信息,一旦小网站上有热点内容而又没有被大网站即时发现的话,网络是很难在短期内挖掘到的,所以这就是为什么网络要和新浪微博达成战略合作关系来共享数据,也是看中微博的一个短频快的特性,包括网络也会开放API接口与各大网站进行数据共享,就是为了弥补网络蜘蛛抓取的局限性和对热点把控能力弱这样一个无法在短期弥补的特性。

E. 百度和Google的搜索算法,技术有何差异

网络是中国的,谷歌是美国的。各有侧重不能不可比较。技术都是一样的侧重不同罢了。网络侧重的是中国民俗,谷歌是侧重美国民俗。因为国情国法不同所以无可能比较量级。【搜索引擎技术是硬件加软件。硬件是实际使用的机器,软件是程序编程】搜索产品搜索引擎产品其实包括很多种类,并不限于我们最熟悉的全网搜索引擎。简单分类罗列一下:*全网搜索:包括市场份额最高的几大搜索引擎巨头,Google,Yahoo,Bing。*中文搜索:在中文搜索市场中,网络一家独大,其它几家如搜狗、搜搜、有道,市场份额相对还比较小。*垂直搜索:在各自的垂直领域成为搜索入口的,购物的淘宝,美食的大众点评,旅游的去哪儿,等等。*问答搜索:专注于为问句式提供有效的答案,比如Ask.com;其它的如问答社区像Quora和国内的知乎,应该也会往这方面发展。*知识搜索:典型代表就是WolframAlpha,区别于提供搜索结果列表,它会针对查询提供更详细的整合信息。*云搜索平台:为其它产品和应用提供搜索服务托管平台(SaaS或是PaaS),Amazon刚刚推出它的CloudSearch,IndexTank在被Linkedin收购之前也是做这项服务。*其它:比始DuckDuckGo,主打隐私保护,也有部分用户买帐。各种搜索产品在各自领域都需要解决特定的技术和业务问题,所以也可以建立相对通用搜索的优势,来得到自己的市场和用户。搜索技术搜索引擎所涉及和涵盖的技术范围非常广,涉及到了系统架构和算法设计等许多方面。可以说由于搜索引擎的出现,把互联网产品的技术水平提高到了一个新的高度;搜索引擎无论是在数据和系统规模,还是算法技术的研究应用深度上,都远超之前的简单互联网产品。列举一些搜索引擎所涉及到的技术点:*爬虫(Crawling)*索引结构(InvertedIndex)*检索模型(VSM&TF-IDF)*搜索排序(RelevanceRanking&Evaluation)*链接分析(LinkAnalysis)*分类(Document&QueryClassification)*自然语言处理(NLP:Tokenization,Lemmatization,POSTagging,NER,etc.)*分布式系统(DistributedProcessing&Storage)*等等虽然搜索引擎涉及的技术方方面面,但归结起来最关键的几点在于:*系统:大规模分布式系统,支撑大规模的数据处理容量和在线查询负载*数据:数据处理和挖掘能力*算法:搜索相关性排序,查询分析,分类,等等系统搜索引擎系统是一个由许多模块组成的复杂系统。核心模块通常包括:爬虫,索引,检索,排序。除了必需的核心模块之外,通常还需要一些支持辅助模块,常见的有链接分析,去重,反垃圾,查询分析,等等。[附图:搜索系统架构概念模型]*爬虫从互联网爬取原始网页数据,存储于文档服务器。*文档服务器存储原始网页数据,通宵是分布式Key-Value数据库,能根据URL/UID快速获取网页内容。*索引读取原始网页数据,解析网页,抽取有效字段,生成索引数据。索引数据的生成方式通常是增量的,分块/分片的,并会进行索引合并、优化和删除。生成的索引数据通常包括:字典数据,倒排表,正排表,文档属性等。生成的索引存储于索引服务器。*索引服务器存储索引数据,主要是倒排表。通常是分块、分片存储,并支持增量更新和删除。数据内容量非常大时,还根据类别、主题、时间、网页质量划分数据分区和分布,更好地服务在线查询。*检索读取倒排表索引,响应前端查询请求,返回相关文档列表数据。*排序对检索器返回的文档列表进行排序,基于文档和查询的相关性、文档的链接权重等属性。*链接分析收集各网页的链接数据和锚文本(AnchorText),以此计算各网页链接评分,最终会作为网页属性参与返回结果排序。*去重提取各网页的相关特征属性,计算相似网页组,提供离线索引和在线查询的去重服务。*反垃圾收集各网页和网站历史信息,提取垃圾网页特征,从而对在线索引中的网页进行判定,去除垃圾网页。*查询分析分析用户查询,生成结构化查询请求,指派到相应的类别、主题数据服务器进行查询。*页面描述/摘要为检索和排序完成的网页列表提供相应的描述和摘要。*前端接受用户请求,分发至相应服务器,返回查询结果[附图:爬虫系统架构]爬虫系统也是由多个模块构成:*URLScheler存储和高度待爬取的网页地址。*Downloader根据指定的网页列表爬取网页内容,存储至文档服务器。*Processer对网页内容进行简单处理,提取一些原始属性,为爬取的后续操作服务。*TrafficController爬取流量控制,防止对目标网站在短时间内造成过大负载[附图:搜索系统架构实例:Google这是Google早期的一张系统架构图,可以看出Google系统的各模块基本和前面概念模型一致。所以一个完整的全网搜索系统的大致系统架构是类似的,区别和竞争力体现在细节实现和优化上。数据除了搜索引擎系统提供了系统支撑外,搜索结果质量很大程度上依赖于源数据的数量和质量,以及数据处理的能力。全网数据的主要来源通常是从互联网上进行自动爬取,从一些高质量的种子站点开始,并沿网页链接不断,收集巨量的网页数据;这通常能达到数据在数量的要求,但也不可避免混入了大量的低质量网页。除了自动爬取来的数据外,搜索引擎的数据来源还可以来自人工收集、合作伙伴提供、第三方数据源和API、以及购买;这些来源通常会有更好的质量保证,但在数量规模和覆盖率上会相对少一些,可以和爬取的数据形成有效的互补。收集到足量的原始数据后,需要进行各种数据处理操作,把原始数据转换成在线检索需要的数据。这个过程通常包括:网页分析,数据抽取,文本处理和分词,索引及合并;最终生成的数据会包括:词典,倒排表,正排表,文档权重和各种属性。最终生成的数据要布署上相应的在线检索服务器上,通常会进行数据分区和分片布署,数据内容更丰富时还可能根据内容分类和主题进行分别布署,比如新闻时效类的网页可能就会独立布署,针对性地响应时效类的查询[附图:索引数据:字典、倒排表、正排表]这张图来源于Google早期的索引数据结构,包括词典、倒排表、正排表。算法有了相当数量的高质量数据之后,搜索结果的质量改进就取决于搜索算法的准确性上。现在的搜索引擎通常通过向量空间模型(VSM=VectorSpaceModel)来计算查询和各文档之间的文本相似性;即把查询或文档抽象成一个词向量,然后再计算向量在向量空间中的夹角,可以用余弦公式得出,作为文本相似度的度量值。在基本的向量空间模型基础上通常会进一步加入词的权重值进行改进,通过经典的TF-IDF公式得出,即词频(TF)乘上逆文档频率(IDF);其中TF=TermFrequency,即该词在所在文档中的出现次数;IDF=InvertDocumentFrequency,即包含该词的文档数除以总文档数,再取反,通常还会取对数来降维,这个值值越大表示这个词越能代表文档特征。除了通过向量空间模型得出的文本匹配评分外,每个文档还会有自己本身的质量评分,通常由网页链接数据计算得出,代表了该网页本身的流行度权重。最终的评分会以文本匹配的查询时动态评分和文档静态评分为基础计算得出;搜索引擎的评分计算都会考虑很多因素,但这两项通常是评分计算的基础。有了确定的排序算法后,另一个重要的任务就是评估搜索结果的质量。由于搜索结果的好与坏是一个比较主观的过程,所以进行定量的评估并不容易。常见的做法是通过事先选定一批查询,通过人工评估或是预先设定标准值的方式,逐个评估每个设定查询搜索结果,最终得到一个统计结果,作为搜索算法的评估度量。另一类做法是直接通过线上的用户点击数据来统计评估搜索结果质量,或是通过A/B测试来比较两种排序算法的点击效果来衡量。合理而有效的评估方法,是搜索算法可以不断改进和比较的前提。查询分析是另一个对搜索结果影响很大的方面,主要任务是把用户的查询文本转换成内部的结构化的搜索请求。涉及的处理可能包括基本的分词处理,专有名词的识别和提取,或是查询模式的识别,或是查询分类的识别。这些处理的准确性将能极大地改进搜索请求的方式,进一步影响搜索结果的相关性和质量。开源方案近年来在搜索公司内部搜索系统和技术的改进和发展的同时,一批开源的搜索系统和解决方案也逐渐发展和成熟起来。当然开源系统在功能全面性、复杂性和规模上都不能与专业的搜索引擎系统相比,但对于中小企业的搜索应用来说应该已经能很好地满足需求,而且也成功应用到了一些大规模的产品系统中(比如Twitter的搜索就使用和改进了Lucene)。现在比较常见的开源搜索解决方案有:*LuceneLucene自然是现在最流行,使用度最高的搜索开源方案。它用Java开发,以索引和检索库的方式提供,可以很容易地嵌入需要的应用中。*Solr&SolrCloudSolr是Lucene的子项目,同属Apache软件基金会项目;它是基于Lucene之上实的一个完整的搜索服务应用,提供了大量的搜索定制功能,可以满足大部分的搜索产品需求。SolrCloud是Solr为了加强其分布式服务能力而开发的功能,目前还在开发阶段,将在Solr4.0发布。*Zoie&Sensei(Linkedin)Zoie是Linkedin公司在Lucene基础上实现的准实时索引库,通过加入额外的内存索引,来达到准实时索引的效果。Sensei是Linkedin公司在Zoie基础上实现的分布式搜索服务,通过索引分区来实现分布式搜索服务。*ElasticSearchElasticSearch也是刚推出不久的一个基于Lucene实现的分布式搜索服务,据说在分布式支持和易用性上都有不错的表现。因为还比较年轻,真实的应用应该还不多,需要观察。因为也是基于Lucene的分布式开源搜索框架,基本上会与SolrCloud和Sensei形成正面竞争关系。*其它开源产品除了Lucene家族以外,还有一些其它的开源产品,比如Sphinx和Xapian,也有不少的应用;但近年来的更新频率和社区活跃度都不太能和Lucene系的产品相比。*托管平台除了开源产品外,现在还出现了一些基于云计算和云服务的搜索服务,比如Amazon新近推了的CloudSearch,还有更早一些的IndexTank(已被Linkedin收购)。这类服务无需自己布置搜索系统,直接使用在线服务,按需付费,所以也将是开源产品的替代方案和竞争对手。附几张上面提到的开源系统的概念模型和架构图:[附图:Lucene概念模型][附图:Lucene工作流程][附图:Sensei系统架构][附图:SolrCloud系统架构]现状与未来:传统的搜索引擎经过了十几年的发展,目前在技术和产品上都已走向逐渐稳定和成熟,通用搜索的市场也基本进入饱和,不像早些年一直呈现高增长率。同时,在各个垂直领域,也出现了很多和产品结合的很好的垂直搜索产品,比如淘宝的购物搜索,大众点评的美食搜索,去哪儿和酷讯的旅游搜索等,也都在各自领域占据了相当大的市场,成为除了通用搜索引擎之外的重要的用户入口。在开源领域,各种开源产品和解决方案也逐渐发展成熟,通用搜索技术不再为大公司所专有,中小企业能够以较低的成本实现自己的搜索应用。现在搜索引擎产品之间的竞争的在数据、应用方式和产品形态上,在系统架构和基本算法上区分并不大。搜索引擎在未来发展上,一是搜索将不仅仅以独立产品的形式出现,的会作为搜索功能整合到的产品和应用中。在产品形态上,基于传统的搜索引擎,会演化出像推荐引擎,知识引擎,决策引擎等形式的产品,更好地满足和服务用户需求。而搜索引擎所涉及和发展起来的各种技术,会更广泛地应用到各种基它产品上,比如自然语言处理,推荐和广告,数据挖掘,等等。总之,搜索引擎对互联网技术和产品带来的影响是巨大的,未来也仍将有很大的发展和应用空间。

F. 深圳SEO历史上谷歌Google推出了哪些算法

马加比更新(Maccabees Update)

上线时间:2017年12月12号

受影响网站:刻意为各种关键词组合建立大量着陆页,比如“地名A+服务a“、”地名A+服务b”、“地名B+服务a”等等,为了覆盖这些关键词,制造大量页面,质量通常不会高。

马加比这个名字是 SERoundtable.com的Barry Schwartz起的,不是Google官方给的名字,因为Google貌似不会再公布算法更新了,更不要说起名字了。Barry Schwartz起这个名字是因为这次更新发生在犹太人的光明节期间,光明节是纪念马加比家族的。Google在某种程度上确认了这次更新,不过只是说,在这段时间上线了几个小更新,是提高相关性日常工作的一部分。

移动优先索引(Mobile First Index)

上线时间:2017年10月中旬

受影响网站:移动优先索引指的是Google优先索引网站移动版本,并作为排名依据。以前都是索引PC版本并计算排名的。移动优先索引Google在2016年底就开始宣传了,但一直没有推出,估计影响面比较大。2017年10月中旬左右,Google透露一小部分网站已经开始转为移动优先索引。

猫头鹰更新(Project Owl)

公布时间:2017年4月25号

受影响网站:虚假新闻内容,如编造的假新闻,极度偏见、煽动仇恨,谣言等。参见以前写的关于猫头鹰算法的帖子。

弗雷德更新(Fred Update)

上线时间:2017年3月8号

受影响网站:广告过多的低质量内容站,这类网站之所以存在,就是为了放 Adsense之类的广告,并没有提供给用户更多价值。

为什么叫Fred更新呢?因为SEO们问Google员工Gary Illyes这次更新叫啥名字时,Gary Illyes随便给了个名字,貌似是他养的鱼的名字,为什么想起这条鱼的名字呢?因为Gary Illyes刚给这条鱼拍了张照片,就是右边这张。Gary Illyes说,以后除非另行说明,不然所有更新都叫Fred了。就这么任性,就这么草率。

移动页面干扰插页惩罚算法(Intrusive Interstitial Penalty)

上线时间:2017年1月10号

受影响网站:这个惩罚算法针对移动页面:挡住主题内容的弹窗,干扰用户访问的大幅插页式广告,用户需要关掉插页才能看到页面实际内容,有时候需要等5-10秒才能关掉。不过据统计,被惩罚的网站并不多。

企鹅更新4.0(Penguin 4.0)

上线时间:2016年9月23号,10月12号左右完成

受影响网站:和以前的企鹅更新一样,受影响的是有低质量外链的网站。Penguin 4.0是最后一次企鹅系列算法更新了,因为企鹅算法以后成为核心排名算法的一部分,实时更新。

另外,以前的企鹅更新是惩罚网站,4.0是不计算低质量外链,降低负面SEO的可能性。

移动友好算法2(Mobile Friendly Algorithm 2)

上线时间:2016年4月21号

受影响网站:2015年4月21号第一次Google移动友好算法的一次更新,使更多移动友好页面能被用户看到。

APP安装插页广告惩罚(APP Install Interstitial Penalty)

上线时间:2015年11月2号

受影响网站:页面会弹出大幅、遮挡主体内容的插页,要求用户下载APP,这种页面被认为不移动友好,在移动搜索中会被降低排名。页面可以建议用户下载APP,但广告不要大幅甚至全屏,做成顶部banner之类的是没问题的。

RankBrain

上线时间:消息公布时间是2015年10月26号,通过 Bloomberg的一篇文章。算法上线时间应该是数月前,2015年上半年。

RankBrain严格说来不算是排名算法,而是以人工智能为基础的深入理解用户查询词的系统,尤其是长尾的、不常出现的查询。2015年刚上线时,15%查询词经过RankBrain处理,可能是效果很好,2016年开始所有查询词都经过RankBrain处理。RankBrain的例子参考以前的帖子。

被黑网站删除算法(Hacked Spam)

上线时间:2015年10月

受影响网站:被黑的网站,包括病毒、引导流量到色情、侵权产品、非法药物网站等。这些页面会从搜索结果这直接删除,所以有时候搜索结果页面可能只有8、9个结果。以前通常是在搜索结果中标注这个页面可能被黑了,现在直接删除了。5%左右的查询受到影响。检查自己网站是否被黑还是挺重要的。

熊猫算法4.2(Panda Update 4.2)

上线时间:2015年7月18号

自2011年推出以来,熊猫算法经历了近30次更新,Panda 4.2是最后一次,几个月才完成。这之后,熊猫算法成为Google核心算法的一部分,虽然还会有更新,但不再单独给名字了。

质量更新(Quality Update)

上线时间:2015年5月1号左右

受影响网站:内容质量低的页面,但不是熊猫算法。Google虽然确认了这次更新,但表示,这只是Google经常做的算法更新之一,调整了评估内容质量的方法,没什么特殊的。

移动友好算法(Mobile Friendly Algorithm)

上线时间:2015年4月21号

受影响网站:在移动搜索中给予移动友好的网站排名提升。也被称为Mobilegeddon – 天劫算法。

所谓移动友好,其实没那么复杂,用户能正常在手机访问页面就行了,所以字体不要太小,字距行距不要太小,用户不需要左右拉屏幕,手指头点击链接时不会点错地方,速度够快等等。自己用手机看看自己网站就知道是否移动友好了。也可以参考一下本博客移动SEO的帖子。

移动友好算法是针对页面级别的,需要页面重新抓取、索引后才能判断是否移动友好。所以算法本身4月底上线,但受影响的页面可能不是马上见到效果。

Google曾经预报说移动友好算法比熊猫和企鹅更新的影响还要大,但由于Google很早就提醒SEO们移动友好的重要性,很多网站已经做了移动优化,所以这次更新没有预计的那么有震撼性。

HTTPS更新(HTTPS Update)

上线时间:2014年8月7号

受影响网站:使用了https的页面排名会稍微提升一点。Google声明这只是个很小的排名因素,但事实上对网站采用https起到了很大推动作用。

鸽子更新(Pigeon Update)

上线时间:2014年7月24号

受影响网站:鸽子更新是本地搜索算法的一次更新,改进了距离和定位排名算法参数。这个名字不是Google起的,是SearchEngineLand给起的。之所以取“鸽子”这个名字是因为,鸽子会回家,有本地意识。

蜂鸟更新(Hummingbird Algorithm)

上线时间:2013年8月

受影响网站:蜂鸟更新是一次排名算法的重写,改进对查询词真实意图的理解,更重要的是未来的扩展性。虽然代码是完全重写的,但排名因素及参数大概变化不多,所以上线后基本上SEO行业没有人注意到。

发薪日贷款算法(Payday Loan Algorithm)

上线时间:2013年6月13号

受影响网站:针对垃圾和黑帽手法盛行的一些行业的查询词重点打击,如payday loan(发薪日贷款,一种小额、短期、利息高的贷款,一般下个发薪日就还上)、色情等。这些行业常用的作弊手法也经常是非法的。

2014年5月16号,发薪日贷款算法2.0上线,2014年6月12号,算法3.0上线。

完全匹配域名惩罚(EMD Update)

上线时间:2012年9月29号

受影响网站:低质量的完全匹配域名(exact match domain)网站,也就是域名与目标关键词完全一样。URL中包含关键词对排名有一些帮助,所以不少SEO用目标关键词注册域名。这种域名确实有过好处,但现在内容不行的话可能被惩罚。

DMCA惩罚算法(DMCA Takedown Penalty)

上线时间:2012年8月13号

受影响网站:DMCA,Digital Millennium Copyright Act,数字千年版权法案,根据这个法案,版权作品被侵权,版权所有人可以向服务商要求删除侵权内容,服务商可以是主机商,域名注册商,ISP,以及搜索引擎。DMCA算法就是对收到很多侵权投诉删除要求的网站,Google给予排名惩罚。

DMCA Takedown Penalty又被称为pirate update,海盗算法。

2014年10月21号,DMCA惩罚算法上线2.0版本,很多BT种子网站、视频网站被大幅惩罚。

企鹅更新(Penguin Update)

上线时间:2012年4月24号

受影响网站:Google的官方帖子声明打击的是违反Google质量指南的垃圾网站,后续排名变化的分析表明主要受惩罚的是为获得排名制造大量垃圾外链、低质量外链的网站。企鹅算法1.0影响了3.1%英文查询,3%左右的中文、德文等查询。

企鹅算法和熊猫算法是两个最着名的Google惩罚性算法,受到影响的网站范围大,据调查,60%的SEO反映自己网站被Penguin算法惩罚了。

企鹅对今天的SEO方法,尤其是外链建设方法,产生了很大影响。不仅制造外链要非常小心,大部分以前常用的方法现在都被Google明确警告可能会被惩罚,现在SEO们更头疼的是怎样删除低质量外链和以前发的垃圾外链,这比制造外链还困难。

页面布局惩罚算法(Page Layout Algorithm)

上线时间:2012年1月

受影响网站:第一屏显示过多广告的页面被降低排名。因此也常被称为Ads Above The Fold(第一屏广告)算法。

1%的查询词受影响。被惩罚的网站修改页面布局后,Google重新抓取、索引,如果页面用户体验已经改善,就会自动恢复。

2012年10月9号,Page Layout 2.0,2014年2月6号,Page Layout 3.0分别上线。

新鲜度更新(Freshness Update)

上线时间:2011年11月3号

受影响网站:Google官方帖子明确表示:更新鲜的内容会被更多展示在搜索结果中,尤其是最近的事件或热门话题、定期举办或发生的事件(如奥运会之类)、经常会更新的信息(如最新产品)。影响了35%的查询。

当然,这只适用于更需要新鲜信息的查询,有的查询并没有太大实效性,如菜谱,就不必太担心。

熊猫更新(Panda Update)

上线时间:2011年2月24号

受影响网站:内容低质量的页面排名被降低,如转载、抄袭的内容,大量用户发的垃圾留言、主体内容太少、关键词堆积等等。

熊猫更新打击面大,影响大致12的查询结果,对现今SEO方法产生了重要影响。Panda算法最初是后台计算,集中上线,从2011年上线到2015年融入到核心算法中,经历了近30次更新。

熊猫算法更新最初被SearchEngineLand命名为Farmers Update,内容农场更新,后来Google自己公布了算法代码是Panda,和咱们的熊猫没关系,是Google内部开发此算法的主要工程师之一的名字叫Panda。

采集惩罚算法(Scraper Algorithm)

上线时间:2011年1月28号

受影响网站:Matt Cutts的博客帖子公布的这个算法,采集、抄袭的内容页面被惩罚,奖励原出处。2%查询受影响。

负面评价处理(Negative Review)

上线时间:2010年12月1号

受影响网站:这个算法是由于 Google的人读到纽约时报的一篇报道,一位顾客在某商家的体验很差,所以上网写了负面评论,但负面评论却给商家带来更多链接,链接又导致商家网站排名上升,带来更多生意。Google很快采取措施,检测这类负面评论,降低相应商家排名。

咖啡因更新(Caffeine)

上线时间:2010年6月1号

受影响网站:咖啡因更新是一次索引系统代码的重写,新系统比旧系统50%的内容更新,索引数量也更大,更有扩展性,速度更快。原来的索引系统是分层的,有的内容(重要内容)抓取索引更快,有的内容就得等比较长时间。咖啡因系统把网络分成小区块,持续更新索引库,发现新页面,或老页面上的新内容,直接进入索引库。

Mayday Update

上线时间:2010年4月28号-5月3号

受影响网站:根据Matt Cutts的视频说明,Mayday更新主要针对长尾查询词,算法会寻找哪些网站的页面质量更符合要求。当然这种说明说了也是和没说差不多。SEO们的观察是,受影响的主要是大型网站上离首页点击距离比较远、没什么外链、内容没有什么附加价值的页面 — 很多电商网站的产品页面就是这样的,内容是供应商给的,也不大可能有外链。

Mayday指的是发生在5月份,不是求救的那个Mayday。

页面速度因素(Page Speed Ranking Factor)

上线时间:2010年4月

受影响网站:顾名思义,打开速度快的页面排名会给予提升,虽然幅度不大。速度的测量包括蜘蛛抓取时页面的反应速度和工具条记录的用户打开页面时间。

2013年6月,Matt Cutts暗示,速度特别慢的页面可能会被惩罚,不过也不用特别担心,除非页面速度慢到一定程度。

Vince/品牌更新(Vince/Brand Update)

上线时间:2009年2月1号

受影响网站:大品牌网站页面在很多查询结果中(都是非长尾的大词)排名显着提高,所以最初被称为品牌更新。以前帖子写过Vince/品牌更新。

Matt Cutts后来解释,这次更新其实其实只是很小的变化,负责的Google工程师名字叫Vince,所以Google内部代码名称是Vince。这个变化并不是刻意针对大品牌,而是提升信任度在排名中的作用,而信任度、质量、链接这些方面,大品牌更有优势,所以表现出来的效果好像是大品牌页面被提升。

Dewey Update

上线时间:2008年3月

受影响网站:不明,SEO行业观察到排名剧烈变动,但没有找到明显规律。Dewey这个名字的来源是因为Matt Cutts在 webmasterworld论坛里征求这次算法更新的反馈意见,站长需要在反馈中标明Dewey这个词,可能是Google内部的识别代码。

大爸爸(Big Daddy)

上线时间:2005年12月-2006年3月

大爸爸是一次Google算法基础架构的重写,解决了网址规范化、301/302转向等技术问题。大爸爸是一个数据中心一个数据中心更新的,不是同时上线的。

大爸爸这名字怎么来的?据Matt Cutts帖子说,2005年12月的Pubcon会议上,Matt Cutts征求大家对这次更新的反馈,Matt Cutts知道更新已经在一个数据中心上线了,所以问大家有什么好名字来指这个数据中心,一位站长说,叫BigDaddy吧,他孩子就这么叫他的,Matt Cutts觉得挺好,就叫这个名字了。

我当年开始写SEO每天一贴就是大爸爸完成更新那段时间,第3篇帖子就是介绍大爸爸更新情况。Robin同志给我的第一个留言就在那篇帖子上,沙发,后来才有了点石,和很多中国SEO行业的故事。

Jagger Update

上线时间:2005年9-11月

受影响网站:Jagger分3个阶段上线,所以有Jagger1, Jagger2, Jagger3的名字。Jagger更新主要打击低质量链接,如交换链接、链接农场、买卖链接等。

早期的Google算法更新基本上都是webmasterworld命名的,Jagger也是webmasterworld创始人Brett Tabke起的名字,下面提到的更新名称大多是他们命名的。但貌似Jagger是最后一个,后来的名字大多是Google自己公布的了。

Bourbon Update

上线时间:2005年5月

受影响网站:早期Google更新往往没有官方信息,所以针对的是哪些网站经常不明,只是监测到排名有比较大变化。Bourbon一般认为与网址规范化有关。

Bourbon这个名字也是webmasterworld起的,原因是webmasterworld即将在新奥尔良举行一个行业会议,Bourbon是新奥尔良的一条着名老街道。

Allegra Update

上线时间:2005年2月

受影响网站:不明确,或者说范围广泛,包括低质量外链、关键词堆积、过度优化等。

公布支持nofollow

上线时间:2005年1月

现在SEO对nofollow肯定都很熟悉了,包括网络,所有主流搜索引擎都支持nofollow。还不知道的请参考以前关于nofollow的帖子。

Brandy Update

上线时间:2004年2月

受影响网站:链接锚文字作用提高,链接需要来自好邻居的概念第一次被提出来。索引库增长,抓取索引了很多新的链接,一些网站获得了更高权威度。

弗罗里达更新(Florida Update)

上线时间:2003年11月

受影响网站:弗罗里达更新是早期最着名的Google算法更新,影响面大,受影响的以商业意图明显的词为主,一些靠搜索流量的小公司倒闭,有的SEO公司因此陷入困境,因为客户网站排名下降,不续费了。弗罗里达更新的后果大到,Google曾经承诺,以后不在年底上线这么大的更新了,以免剧烈影响很多商家的圣诞季销售业绩。

Florida Update打击了一系列不自然的优化方法,包括隐藏文字、关键词堆积、链接农场、大量交换链接、过度优化。Florida彻底改变了SEO,可以说是现在SEO方法的起点。

Florida也是webmasterworld命名的,因为他们的命名方法该排到字母F打头了(为什么到了F打头,见下面Boston更新说明),而第二年2月他们要在弗罗里达的奥兰多举行Pubcon大会,所以就用了Florida。

Update Fritz

上线时间:2003年7月

Fritz更新是Google转为每天持续小幅更新索引的开始,这种更新方法又被称为everflux。

Update Fritz这个名字是Matt Cutts在他2006年的博客帖子里提到的Google内部名称,不是webmasterworld命名系列里的。

Esmeralda Update

上线时间:2003年6月1号

这是早期每个月发生一次的Google Dance的最后一次。这次更新之后,Google算法更新改为小幅、持续性的,当然这是相对Google Dance每个月一次、持续数天、排名剧烈波动而言。准确地说,Google Dance是索引更新,不是算法更新。Esmeralda更新之后,Google就不再Dance了。

Dominic Update

上线时间:2003年5月1号

早期Google Dance的一次。Dominic也是webmasterworld命名,名称来源于参加Boston Pubcon大会时大家常去的一家披萨饭馆。

Cassandra Update

上线时间:2003年4月1号

Brett Tabke和webmasterworld第一次特意给Google更新起名字。既然第一个名字是Boston,是个男名,这次应该是C打头的女名,大家投票,Cassandra胜出,没有其它特别意义。

Boston Update

上线时间:2003年2月1号

2003年波士顿举行的SES大会上,Google员工公布了这次更新,为了和其它Google Dance以示区别,取名Boston。

webmasterworld的创始人Brett Tabke就想,给更新取名字是个挺好的主意,所以就效仿台风的命名方法给Google更新取名,按字母排序,男名女名间隔,也得到了Google的首肯。所以早期的Google算法更新大多是webmasterworld命名的。

Google Dance

早期Google索引库每个月更新一次,是线下计算,然后集中上线。由于数据量大,需要一个数据中心一个数据中心地上线,不是同时上线的。在更新期间,用户这分钟访问的是一个数据中心,下一分钟可能访问的是另一个数据中心,看到的搜索结果可能有很大差别,因此被称为Google Dance。

从2000年7月开始,webmasterworld每个月开一个新帖,讨论每一次Google Dance情况,一直到2003年2月的Boston更新第一次有了名称,以前的Google Dance都是没有名字的。这里是当年Google Dance更新讨论的大列表。

G. Google搜索与Bai搜索的技术算法及区别

GOOGLE的计算方法现在已经不适用了..
同行啊

H. 搜索引擎自然排名

搜索引擎自然排名主要是指在搜索结果中,通过搜索引擎内部的算法,综合评定,给出的搜索结果。

它与竞价排名有着明显的区别,后者主要是利用付费的策略,进行快速的排名,而自然排名则是通过网站优化,在特定周期内提高网站排名。

因此,可以这样认为,自然排名的排名周期相对长,但是网站排名的稳定性相对比较久,并不需要持续投入大量的资金。

提高自然排名点击率方法

通常来讲,在试图提高自然排名点击率的过程中,主要是重点思考如何有效地设置Title标签与Description标签的相关性内容。

1、Title标签

在页面标题中不光要布局核心关键词,同时还需要布局具有一定吸引力的描述性内容。但在这个过程中,一般需要确保页面标题尽量控制在32个字符以内,理论上24个字符左右为佳。

2、Description标签

它是出现在搜索结果页面标题下方的描述性内容,主要的作用就是辅助用户判断这个页面主题内容是否与目标搜索词高度相关。

因此,对于任何一个网站而言,在撰写描述标签的时候,都应该巧妙的设计自己的相关关键词,通过句子的形式合理的融合在其中。而这个位置是否可以适当增加一些特殊符号,不同的搜索引擎有着不同的要求,有的可以适当的尝试。

阅读全文

与谷歌搜索引擎算法相关的资料

热点内容
狸窝pdf转换器 浏览:696
ajax调用java后台 浏览:904
活塞式压缩机常见故障 浏览:614
break算法 浏览:731
换电池的app是什么 浏览:771
单片机ad采样快速发送电脑 浏览:22
第五人格服务器错误是什么回事儿 浏览:467
查看手机谷歌服务器地址 浏览:191
python操作zookeeper 浏览:705
苹果手机dcim文件夹显示不出来 浏览:430
如何压缩文件夹联想电脑 浏览:583
程序员的学习之旅 浏览:440
apkdb反编译 浏览:922
雪花算法为什么要二进制 浏览:825
在文档中打开命令行工具 浏览:608
android图标尺寸规范 浏览:369
python实用工具 浏览:208
流量计pdf 浏览:936
科东加密认证价格 浏览:532
dos命令读文件 浏览:997