⑴ 搜索引擎的排序算法都有哪些是怎么实现的
2.1基于词频统计——词位置加权的搜索引擎
利用关键词在文档中出现的频率和位置排序是搜索引擎最早期排序的主要思想,其技术发展也最为成熟,是第一阶段搜索引擎的主要排序技术,应用非常广泛,至今仍是许多搜索引擎的核心排序技术。其基本原理是:关键词在文档中词频越高,出现的位置越重要,则被认为和检索词的相关性越好。
1)词频统计
文档的词频是指查询关键词在文档中出现的频率。查询关键词词频在文档中出现的频率越高,其相关度越大。但当关键词为常用词时,使其对相关性判断的意义非常小。TF/IDF很好的解决了这个问题。TF/IDF算法被认为是信息检索中最重要的发明。TF(Term Frequency):单文本词汇频率,用关键词的次数除以网页的总字数,其商称为“关键词的频率”。IDF(Inverse Document Frequency):逆文本频率指数,其原理是,一个关键词在N个网页中出现过,那么N越大,此关键词的权重越小,反之亦然。当关键词为常用词时,其权重极小,从而解决词频统计的缺陷。
2)词位置加权
在搜索引擎中,主要针对网页进行词位置加权。所以,页面版式信息的分析至关重要。通过对检索关键词在Web页面中不同位置和版式,给予不同的权值,从而根据权值来确定所搜索结果与检索关键词相关程度。可以考虑的版式信息有:是否是标题,是否为关键词,是否是正文,字体大小,是否加粗等等。同时,锚文本的信息也是非常重要的,它一般能精确的描述所指向的页面的内容。
2.2基于链接分析排序的第二代搜索引擎
链接分析排序的思想起源于文献引文索引机制,即论文被引用的次数越多或被越权威的论文引用,其论文就越有价值。链接分析排序的思路与其相似,网页被别的网页引用的次数越多或被越权威的网页引用,其价值就越大。被别的网页引用的次数越多,说明该网页越受欢迎,被越权威的网页引用,说明该网页质量越高。链接分析排序算法大体可以分为以下几类:基于随机漫游模型的,比如PageRank和Repution算法;基于概率模型的,如SALSA、PHITS;基于Hub和Authority相互加强模型的,如HITS及其变种;基于贝叶斯模型的,如贝叶斯算法及其简化版本。所有的算法在实际应用中都结合传统的内容分析技术进行了优化。本文主要介绍以下几种经典排序算法:
1)PageRank算法
PageRank算法由斯坦福大学博士研究生Sergey Brin和Lwraence Page等提出的。PageRank算法是Google搜索引擎的核心排序算法,是Google成为全球最成功的搜索引擎的重要因素之一,同时开启了链接分析研究的热潮。
PageRank算法的基本思想是:页面的重要程度用PageRank值来衡量,PageRank值主要体现在两个方面:引用该页面的页面个数和引用该页面的页面重要程度。一个页面P(A)被另一个页面P(B)引用,可看成P(B)推荐P(A),P(B)将其重要程度(PageRank值)平均的分配P(B)所引用的所有页面,所以越多页面引用P(A),则越多的页面分配PageRank值给P(A),PageRank值也就越高,P(A)越重要。另外,P(B)越重要,它所引用的页面能分配到的PageRank值就越多,P(A)的PageRank值也就越高,也就越重要。
其计算公式为:
PR(A):页面A的PageRank值;
d:阻尼系数,由于某些页面没有入链接或者出链接,无法计算PageRank值,为避免这个问题(即LinkSink问题),而提出的。阻尼系数常指定为0.85。
R(Pi):页面Pi的PageRank值;
C(Pi):页面链出的链接数量;
PageRank值的计算初始值相同,为了不忽视被重要网页链接的网页也是重要的这一重要因素,需要反复迭代运算,据张映海撰文的计算结果,需要进行10次以上的迭代后链接评价值趋于稳定,如此经过多次迭代,系统的PR值达到收敛。
PageRank是一个与查询无关的静态算法,因此所有网页的PageRank值均可以通过离线计算获得。这样,减少了用户检索时需要的排序时间,极大地降低了查询响应时间。但是PageRank存在两个缺陷:首先PageRank算法严重歧视新加入的网页,因为新的网页的出链接和入链接通常都很少,PageRank值非常低。另外PageRank算法仅仅依靠外部链接数量和重要度来进行排名,而忽略了页面的主题相关性,以至于一些主题不相关的网页(如广告页面)获得较大的PageRank值,从而影响了搜索结果的准确性。为此,各种主题相关算法纷纷涌现,其中以以下几种算法最为典型。
2)Topic-Sensitive PageRank算法
由于最初PageRank算法中是没有考虑主题相关因素的,斯坦福大学计算机科学系Taher Haveli-wala提出了一种主题敏感(Topic-Sensitive)的PageRank算法解决了“主题漂流”问题。该算法考虑到有些页面在某些领域被认为是重要的,但并不表示它在其它领域也是重要的。
网页A链接网页B,可以看作网页A对网页B的评分,如果网页A与网页B属于相同主题,则可认为A对B的评分更可靠。因为A与B可形象的看作是同行,同行对同行的了解往往比不是同行的要多,所以同行的评分往往比不是同行的评分可靠。遗憾的是TSPR并没有利用主题的相关性来提高链接得分的准确性。
3)HillTop算法
HillTop是Google的一个工程师Bharat在2001年获得的专利。HillTop是一种查询相关性链接分析算法,克服了的PageRank的查询无关性的缺点。HillTop算法认为具有相同主题的相关文档链接对于搜索者会有更大的价值。在Hilltop中仅考虑那些用于引导人们浏览资源的专家页面(Export Sources)。Hilltop在收到一个查询请求时,首先根据查询的主题计算出一列相关性最强的专家页面,然后根据指向目标页面的非从属专家页面的数量和相关性来对目标页面进行排序。
HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过分依靠PageRank的值去寻找那些权威页面的方法,避免了许多想通过增加许多无效链接来提高网页PageRank值的作弊方法。HillTop算法通过不同等级的评分确保了评价结果对关键词的相关性,通过不同位置的评分确保了主题(行业)的相关性,通过可区分短语数防止了关键词的堆砌。
但是,专家页面的搜索和确定对算法起关键作用,专家页面的质量对算法的准确性起着决定性作用,也就忽略了大多数非专家页面的影响。专家页面在互联网中占的比例非常低(1.79%),无法代表互联网全部网页,所以HillTop存在一定的局限性。同时,不同于PageRank算法,HillTop算法的运算是在线运行的,对系统的响应时间产生极大的压力。
4)HITS
HITS(Hyperlink Inced Topic Search)算法是Kleinberg在1998年提出的,是基于超链接分析排序算法中另一个最着名的算法之一。该算法按照超链接的方向,将网页分成两种类型的页面:Authority页面和Hub页面。Authority页面又称权威页面,是指与某个查询关键词和组合最相近的页面,Hub页面又称目录页,该页面的内容主要是大量指向Authority页面的链接,它的主要功能就是把这些Authority页面联合在一起。对于Authority页面P,当指向P的Hub页面越多,质量越高,P的Authority值就越大;而对于Hub页面H,当H指向的Authority的页面越多,Authority页面质量越高,H的Hub值就越大。对整个Web集合而言,Authority和Hub是相互依赖、相互促进,相互加强的关系。Authority和Hub之间相互优化的关系,即为HITS算法的基础。
HITS基本思想是:算法根据一个网页的入度(指向此网页的超链接)和出度(从此网页指向别的网页)来衡量网页的重要性。在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。
实验数据表明,HITS的排名准确性要比PageRank高,HITS算法的设计符合网络用户评价网络资源质量的普遍标准,因此能够为用户更好的利用网络信息检索工具访问互联网资源带来便利。
但却存在以下缺陷:首先,HITS算法只计算主特征向量,处理不好主题漂移问题;其次,进行窄主题查询时,可能产生主题泛化问题;第三,HITS算法可以说一种实验性质的尝试。它必须在网络信息检索系统进行面向内容的检索操作之后,基于内容检索的结果页面及其直接相连的页面之间的链接关系进行计算。尽管有人尝试通过算法改进和专门设立链接结构计算服务器(Connectivity Server)等操作,可以实现一定程度的在线实时计算,但其计算代价仍然是不可接受的。
2.3基于智能化排序的第三代搜索引擎
排序算法在搜索引擎中具有特别重要的地位,目前许多搜索引擎都在进一步研究新的排序方法,来提升用户的满意度。但目前第二代搜索引擎有着两个不足之处,在此背景下,基于智能化排序的第三代搜索引擎也就应运而生。
1)相关性问题
相关性是指检索词和页面的相关程度。由于语言复杂,仅仅通过链接分析及网页的表面特征来判断检索词与页面的相关性是片面的。例如:检索“稻瘟病”,有网页是介绍水稻病虫害信息的,但文中没有“稻瘟病”这个词,搜索引擎根本无法检索到。正是以上原因,造成大量的搜索引擎作弊现象无法解决。解决相关性的的方法应该是增加语意理解,分析检索关键词与网页的相关程度,相关性分析越精准,用户的搜索效果就会越好。同时,相关性低的网页可以剔除,有效地防止搜索引擎作弊现象。检索关键词和网页的相关性是在线运行的,会给系统相应时间很大的压力,可以采用分布式体系结构可以提高系统规模和性能。
2)搜索结果的单一化问题
在搜索引擎上,任何人搜索同一个词的结果都是一样。这并不能满足用户的需求。不同的用户对检索的结果要求是不一样的。例如:普通的农民检索“稻瘟病”,只是想得到稻瘟病的相关信息以及防治方法,但农业专家或科技工作者可能会想得到稻瘟病相关的论文。
解决搜索结果单一的方法是提供个性化服务,实现智能搜索。通过Web数据挖掘,建立用户模型(如用户背景、兴趣、行为、风格),提供个性化服务。
⑵ 如何消除算法中的性别歧视
我们这个世界是有很多的物种组成的,在这其中也包括我们人类。而人类则是分为男人和女人,但是相比较来看男人的力量比女生要强大,可承受的抗击能力也比女人强上很多。所以,在这个世界上是存在着性别的歧视的。因为女人普遍要弱于男人,所以社会上会认为男人生来就是比女人强。在算法中也存在着一定的性别歧视。
消除性别歧视应该有科学的方法和实际上的行动。应该制定一个完整而又有规律的实施方案。应该多在生活中思考一下各有的优点以及对方的缺点。要把缺点和优点综合起来,客观的评价一个人。不能把那种带有歧视的观念带到生活当中去。性别歧视本身就是不对的,是一种错误的思想,应该摒弃的。要在心中时刻都保持着这样的一种想法。在算法当中应当客观的去评价一个人,而不是单从性别上去评判。
⑶ 理工男要统治地球了吗
柯洁与阿尔法狗的大战成为这几天刷屏的事件,马克·扎克伯格在斯坦福大学的演讲也让他成为了这个世界上最性感的理工男。这些事件再次印证了,人工智能和计算机算法俨然已经成为了这个地球上最受人艳羡、人人都想分一杯羹的领域。
计算机算法,这个与人工智能最密切相关的领域,面临着与人工智能一样的双面境遇。一方面,计算机科学至上的观念在硅谷盛行,作为计算机工程专业学生的理工男受到社会的疯狂膜拜,不管是工作面试还是工资对比,理工男显然要比人文男吃香得多。然而,计算机算法却在一定程度上加剧了社会差距,冲动的算法甚至还有可能陷社会于不义。
诚然,人工智能、计算机算法是未来发展的趋势,但我们真的放心将我们的未来交到现在这群“理工男”手中吗?现今社会对理工男的膜拜是否真的对这个社会、这个世界的未来有益呢?为了免于未来受其束缚,作为普通人的我们又该做出哪些改变?在人工智能尚未发展成熟的现在,这些问题值得所有人考虑。
━━━━━
作为一名计算机学科的博士,我酷爱大数据。但我并没有把数据看得太过神圣,因为我学到的一切知识,都是通过数据而得来的,不管是性,还是莎士比亚。一些把数学神圣化了的人也因此愤怒反驳过我。十几岁的时候,我在斯坦福大学学会了计算机算法,通过这种优雅又致命的武器,我可以在互联网上找出最危险的通缉犯,也可以透过人们在网上的发言察觉到他对政府的不满。
计算机科学的确很奇妙。但问题在于,硅谷的许多人认为计算机科学超越一切。比如招聘会上,那些面试员态度很鲜明,他们只对计算机科学背景的人感兴趣;比如工资对比,计算机工程专业学生明显要比其他非工程专业高出不少;再比如,当人文学科的学生透露自己的专业时,他们会受到质疑与不屑。
我曾见过一些杰出的计算机科学家对自己正在研究的人群表示出可悲的无知,我对他们进行了当面嘲笑。我曾见过一些军事科学家以孩童般的热情向人展示自己创新研制的杀伤性武器,却对这些武器的目标攻击人群闭口不谈。世界上最恐怖的事情莫过于,科学家可以就如何枪击同类进行一场学术对话,却无法给出这样做的理由。
Facebook 用1010万用户行为数据解释“回音室”效应
当外部研究者评估产品影响时,企业应该积极配合,尽量说明自己的算法工作原理,在数据使用协议允许的范围内适当公布数据。(研究人员还应允许在不被起诉的情况下进行算法检测。)
招聘面试时的问题也不应只局限于计算机算法,还应考察对方的社会伦理知识。同时,学生也应该学会如何应答招聘经理的提问(微软的 CEO 曾在技术采访中被问到,如果看到一个婴儿躺在十字路口他会怎么做,而他的答案当然不是常人都能想到的将婴儿抱起)。
企业应该雇佣一些被自家产品侵犯过的人群或者非产品目标用户的人群,他们的脸部可能无法被计算机视觉系统识别,他们的笑容可能无法被 emoji 表情捕捉,他们的简历可能跟公司不大相关,他们的住房选择可能受到了公司政策的限制,他们可能深陷网络巨魔的圈套(企业为网络巨魔提供了平台,却没有加以有效控制)。招聘一些其他领域科学家进公司来,让他们参加午餐会谈,使其对公司原有的世界观造成冲击。
倾听这些非计算机领域科学家的意见,可能会减缓硅谷的发展脚步,因为不同世界观的碰撞难免产生分歧。但是,当有人提出理性的反对声音时,适当放慢脚步只会有益无害。在今天这个数字战场会决定总统选举输赢的时代里,科技巨头们需要放缓自己前进的步伐,不忘初心。
⑷ 有些经营者利用算法进行价格歧视,我们究竟该如何避免被大数据杀熟
随着互联网时代的到来,现在想必大家很多的日常活动都是在互联网上进行的,一般情况下,一个人的手机里边儿最起码要安装二三十个不同类型的app。但是在我们经常使用app的时候,他们也会记录我们的使用习惯,从而让这些后台可以进行大数据杀熟。在此前央视就关于这样的行为进行过报道。那么我们应该如何做才能够避免被大数据杀熟呢?接下来,关于这个话题,我将会从几以下几点进行分析。
第三,如何看待这些大数据杀熟的公司?
虽然现在大家都在抵制这些大数据杀熟,但说实话,想要通过一些蛛丝马迹来掌握他们的证据还是非常困难的。毕竟互联网本身就是一个非常隐秘的环境,如果不是掌握其核心生意的话,根本就难以直接指控他们在利用大数据。而且在某种程度上,大数据的确可以简化选择商品的时候的一些繁琐搜索。
⑸ AI算法为什么会存在性别歧视
因为微软那套算法就是大量学习人类的对话 以及人工教授
⑹ 人工智能的安全评估和评测包括哪些方面的内容
随着人工智能的高速发展,这不仅为企业带来了一定的好处,同时还存在一些安全风向,为了能够深入了解人工智能,需要明白人工智能技术的安全风险包括哪些类型?该如何应对这些风险?
人工智能的安全类型分为数据安全和算法安全。数据安全分为三个部分,数据隐私、数据质量、数据保护。无论是训练机器所需的现场数据还是以后用它做服务的数据,数据的质量十分关键。
算法安全包括三个方面:
第一是鲁棒性,环境发生变化能够具有相应的韧性;
第二是可解释性,包括代码功能正确性、对抗样本影响;
第三是可靠性,包括问题目标影响,软硬件平台依赖。
为应对人工智能的安全风险,可以围绕以下七个方面加强应对:
第一,算法可解释性。在需要了解或解决一件事情的时候,可以获得我们所需要的足够的可以理解的信息。黑盒算法缺乏透明性和可解释性,难以分析和验证。因此,需要进行建模前的数据可解释性分析,构建可解释性的模型,并开展模型部署后的可解释性评估。
第二,隐私保护。人工智能算法存在矛盾,隐私保护与知识挖掘之间不完全一致,数据挖掘可能会挖掘到个人隐私。
第三,公平建模。在算法实践过程中,无论在采集阶段、学习阶段、部署阶段都存在所谓的公平问题,最后建设模型希望能够实现统计公平、个体公平、因果公平。
第四,可信验证。可信验证的引擎主要是对人工智能系统做验证、仿真、测试,这是一种很重要的智能手段,通过提供系统性训练和测试的可信保证,从而对成果进行定量形式化验证。
第五,主动防御。虽然被攻击方在明处,攻击方在暗处,但是被攻击方同样也有手段保护自己,通过安全评估、威胁者理解、预测手段等进行主动防御。
第六,伦理法律。人工智能伦理和治理成基本共识,国际社会探索建立广泛认可的人工智能伦理原则。
第七,系统伦理。这其中既包含了哲学伦理的思考,也包括理论研究、工程学的考虑。
⑺ 2018我们可能要忍受的人工智能阴暗面
2017年的网络安全世界并不平稳,各种各样的病毒和黑客肆虐不绝于耳。进入2018,我们很可能会在这个战场看到更激烈的搏杀。
结束语
就像任何一种技术革新一样,AI也同样在带来价值的同时创造了危险。而且凭借着识别和学习能力的特征,AI带来的负面影响说不定会比过往更大。
但是无论如何,技术就是这么一步步推进的。更好的风景总是伴随着更难走的路途。认识风险,并探索解决方案,或许才是人类与AI相处时更舒服的方式。
⑻ 算法歧视名词解释
人工智能在影响人们的生活,网上的和现实世界中的生活。算法将人们在网络世界中的上网习惯、购物记录、GPS位置数据等各种网上足迹和活动,转变为对人们的各种打分和预测。这些打分和预测进而左右影响人们的生活的各种决策工作,其中的歧视和不公平由此成为一个显着的问题,无论人们是否意识到歧视的存在。
以大数据、机器学习、人工智能、算法等为核心的自动决策系统的应用日益广泛,从购物推荐、个性化内容推荐、精准广告到贷款评估、保险评估、雇员评估再到司法程序中的犯罪风险评估,越来越多的决策工作为机器、算法和人工智能所取代,认为算法可以为人类社会中的各种事务和决策工作带来完全的客观性。然而,这不过是妄想,是一厢情愿。无论如何,算法的设计都是编程人员的主观选择和判断,他们是否可以不偏不倚地将既有的法律或者道德规则原封不动地编写进程序,是值得怀疑的。算法歧视(Algorithmic Bias)由此成为一个需要正视的问题。规则代码化带来的不透明、不准确、不公平、难以审查等问题,需要认真思考和研究。
⑼ 中消协指出网络领域涉及消费者权益的算法应用问题有哪几种
中消协指出,根据消费者投诉、有关调查和相关报道,网络领域涉及消费者权益的算法应用问题主要有以下几种:
一、推荐算法。通过监测分析消费者的消费行踪轨迹,如浏览过的页面、广告、商品服务、话题等,有针对性地对消费者进行商业营销。这类推荐算法利用消费者的数据画像,实施所谓精准推送。许多消费者误以为自己看到的与旁人无异,导致知情、选择不足。有些经营者通过算法应用推送的商品、服务内容甚至违背法律和公序良俗。二、价格算法。有些经营者利用算法进行价格歧视。一是对新老用户制定不同价格,会员用户反而比普通用户价格更贵。二是对不同地区的消费者制定不同价格。三是多次浏览页面的用户可能面临价格上涨。四是利用繁复促销规则和算法,实行价格混淆设置,吸引计算真实价格困难的消费者。这类算法造成选择性目标伤害。
三、评价算法。部分平台及平台内经营者为了获得好评,运用刷单等方式,编造虚假高分评价,或者隐匿中评、差评,使真实评价无法显现。虚假评价、评价失实呈现,不仅破坏经营者之间的公平竞争,也对消费者购买决策产生误导。
四、排名算法。平台经营者制定各类排名榜,声称基于消费者好评率、销量等,对各行业或商品服务类别进行排序,引导消费者选择,但具体如何计算得出的难以知晓。还有的混淆竞价排名与自然排名,左右消费者决策。
五、概率算法。一些线上经营者开展有奖销售、抽奖兑换,特别是部分网络游戏公司经常性推送游戏道具抽奖活动,虽然公示了中奖(掉落)概率,但是其算法程序不透明,实际中奖概率缺乏管控,屡遭消费者诟病。
六、流量算法。一些平台利用所处优势地位通过算法在流量分配、搜索排名等方面设置障碍和限制,控制平台内经营者开展交易,影响公平竞争和消费者选择。
⑽ 中消协加强网络消费算法规制,这对杜绝价格歧视有何帮助
中国消费者协会(以下简称中国消费者协会)在京召开网络消费领域算法监管与消费者保护研讨会。中国消费者协会表示,将加强对网络消费算法的监管,保护消费者的知情权、选择权和公平交易权。中国消费者协会指出,近年来,随着平台经济的快速发展,网络购物、交通运输、旅游住宿、订购外卖、网络游戏等生活消费领域出现了大型平台企业。不少平台存在一些侵犯消费者权益的行为,引起广泛关注。
据了解,评价算法是指一些平台和运营商在平台上,为了获得好评,编造虚假的高分评价,或隐藏中差评价,使真实评价无法出现。虚假评价和虚假评价不仅破坏了经营者之间的公平竞争,也误导了消费者的购买决策。此外,概率算法还包括一些在线运营商进行有奖销售和抽奖兑换。特别是一些网络游戏公司经常为抽奖活动推送游戏道具。虽然中奖(落选)概率公开,但算法程序不透明,实际中奖概率缺乏控制,屡遭消费者诟病。对于算法的应用,中国消费者协会表示,希望各行业组织加强指导和监督,促进网络运营商合理、合规地应用算法,净化行业氛围,促进良性发展,切实维护合法权益以及消费者的利益。中国消费者协会进一步指出,建议有关司法机关加强算法应用案例分析研究,推动出台相关司法解释,充分发挥司法机关的审判监督作用,强化经营者举证责任,加强对算法应用问题的实质审查,通过司法判例促进公平正义,加强对消费者权益的保护。