1. 论淘宝搜索推荐算法排序机制及2021年搜索的方向。
[写在前面]淘宝搜索引擎至今反复多次,搜索顺序也从最初的统计模型升级到机械学习模型,到2010年为止没有标签没有基础标签,随着计算能力的提高,2010年后开始挖掘用户的基础标签,从3年到2013年开始使用大规模的机械学习和实时特征
但你有没有想过为什么2016-2017年的两年是各种各样的黑搜索盛行的一年,为什么今天几乎消失了?
最根本的原因是从统计算法模型到机械学习模型的转型期。
说白了,这时不收割就没有收割的机会。因为统计模型即将退出历史舞台。
因此,各路大神各自扩大了统计模型算法中的影响因素。统计算法无论在哪里,点击率和坑产都很容易搜索。
那两年成了中小卖家的狂欢盛宴,很多大神的烟火也是旺盛的。
今天推荐算法的第三代使用后,加上疫情的影响进行了鲜明的比较,真的很感慨。
淘宝真的没有流量了吗?电器商务真的做不到吗?还是大家的思维没有改变,停留在2016-2017年的黑搜宴会上不想醒来?
2017年、2018年、2019年是淘宝推荐算法反复最快的3年,每年的算法升级都不同,整体上到2019年9月为止统计算法模型的影响因素还很大,从2019年下半年开始第三代推荐算法后,全面的真正意义进入了以机械学习模型为中心的推荐算法时代。
各路大神也无法验证,加上百年疫情的影响,很多大神的隐蔽布也泄露了。
基本上以统计模型为主,训练基本上没有声音,典型的是坑产游戏。
如果现在还能看到的话,基本上可以判断他不是在训练,而是在制作印刷用纸,一定会推荐使用资源,资源是多么安全。
刷子的生产增加真的没有效果吗?不是我以前的文章说:不是不行,而是从坑产的角度思考,而是从改变竞争环境的角度思考,用补充书改变竞争环境,改变场地,有新的天地,任何手段都要为商业本质服务。
正文
概述统计算法模型时代。
统计模型时代搜索引擎的排名是最原始的排名思考,如果你的类别不错,关键词比较正确,就能得到很大的流量,当时产品需求少,只要上下架的优化就能使产品上升。
到2016年为止没有坑产游戏吗?黑色搜索的效果不好吗?其实,什么时候坑产是最核心的机密,谁来教大家,什么时候教的最多的是类别优化,关键词优化,大部分优化都围绕关键词,电器商的老人想起了你什么时候得到关键词的人得到了世界。
有人告诉我做坑产,关键词找到生意也来了。什么时候知道坑产也没有人给你刷子,大规模的补充书也出现在黑色搜索盛行的时期。
为什么关键词者得天下?
搜索关键词是用户目前意图最直观的表达,也是用户表达意图最直接的方式。
搜索的用户购物意图最强,成交意愿也最强,现在搜索也是转化率最高的流量来源。
统计时代关键词背后直接依赖的是类别商品,只要制作类别和关键词分词即可,哪个时代最出现的黑马通常是类别机会、关键词机会、黑科学技术机会。
最基本的是商业本质,什么时候产品需求少,没有很多现在的类别,自己找类别,现在想想什么概念。
记得什么时候类别错了,搜索也可以来。如果你的商品点击反馈好的话,错误的类别没有什么影响,现在试试吧
搜索类是搜索的基础。
什么时候能称霸,背后有商业逻辑,用户行为数据好就行了。
但无论如何发展检索都离不开关键词。例如,上述关键词是用户表达意图的最直接的方法,是当前消费者的检索行为和购买行为发生了根本性的变化。
检索依然根据消费者的行为数据和关键词来判断需求,这就是机械学习模型时代。
机器学习模式时代-推荐搜索算法。
现在的商品体积和消费者购物行为的丰富性,统计算法不能满足检索的本质要求。
所以现在搜索引擎开始发展深度学习模式更精细的建模-推荐搜索算法,搜索排名更智能。
在此重点讨论推荐检索算法,
2017、2018、2019是推荐检索算法真正意义发展的3年,3年3个系统版本每年更换一次,很多电器商人都不知道头脑。
推荐检索算法和统计算法模型的最大区别在于,Query的处理能力和算法有召回机制
简单表示推荐算法的程序:
1:对检索关键词进行分词、重写的处理进行类别预判
2:根据用户信息,即用户以前的行为数据记录和预测的性别、年龄、购买力、店铺喜好、品牌喜好、实时行动作等信息存档
3:根据检索用户信息,根据检索用户以前的行为数据检索引擎和预测的性别、年龄、购买力、店铺喜好、品牌喜好、实时行动作为等信息存档3:根据检索用户信息的检索用户信息
也就是说,在第一关召回阶段基本上与统计模型时代的最佳化途径相同,核心是标题分词和类别,现在最大的区别是根据用户信息推荐最佳化,这是标签和正确人群标签图像最佳化的基本意义。
为什么现在一直在谈论标签,谈论人标签图像?入池实际上是为了匹配真正的消费者用户信息,通过直通车测试来判断人群也是为了通过性别、年龄和购买力来优化匹配真正的消费者。
召回机制:
通过构建子单元索引方式加快商品检索,不必经历平台上亿级的所有商品。该索引是搜索引擎中的倒置索引,利用倒置索引初始筛选商品的过程是召回阶段。
在这个阶段,不会进行复杂的计算,主要是根据现在的搜索条件进行商品候选集的快速圈定。
之后再进行粗排和精排,计算的复杂程度越来越高,计算的商品集合逐渐减少,最后完成整个排序过程。
主要召回路径分为
1:语言召回
2:向量召回
这些都是商业秘密不方便的说明,有兴趣的是学习我们的在线会员课程标签重叠游戏6是基于语言和向量召回的基础逻辑实战落地的课程。
下一阶段进入粗行列,粗行列受这些因素的影响:
粗行列作为召回后的第一个门槛,希望用户体验以时间低的模型快速排序和筛选商品,第一关系将过滤到不适合本次检索词要求的商品
为了实现这个目的,首先要明确影响粗排名得分的因素
1:类别匹配得分和文本匹配得分,
2:商品信息质量(商品发布时间、商品等级、商品等级)
3:商品组合得分
点击得分
交易得分卖方服务商业得分
在粗排列框架下,系统粗排列算法根据商品类别的预测得分进行得分
点击得分交易得分
交易得分卖方服务商业得分粗排列框架下,系统粗排列的大排列
最后是精排,检索顺序的主要目标是高相关性、高个性化的正确性。
每个用户的喜好不同,系统会根据每个用户的Query结合用户信息进行召回。然后通过粗排后,商品数量从万级下降到千级。
千级商品经排后直接向用户展示,搜索过程中商品集合的思考和具体变化如下图
前面的召回、粗排主要解决主题相关性,通过主题相关性的限制,首先缩小商品集合和我们的在线会员课程标签
精排阶段系是真正系统推荐算法发挥真正威力时,应根据用户行为反馈迅速进行机械学习建模,判断用户真实性、准确性和可持续控制性。
为什么现在的游戏和黑色技术暂时出现,核心是系统算法模型机械学习模型,系统分析用户有问题,不正确,不稳定,维持性差,可以迅速调整。
也就是说,即使发现脆弱性,研究快速有效的方法,系统也会根据你精排阶段的用户行为迅速分析学习建模,发现模型有问题,你的玩法就结束了。
猜机器学习建模的速度有多快?
想玩黑色的东西早点死去吧。
现在使用的检索顺序模型主要是
CTR模型和CVR模型,具体模型过于复杂也不需要深入,但影响这两种模型的最基本因素是用户行为数据
真的不能假的,假的也不能假的算法模型越来越智能化,算法越来越强,只有回归商业本质才能真正解决算法模型背后真正想解决的问题,算法基于商业逻辑。
2021年搜索向哪个方向发生变化:
2020年电器商人和蚂蚁是不平凡的一年。2020年也是蚂蚁从神坛上拉下来的元年,现在蚂蚁有各种各样的黑色。
基于中小卖家的走势无疑是阿里必须正面面对的现实。
如何让中小卖家回流或留在平台上,搜索该怎么做?
检索一定是基于三方的考虑,买方、卖方和平台本身,现在市场上又开始提倡坑产搜索逻辑,坑产妖风又开始,根据推荐搜索算法逻辑来谈这个问题。
为什么坑产思维是不死的小强,每次危机都会跳出来。
以统计模型为中心的坑产时代是淘宝从2003年到2015年一直使用的搜索算法模型长达13年。
同时也是淘宝和中国网分红的野蛮生长期,统计算法模式让太多电商赚钱。除了
之外,十年的奴役思维已经习惯了,在电器商圈,坑产游戏一定有人相信,其他人不一定被认可。所以,我们夹着尾巴发展的原因,时间真的可以证明一切,不用多说,做自己。
习惯性思维加上特殊时期的赚钱蝴蝶效应,使许多电器商人活在历史的长梦中。正确地说,统计算法模型的真正废除是在2019年下半年。
同学说坑产永远有效,我也这么想。
永远有效的是起爆模型坑产权重驱动和统计算法模型中的坑产排名不同。
起爆模型的坑产要素永远有效,这永远不会改变。
但是,如何有效地加上这个起爆模型的坑产权重,并不像模仿购物的意图那么简单。
坑产游戏在2021年绝对不行。淘宝不会把现在的算法系统换成15年前的。
基于三方利益:
购买者体验
卖方利益
平台的发展
搜索肯定会向高精度和高控制性发展。以标签为中心的用户标签图像仍然是影响流量精度的基本因素。
必须从标签的角度考虑和优化种子组的图像。
通过种子组的图像向相似人扩展到叶类人,业界喜好人最后向相关人扩展也是扩大流量的过程渠道。
基于推荐搜索算法逻辑:
精密排列阶段算法更强,精度更高,转化率更高,持续稳定性更强。
基于中小卖方流通的现状,优化精排阶段并非中小卖方能够简单接触。
推荐算法从搜索排名阶段出现在哪个阶段?
个人判断
一是召回阶段
二是粗排阶段
上述提到召回阶段的算法简单复盖商品为万级,排序规则也比较简单,中小卖方在召回阶段提高精度尤为重要。
在这个万级商品库中,如上下架的权重上升,中小卖方有机会上升到主页,从子单元的索引召回中寻找机会。
或者根据中小卖方的新产品和中小卖方的店铺水平进行特别优先搜索推荐,使中小卖方的新产品在低销售状态下显示,可以实现锦囊算法。
中小卖方有机会搜索主页,不调用用户信息直接打开主页的展示权可能是中小卖方最大的支持。
根据召回阶段的用户行为数据,在粗排阶段以比例融入用户信息,即标签的影响。
在初始召回阶段,类别和分词权重,看业者主图场景反应背后的人们反馈,用系统引导,给中小卖方真正参考的流量方向和成交方向。
谁疯狂地印刷用纸直接关闭黑屋,理解印刷用纸优化竞争场景,从优化人群的角度出发,适当放宽处罚。
通过召回阶段,得到的用户信息会影响粗体结果。在这个阶段,用户信息的权重比例不应该太大,流量卡也不应该太死。
在各检索顺序阶段用户信息,即用户标签对检索的影响权重的问题。
这个方向我的个人观点是可能的。
2. 评价算法的四个标准是什么
评价算法的四个标准:
1.正确性
能正确地实现预定的功能,满足具体问题的需要。处理数据使用的算法是否得当,能不能得到预想的结果。
2.易读性
易于阅读、理解和交流,便于调试、修改和扩充。写出的算法,能不能让别人看明白,能不能让别人明白算法的逻辑?如果通俗易懂,在系统调试和修改或者功能扩充的时候,使系统维护更为便捷。
3.健壮性
输入非法数据,算法也能适当地做出反应后进行处理,不会产生预料不到的运行结果。数据的形式多种多样,算法可能面临着接受各种各样的数据,当算法接收到不适合算法处理的数据,算法本身该如何处理呢?如果算法能够处理异常数据,处理能力越强,健壮性越好。
4.时空性
算法的时空性是该算法的时间性能和空间性能。主要是说算法在执行过程中的时间长短和空间占用多少问题。
算法处理数据过程中,不同的算法耗费的时间和内存空间是不同的。
(2)算法推荐服务入库标准扩展阅读:
算法是对特定问题求解步骤的一种描述,它是指令的有限序列,其中每一条指令表示一个或多个操作。此外,一个算法还具有下列5个重要的特性。
(1)、有穷性
一个算法必须总是(对任何合法的输入值)在执行有穷步之后结束,且每一步都可在有穷时间内完成。
(2)、确定性
算法中每一条指令必须有明确的含义,读者理解时不会产生二义性。即对于相同的输入只能得到相同的输出。
(3)、可行性
一个算法是可行的,即算法中描述的操作都是可以通过已经实现的基本运算执行有限次来实现的。
(4)、输入
一个算法有零个或多个的输入,这些输入取自于某个特定的对象的集合。
(5)、输出
一个算法有一个或多个的输出,这些输出是同输入有着某种特定关系的量。
3. 算法的衡量标准有哪些
衡量算法的三个标准是:时间复杂度、空间复杂度和难易程度。时间复杂度可以简单的说就是:大概程序要被执行的次数,而非时间。
注意:是次数,不是时间,因为不同机器的性能是不一样的,不要用计时器在那里计时谁的更快。当然,如果在同一台电脑上运行计时另说。
空间复杂度:同样简单来说就是:算法执行过程中大概所占用的最大的内存。
4. 材料出库,入库,结存的数据怎么算法 的分别是什么意思
计算方法:
材料发出结存单价=(期初结存金额+本期入库金额)/(期初结存数量+本期入库金额)
本期结存金额=材料结存单价*结存数量
本期出库数量=期初+采购入库-期末(金额类似)
ACCESS也设计思路如下:
1. 先分设计好三个表
2. 再计算出发出结存单价
3. 依据单价计算出期末结存数量与金额
4. 倒推出本期出库数量金额
5. 视频服务器的算法标准
网络视频服务器的压缩算法标准不外乎有MJPEG、MPEG-1、MPEG-4三种。
MJPEG压缩技术标准源于JPEG图片压缩技术,是一种简单的帧内JPEG压缩,压缩后图像清晰度较好。但由于这种方式本身的技术限制,无法作大比例压缩,数据量较高,录像每小时1-2G空间,网络传输耗费大量的带宽资源,不大适用于移动物体图像的压缩,也不大适用于国内长时间保安录像的需求。
MPEG-1压缩技术标准采用前后帧多帧预测的压缩算法,具有很大的压缩灵活性,应用最为广泛,这种算法技术发展成熟,数据压缩率相比MJPEG要高,但数据量还是较大,录像每小时300-400M空间,若用于银行长时间实时录像,占用硬盘空间较大,尤其是网络传输占用带宽较大,不大实用于视频图像远程传输。
MPEG-4压缩技术标准是目前进入实用阶段的最为先进的压缩技术,它利用很窄的带宽,通过帧重建技术压缩和传送图像,以求以最少的数据获得最佳的图像质量。MPEG-4的特点使其更适于交互AV服务以及远程监控,采用MPEG-4压缩算法,图像压缩比较高,录像每小时100-200M空间,图像清晰度高,网络传输占用带宽小,能通过各种传输方式进行远程视频图像传输。 由于网络视频监控服务器多用于对多个分散网点的远程、实时、集中监控,因此,监控中心可以同时监控、录像的视频路数是衡量远程集中监控效果的重要指标。
在理论上可同时对无限多个监控位点图像实施远程实时监控、录像。但在实际应用中受监控中心实际网络带宽的限制,如中心网络带宽为10M的话,假设每路视频占用250K,则最多可实现40路视频的录像,除非降低每路视频带宽或增加网络带宽。 在基于网络视频服务器的大型网络视频集中监控系统中,监控中心通常设置了多个监控客户端,往往存在同一时间段访问某一个前端监控网点并发出实时监控或录像调用请求的情况。当监控中心有N个监控客户端需要同时观看远程某一个监控点图像时(假设一路图像带宽占用为250K),常规模式下外网带宽占用为(N*250)K,通常会导致数据堵塞从而影响监控效果,因此常规的网络视频服务器系统一般只能支持三、四个客户端的同时访问要求。
是否支持本地录像资料的远程在线智能化检索、回放和转录 针对于多个分散网点的远程、实时、集中监控系统应用情况,由于公网带宽资源的稀缺性和有偿性,出于经济方面的考虑,多数用户会采用ADSL宽带线路进行远程数字视频信号的传输。电信部门提供的包月ADSL线路带宽理论值为上行带宽512K,下行2M,但实际的上行带宽往往只有200多K。为充分满足监控应用需求,实际系统中多采用“中心远程实时轮巡监控、网点本地实时录像、中心远程随时调看录像”的功能模式。
对于网点本地录像资料的远程调看应用,多数网络视频服务器软件还不能提供有效的解决方案,多数由网点本地的工作人员选择所需的录像资料文件并远程拷贝或E-MAIL给中心监控人员,中心监控人员接收到后再打开观看,操作繁琐费时。 在基于ADSL宽带线路的网络应用环境下,电信公司提供给用户的接入方式是动态IP接入方式,即用户通过虚拟拨号技术动态获得IP地址来上网的方式:用户通过本地电脑安装的拨号程序,驱动ADSL Modem拨号接入INTERNET时,ISP通常会随机分配给用户一个公共IP地址,在断线之前这个IP地址是唯一的,其他用户可以通过这个IP地址来 访问该用户,但是一旦断线后再次连接时,ISP会重新随机分配另外一个IP地址给该用户。
在利用网络视频服务器 实现远程视频集中监控应用中,在基于ADSL宽带线路的网络应用环境下,如何简便地实现在动态IP地址条件下监控中心对监控前端的实时访问,仍是困扰诸多工程商、系统集成商以及 网络视频服务器 生产厂家的难题之一。许多网络视频服务器 不能提供动态IP接入的解决方案,一旦工程商或用户利用 网络视频服务器并通过ADSL来组建远程监控系统,很可能会导致系统无法实现预期的功能。 在某些系统应用情况下,视频监控系统仅仅是整个大型系统的一个应用子系统,如果能将视频监控系统和其它系统进行有机整合,将大大方便用户的系统操作使用。
6. 《互联网信息服务算法推荐管理规定》正式施行,这具体是如何规定的
3月1日开始施行的《互联网信息服务算法推荐管理规定》,主要从维护消费者利益、避免“暗箱”操作、理顺管理职责、保护劳动者合法权益、防止不良消费、健全监管体系等方面作出了详实的规定。
总之,《互联网信息服务算法推荐管理规定》可以让互联网服务交易更加有序、健康运行。
7. 多部门宣布不得利用算法推荐服务从事违法活动,具体有何应对措施
在购物或者说是旅行的时候,总是会有平台根据算法推荐出自己可能喜欢的东西,人们也就因此产生了消费行为。不过多部门宣布不得利用算法推荐服务从事违法活动,具体的应对措施就是制定了和完善了相关的法律法条,由国家互联网信息办公室等4个部门发布了《互联网信息服务算法推荐管理规定》,而且这个规定在3月1日就开始实施了。并且依据这个规定,会对违法行为进行相应的打击,并且防范和抵制传播不良信息。
法律法规的制定是逐步完善而且与时俱进的,所以说这个法规是非常有效的,而且能够保护人们的合法权益。普通人如果在互联网世界被人办理的话,也可以通过相关的法律法规维护自己的合法权益。
8. 互联网信息服务算法推荐管理规定
第一章总 则第一条为了规范互联网信息服务算法推荐活动,弘扬社会主义核心价值观,维护国家安全和社会公共利益,保护公民、法人和其他组织的合法权益,促进互联网信息服务健康有序发展,根据《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》、《互联网信息服务管理办法》等法律、行政法规,制定本规定。第二条在中华人民共和国境内应用算法推荐技术提供互联网信息服务(以下简称算法推荐服务),适用本规定。法律、行政法规另有规定的,依照其规定。
前款所称应用算法推荐技术,是指利用生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术向用户提供信息。第三条国家网信部门负责统筹协调全国算法推荐服务治理和相关监督管理工作。国务院电信、公安、市场监管等有关部门依据各自职责负责算法推荐服务监督管理工作。
地方网信部门负责统筹协调本行政区域内的算法推荐服务治理和相关监督管理工作。地方电信、公安、市场监管等有关部门依据各自职责负责本行政区域内的算法推荐服务监督管理工作。第四条提供算法推荐服务,应当遵守法律法规,尊重社会公德和伦理,遵守商业道德和职业道德,遵循公正公平、公开透明、科学合理和诚实信用的原则。第五条鼓励相关行业组织加强行业自律,建立健全行业标准、行业准则和自律管理制度,督促指导算法推荐服务提供者制定完善服务规范、依法提供服务并接受社会监督。第二章信息服务规范第六条算法推荐服务提供者应当坚持主流价值导向,优化算法推荐服务机制,积极传播正能量,促进算法应用向上向善。
算法推荐服务提供者不得利用算法推荐服务从事危害国家安全和社会公共利益、扰乱经济秩序和社会秩序、侵犯他人合法权益等法律、行政法规禁止的活动,不得利用算法推荐服务传播法律、行政法规禁止的信息,应当采取措施防范和抵制传播不良信息。第七条算法推荐服务提供者应当落实算法安全主体责任,建立健全算法机制机理审核、科技伦理审查、用户注册、信息发布审核、数据安全和个人信息保护、反电信网络诈骗、安全评估监测、安全事件应急处置等管理制度和技术措施,制定并公开算法推荐服务相关规则,配备与算法推荐服务规模相适应的专业人员和技术支撑。第八条算法推荐服务提供者应当定期审核、评估、验证算法机制机理、模型、数据和应用结果等,不得设置诱导用户沉迷、过度消费等违反法律法规或者违背伦理道德的算法模型。第九条算法推荐服务提供者应当加强信息安全管理,建立健全用于识别违法和不良信息的特征库,完善入库标准、规则和程序。发现未作显着标识的算法生成合成信息的,应当作出显着标识后,方可继续传输。
发现违法信息的,应当立即停止传输,采取消除等处置措施,防止信息扩散,保存有关记录,并向网信部门和有关部门报告。发现不良信息的,应当按照网络信息内容生态治理有关规定予以处置。第十条算法推荐服务提供者应当加强用户模型和用户标签管理,完善记入用户模型的兴趣点规则和用户标签管理规则,不得将违法和不良信息关键词记入用户兴趣点或者作为用户标签并据以推送信息。第十一条算法推荐服务提供者应当加强算法推荐服务版面页面生态管理,建立完善人工干预和用户自主选择机制,在首页首屏、热搜、精选、榜单类、弹窗等重点环节积极呈现符合主流价值导向的信息。第十二条鼓励算法推荐服务提供者综合运用内容去重、打散干预等策略,并优化检索、排序、选择、推送、展示等规则的透明度和可解释性,避免对用户产生不良影响,预防和减少争议纠纷。第十三条算法推荐服务提供者提供互联网新闻信息服务的,应当依法取得互联网新闻信息服务许可,规范开展互联网新闻信息采编发布服务、转载服务和传播平台服务,不得生成合成虚假新闻信息,不得传播非国家规定范围内的单位发布的新闻信息。第十四条算法推荐服务提供者不得利用算法虚假注册账号、非法交易账号、操纵用户账号或者虚假点赞、评论、转发,不得利用算法屏蔽信息、过度推荐、操纵榜单或者检索结果排序、控制热搜或者精选等干预信息呈现,实施影响网络舆论或者规避监督管理行为。
9. 如何做好“推荐算法”有哪些常见的错误需要避免
在这里share一下。
1、推荐算法的构成
一套标准的推荐算法,需要四个组成部分
第一:数据源,行为基础数据的筛选;通常,推荐算法来源于用户行为的采集,简单说就是行为数据越丰富,样本覆盖率越全面,结果越准确;如果采样有偏差,那么结果就会有偏差。
举例1:游戏推荐算法,我们之前限于采样技术水平和处理能力,用的是登陆用户玩过的游戏历史,那么推荐结果就会偏重于需要登陆的游戏。而随着技术提升用全部用户玩过的游戏历史,就更全面了。
举例2:在搜索引擎中,对关键词做推荐,有两种方案,一种是基于广告主的竞价记录;另一种是基于网民的搜索行为;前一种专业性更强,噪音小;后一种覆盖面广,噪音大,各有利弊,根据业务诉求选择。
推荐算法,通常来源于用户的行为记录,比如关键词推荐用用户搜索历史,电商推荐用用户购物历史,游戏推荐用玩家玩游戏的历史,然后基于算法给出相关度,再排序展示 ;但这不绝对,也有并非基于用户行为记录的推荐原理,比如基于用户身份特征或其他地区、网络环境等特征,限于篇幅和常见的业务诉求,这里就不展开说明了。
行为基础数据必要时要做一些去除噪音的工作,比如你通过日志分析玩家游戏历史,或用户购物历史,至少知道把各搜索引擎和工具的抓取痕迹过滤出去,否则结果是很难看的。
算法很多种,网上可以搜到很多,就算搜不到,或者搜到了看不懂,自己编也不难的(我就编过,效果自以为还不错,但是的确不如人家专业的算法效果好,所以适合练手,不适合出去吹牛)
不同算法差异还是蛮大的,需要理解一下业务诉求和目标特征来选择。这个我真心不是高手,我们同事讲的算法我都没能理解,就不多说了。微博上的“张栋_机器学习"和"梁斌penny"都是算法高手,大家可以多关心他们的微博。
第三:参数!
绝对不要认为用到了好的算法就可以了!算法往往会基于一些参数来调优,这些参数哪里来?很不好意思的告诉你,大部分是拍脑袋出来的。但是你拍脑袋出来后,要知道去分析结果,去看哪里对,哪里错,哪里可以改,好的算法可以自动调优,机器学习,不断自动调整参数达到最优,但是通常可能需要你不断手工去看,去看badcase,想想是什么参数因素导致的,改一下是否变好?是否引入新的bad case?
第四:校验!
校验一种是人工做盲测,A算法,B算法的结果混淆,选案例集,看哪个效果好;或A参数、B参数混淆,同理测试。通过盲测选择认为更合理的算法、更适宜的参数.
以上是个人认为,做好推荐算法的步骤
下面说一下常见问题
1、以为有了算法就ok了,不对参数优化,不做后续的校验和数据跟踪,效果不好就说算法有问题,这种基本属于工作态度的问题了。
2、对样本数据的筛选有问题,或缺乏必要的噪音筛查,导致结果噪音多。比如你有个推广位天天摆着,导致用户点击多,然后导致后台行为数据里它和谁的关联都高,然后不管用户到哪里都推荐这个玩意,这就是没有足够筛查。
3、热度影响
我说一下最简单的推荐算法
同时选择了A和B的人数作为A与B的关联度。
这个实现最简单,也最容易理解,但是很容易受热度影响
我曾经注意过某个热门图书电商网站,推荐的关联书籍一水的热门书籍,就是这个问题。
这些是非常简单但是又非常容易出现的,关联误区。
4、过于求全
现在也遇到一些朋友,一提到推荐算法或者推荐系统,就说我这个要考虑,那个要考虑,不管是行为记录,还是用户特征,以至于各种节日效应,等等等等,想通过一个推荐系统完全搞定,目标很大,所以动作就极慢,构思洋洋洒洒做了很多,实现起来无从下手,或者难以寸进;我觉得,还是量力而行,从最容易下手的地方开始,先做到比没有强,然后根据不断地数据校验跟踪,逐渐加入其他考虑因素,步步前进,而不要一上来就定一个宏伟的庞大的目标;此外要考虑实现成本和开发周期,对于大部分技术实力没有网络,腾讯,淘宝那么强的公司而言,先把简单的东西搞好,已经足够有效了,然后在运营数据的基础上逐次推进,会越来越好;有些公司是被自己宏大的目标搞的焦头烂额,最后说,哎,没牛人搞不定啊。嗯,反正他们的目标,我显着是搞不定的。就这些,希望有所帮助
10. 算法推荐服务是什么
算法推荐服务是:在本质上,算法是“以数学方式或者计算机代码表达的意见”。其中,推荐系统服务就是一个信息过滤系统,帮助用户减少因浏览大量无效数据而造成的时间、精力浪费。
并且在早期的研究提出了通过信息检索和过滤的方式来解决这个问题。到了上世纪90年代中期,研究者开始通过预测用户对推荐的物品、内容或服务的评分,试图解决信息过载问题。推荐系统由此也作为独立研究领域出现了。
用算法推荐技术是指:应用算法推荐技术,是指利用生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术向用户提供信息。
基于内容的推荐方法:根据项的相关信息(描述信息、标签等)、用户相关信息及用户对项的操作行为(评论、收藏、点赞、观看、浏览、点击等),来构建推荐算法模型。
是否推荐算法服务会导致信息窄化的问题:
推荐技术并不是单纯地“投其所好”。在一些专家看来,在推荐已知的用户感兴趣内容基础上,如果能深入激发、满足用户的潜在需求,那么算法就能更好地满足人对信息的多维度诉求。
在外界的印象里,个性化推荐就像漏斗一样,会将推荐内容与用户相匹配,倾向于向用户推荐高度符合其偏好的内容,致使推荐的内容越来越窄化。
但与外界的固有认知相反,《报告》认为在行业实践中,互联网应用(特别是位于头部的大型平台)有追求算法多样性的内在动力。
在对行业内代表性应用的数据分析后,《报告》发现,阅读内容的类型数量是否够多、所阅读内容类型的分散程度是否够高,与用户是否能长期留存关联密切,呈正相关。上述两项指标对用户长期留存的作用,可以与信息的展现总量、用户的停留时长、用户阅读量等指标的影响相媲美。