导航:首页 > 源码编译 > 用户增长算法模型

用户增长算法模型

发布时间:2022-06-28 13:17:47

‘壹’ 数据挖掘

数据挖掘的营销应用(57,客户成长模型的营销应用)
我的评价:感觉这个客户成长模型的思路很好,我们要找到目标客户,我们要找到高成长性的目标客户!具体而言,第一步是简单的分析销售额,找到消费额呈上升趋势的客户,并简单分析,或者直接与其沟通,了解他们的特点和自身优势等;第二步是参照其他有商业价值的参数,例如年龄、性别、收入、行业,对电商来说浏览路径、接入关键词等,来从你的小客户中(例如界定为消费额小于××的客户),来识别未来会是消费额上升的客户,不一定非要用工具去挖掘,实在不行拿眼睛去看,excel去排序,然后跟客户聊,来验证自己的想法,同样可能会有不错的收获。这是我个人推测的,欢迎真正的实战经营来拍砖。

来源:http://shzxqdj.blog.163.com/blog/static/816705772009112092211776/

原文:

本案例翻译并整理自Susan Chiu and Domingo Tavella 合着的《Data Mining and Market Intelligence for Optimal Marketing Returns》。本案例更多的是从公司战略的角度看待数据挖掘的应用,开发新产品、评价成长性客户群体,积极利用成长性客户的特点提升公司的效益也让客户得到更多的合适的产品和服务。所以,不仅数据挖掘者可以从中借鉴挖掘技巧,企业的高管和营销专家更是可以从中开阔思路,提升眼界,增长见识,增添智慧。“光说不练是骗子,光练不说是傻子”,闲话少说,现在开讲,呵呵。

各行各业都是可以利用客户成长模型来提升现存客户的消费价值的。客户成长模型主要用来预测特定客户在一定时间段里显着提高其消费水平的可能性的数据挖掘模型。在实践中,大多数公司都是更加关注于那些具有显着消费上升潜力的客户,而不仅仅局限在关注客户当下的消费毛利。客户成长模型利用客户的消费历史数据,目标变量是客户在特定时间段里消费变化的高低(二元变量,当客户在指定时间段里消费价值上升超过事先确定的一个比例,目标变量为1;当客户在指定时间段里消费价值上升并没有超过事先的这个比例,目标变量为0),这个比例的确定因不同公司情况而有差别。

本案例要分享的是Safe Net保险公司利用逻辑回归算法来进行的客户成长模型搭建和投入应用的具体做法。Safe Net保险公司计划推出一种新的组合套餐产品,使得保险客户可以将几种不同的保险产品(健康险、汽车险、人寿险、意外险、房屋险)捆绑在一起,并采取固定的费率。这种新的产品将有效降低Safe Net保险公司的运营成本、提高公司由于交叉销售带来的收入的提升、同时也给保险客户带来明显的利益(因为他们由此可以更容易的打理他们的产品、并且享受很多折扣优惠)。为了尽量提高该新产品的营销效率,Safe Net保险公司决定利用客户成长模型帮助锁定那些最有可能增长保险消费的客户群体。

对于目标变量的定义是这样的,在过去三年里,如果一个客户的保险消费上升了5%以上,这个客户就是上升客户(二元目标变量中,取值为1;否则,取值为0)。公司随机抽取了95953个保险客户,其中70%(66915)用于模型的训练集,剩下的30%用于模型的验证集。下列变量作为模型的输入变量(家庭年收入、居住的州、职业、家庭成员的数量、投保者的年纪),通过逻辑回归模型的搭建和完善,下列有价值的线索引起了公司管理层的注意,并直接作用于该新产品的营销推广中。

第一, 从地理分布上看,居住在FL, DC, CA这些州的客户相比其他州的客户而言更加有可能提升他们的保险消费;

第二, 在服装、制造、建筑等行业工作的客户比其他行业的客户更加有可能提升他们的保险消费;

第三, 35-44岁年龄组的客户相比其他年龄组的客户更加有可能提升他们的保险消费;利用逻辑回归技术搭建的客户成长模型让Safe Net保险公司可以方便地评估公司的每个潜在目标受众,挑选出最有可能提升消费的那些客户群体,并针对这些客户进行精准的定向营销活动。

‘贰’ 增长率的计算公式是什么

1、增长率=(本期营业额-上期营业额/上期营业额)X100%=10%


2、人口增长率人口自然增长率指一定时期内人口自然增长数(出生人数减死亡人数)与该时期内平均人口数之比,通常以年为单位计算,用千分比来表示,计算公式为:
人口自然增长率=(年内出生人数-年内死亡人数)/年平均人口数×100%=人口出生率-人口死亡率

3、经济增长率经济增长率是末期国民生产总值与基期国民生产总值的比较 以末期现行价格计算末期GNP,得出的增长率是名义经济增长率。
以不变价格(即基期价格)计算末期GNP,得出的增长率是实际经济增长率。
在量度经济增长时,一般都采用实际经济增长率
经济增长率也称经济增长速度,它是反映一定时期经济发展水平变化程度的动态指标,也是反映一个国家经济是否具有活力的基本指标。


增长率的计算公式:n年数据的增长率=[(本期/前n年)^(1/(n-1))-1]×100%

同比增长率=(当年的指标值-去年同期的值)÷去年同期的值*100%

环比增长率=(本期的某个指标的值-上一期这个指标的值)/上一期这个指标的值


增长率的基本类型:

增长率是指一定时期内某一数据指标的增长量与基期数据的比值。

同比增长率,一般是指和去年同期相比较的增长率。同比增长和上一时期、上一年度或历史相比的增长(幅度)。发展速度由于采用基期的不同,可分为同比发展速度、环比发展速度和定基发展速度。均用百分数或倍数表示。

环比增长率,一般是指和上期相比较的增长率。

定基增长率:如果观察的是若干个时期的数据,每个时期的数据均与同一个基期数据进行对比,则这种比较方法,称为定基比较。例如,将某一时期1970年、1980年、1990年和2000年的GNP数值与1949年进行比较,所获得的4个比例,称为定基增长率。

‘叁’ smallwood算法

smallwood算法
凯特琳·斯莫尔伍德(Caitlin Smallwood)是Netlix科学与算法副总裁,Netlix是一家按需互联网媒体提供商,提供电视节目和电影流媒体服务。
Netlix在40多个国家拥有超过100万的用户,并且正在迅速扩张,用户可以在任何时间、任何地点、几乎任何与互联网连接的屏幕上观看他们想看的任何内容,而不需要广告或承诺。
Netlix站在互联网电视的最前沿,并开始开发和制作自己的节目,进一步巩固了其领导地位。随着可用和消费的内容数量快速增长(目前每月有超过10亿小时的电视节目和电影在流媒体上播放),有效个性化推荐和确保即时内容交付所需的预测引擎和数据基础设施变得越来越复杂。
为了应对Netlix的这些挑战,斯莫尔伍德利用她在实验、分析和推荐方面的广泛技术专长,这些都是她在20多年互联网数据产品经验中积累的。她之前还在Netlix担任过多个职位,最近担任消费者科学与分析总监,并在普华永道(PwC)担任分析顾问。她拥有斯坦福大学运筹学硕士学位和威廉玛丽学院数学学士学位。
斯莫尔伍德的职业生涯跨越了大数据、分析、实验和建议的发展历程,从互联网的萌芽阶段,一直到我们今天生活的这个不断互联、数据丰富的世界。当她分享她对互联网出现之前的分析的想法,以及她在雅虎第一次遇到海量数据时的兴奋之情时,她非凡的视角就显现出来了。以及她在Netlix的第一组数据集,以及她对数据中心组织中文化和团队的重要性的看法。斯莫尔伍德的采访充满智慧、经验和领导力。

‘肆’ 阿里巴巴的客户是哪些群体

商户和网购经验的购买者。

阿里巴巴一直在面向未来探索B类新电商模式,并从2019年开始重点构建“新供给、新链接、新营销”三新体系。买家是三新体系的核心,缺少买家维度的数字化经营体系是不完整的。

平台场景目标群体及场景间买家差异性尚不明确,客群矩阵就是为场景中控解决这一业务痛点、提高场货分发效能而专门设置的算法研究主题。

同时,客群矩阵也是用户增长和算法特征的核心数据。鉴于客群矩阵如此重要且拥有诸多应用,其构建迫在眉睫。

阿里巴巴意在将客群矩阵打造成平台的一个风向标,以便业务有目标、有层次、有差异、高效地选品和进行场景运营及商家运营,为用户增长和算法模型优化提供动力,为数字化运营提供依据。我们主要围绕人、货、场、商4个维度构建。

‘伍’ 数据分析需要掌握哪些知识

数据分析定义

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。是有组织有目的地收集数据、分析数据,使之成为信息的过程。

数据分析分类

数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。

数据分析常用方法

1、PEST分析:

是利用环境扫描分析总体环境中的政治(Political)、经济(Economic)、社会(Social)与科技(Technological)等四种因素的一种模型。这也是在作市场研究时,外部分析的一部分,能给予公司一个针对总体环境中不同因素的概述。这个策略工具也能有效的了解市场的成长或衰退、企业所处的情况、潜力与营运方向。一般用于宏观分析。

2、SWOT分析:

又称优劣分析法或道斯矩阵,是一种企业竞争态势分析方法,是市场营销的基础分析方法之一,通过评价自身的优势(Strengths)、劣势(Weaknesses)、外部竞争上的机会(Opportunities)和威胁(Threats),用以在制定发展战略前对自身进行深入全面的分析以及竞争优势的定位。而此方法是Albert Humphrey所提。

3、5W2H分析:

用五个以W开头的英语单词和两个以H开头的英语单词进行设问,发现解决问题的线索,寻找发明思路,进行设计构思,从而搞出新的发明项目具体:

(1)WHAT——是什么?目的是什么?做什么工作?

(2)WHY——为什么要做?可不可以不做?有没有替代方案?

(3)WHO——谁?由谁来做?

(4)WHEN——何时?什么时间做?什么时机最适宜?

(5)WHERE——何处?在哪里做?

(6)HOW ——怎么做?如何提高效率?如何实施?方法是什么?

(7)HOW MUCH——多少?做到什么程度?数量如何?质量水平如何?费用产出如何?

4、7C罗盘模型:

7C模型包括

(C1)企业很重要。也就是说,Competitor:竞争对手,Organization:执行市场营销或是经营管理的组织,Stakeholder:利益相关者也应该被考虑进来。

(C2)商品在拉丁语中是共同方便共同幸福的意思,是从消费者的角度考虑问题。这也和从消费者开始考虑问题的整合营销传播是一致的,能体现出与消费者相互作用进而开发出值得信赖的商品或服务的一种哲学。经过完整步骤创造出的商品可以称之为商品化。

(C3)成本不仅有价格的意思,还有生产成本、销售成本、社会成本等很多方面。

(C4)流通渠道表达商品在流动的含义。创造出一个进货商、制造商、物流和消费者共生的商业模式。作为流通渠道来说,网络销售也能算在内。

(C5)交流

(C6)消费者

N = 需求(Needs):生活必需品,像水、衣服、鞋。
W = 想法(Wants):想得到的东西,像运动饮料、旅游鞋。
S = 安全(Security):安全性,像核电、车、食品等物品的安全。
E = 教育(Ecation):对消费者进行教育,为了能够让消费者也和企业一样对商品非常了解,企业应该提供给消费者相应的知识信息。
(C7)环境

N = 国内和国际:国内的政治、法律和伦理环境及国际环境,国际关系。
W = 天气:气象、自然环境,重大灾害时经营环境会放生变化,适应自然的经营活动是必要的。像便利店或是部分超市就正在实行。
S = 社会和文化:网络时代的社会、福利及文化环境理所当然应该成为考虑因素。
E = 经济:经济环境是对经营影响最大的,以此理所当然应该成为考虑因素。7C罗盘模型是一个合作市场营销的工具。
5、海盗指标法AARRR:是互联网常用的“用户增长模型”,黑客增长模型:

Acquisition:获取用户
Activation:提高活跃度
Retention:提高留存率
Revenue:获取收入
Refer:自传播

数据分析常用工具

日常数据分析用的最多的还是办公软件尤其excel、word、ppt,数据存储处理可能用到一些数据库结合access用,另外目前一般公司小型关系数据库用mysql的还是比较多免费、轻量级,还有较多的也在用pg。

其次分析师是用一些专业的分析软件spss,sas,自助分析用的BI软件平台如:finebi、tableau等。

finebi

其实想强调的是分析师40%-60%的时间可能会花在数据的获取、处理和准备上,所以最好能会点sql,个人觉得对于分析师与其去了解数据库,不如好好去学下sql,因为sql是标准化的数据查询语言,所有的关系型数据库包括一些开源的数据库甚至各公司内部的数据平台都对它有良好的支持。最后对于第三方的一些数据收集或者一些跨平台的数据处理,包括一些分析可以用finebi。

数据分析流程

有了 这些基础的理论和分析方法后,接下来具体的分析流程可参考:

1.提出问题(需求) 2.结论/假设 3.数据准备 4.数据分析 5.报告生成 结论验证。

我们按照如上的分析步骤来个示例:

XX产品首销,哪些用户最有可能来购买?应该给哪些用户进行营销?

第一步首先是提出了问题,有了需求。

第二步分析问题,提出方案,这一步非常重要,正如上面提到的第二三类的数据分析本身就是一个假设检验的过程,如果这一步不能很好的假设,后续的检验也就无从谈起。主要需要思考下从哪些方面来分析这个问题。

可以从三个方面:(PS:这里对于一些常规的属性比如:性别、年龄、地区分布了这些基本,老大早已心中有数,就不再看了)

1.曾经购买过跟XX产品相似产品的用户,且当前使用机型是XX产品上一或几代产品,有换机意愿需求的。

2.用户的关注程度用户是否浏览了新品产品站,是否搜索过新品相关的信息,是否参加了新品的活动。

3.用户的消费能力历史消费金额、历史购机数量、本年度购机金额、本年度购机数量、最近一次购机时间及金额等。

第三步准备数据:

创建分析表,搜集数据 这一步基本是最花时间的,这时候就是考量你的数据平台、数据仓库的时候了,仓库集成的好,平台易用的话时间应该不用太长。

第四步数据分析:笔者是把数据导入到finebi进行分析的,也可以用python,其实用excel也非常好,只是笔者对excel的有些处理不是很擅长。

第五步就是图表呈现,报告的表达了,最后我们验证得到的一个结论就是:购买过同类产品,关注度越高,复购周期越近的用户越最容易再次复购。

注:想要获取33个好用数据分析工具,可以私聊回复我“工具”获得!

‘陆’ 统计模型和大数据模型所使用的主要算法有什么异同

以每24小时作为一份时间(而非自然日),根据用户的配置有两种工作模式:带状模式中,用户仅定义开始日期时,从开始日期(含)开始,每份时间1个分片地无限增加下去;环状模式中,用户定义了开始日期和结束日期时,以结束日期(含)和开始日期(含)之间的时间份数作为分片总数(分片数量固定),以类似取模的方式路由到这些分片里。

1. DBLE 启动时,读取用户在 rule.xml 配置的 sBeginDate 来确定起始时间
2. 读取用户在 rule.xml 配置的 sPartionDay 来确定每个 MySQL 分片承载多少天内的数据
3. 读取用户在 rule.xml 配置的 dateFormat 来确定分片索引的日期格式
4. 在 DBLE 的运行过程中,用户访问使用这个算法的表时,WHERE 子句中的分片索引值(字符串),会被提取出来尝试转换成 java 内部的时间类型
5. 然后求分片索引值与起始时间的差,除以 MySQL 分片承载的天数,确定所属分片

1. DBLE 启动时,读取用户在 rule.xml 配置的起始时间 sBeginDate、终止时间 sEndDate 和每个 MySQL 分片承载多少天数据 sPartionDay
2. 根据用户设置,建立起以 sBeginDate 开始,每 sPartionDay 天一个分片,直到 sEndDate 为止的一个环,把分片串联串联起来
3. 读取用户在 rule.xml 配置的 defaultNode
4. 在 DBLE 的运行过程中,用户访问使用这个算法的表时,WHERE 子句中的分片索引值(字符串),会被提取出来尝试转换成 Java 内部的日期类型
5. 然后求分片索引值与起始日期的差:如果分片索引值不早于 sBeginDate(哪怕晚于 sEndDate),就以 MySQL 分片承载的天数为模数,对分片索引值求模得到所属分片;如果分片索引值早于 sBeginDate,就会被放到 defaultNode 分片上

与MyCat的类似分片算法对比

中间件
DBLE
MyCat

分片算法种类 date 分区算法 按日期(天)分片
两种中间件的取模范围分片算法使用上无差别

开发注意点
【分片索引】1. 必须是字符串,而且 java.text.SimpleDateFormat 能基于用户指定的 dateFormat 来转换成 java.util.Date
【分片索引】2. 提供带状模式和环状模式两种模式
【分片索引】3. 带状模式以 sBeginDate(含)起,以 86400000 毫秒(24 小时整)为一份,每 sPartionDay 份为一个分片,理论上分片数量可以无限增长,但是出现 sBeginDate 之前的数据而且没有设定 defaultNode 的话,会路由失败(如果有 defaultNode,则路由至 defaultNode)
【分片索引】4. 环状模式以 86400000 毫秒(24 小时整)为一份,每 sPartionDay 份为一个分片,以 sBeginDate(含)到 sEndDate(含)的时间长度除以单个分片长度得到恒定的分片数量,但是出现 sBeginDate 之前的数据而且没有设定 defaultNode 的话,会路由失败(如果有 defaultNode,则路由至 defaultNode)
【分片索引】5. 无论哪种模式,分片索引字段的格式化字符串 dateFormat 由用户指定
【分片索引】6. 无论哪种模式,划分不是以日历时间为准,无法对应自然月和自然年,且会受闰秒问题影响

运维注意点
【扩容】1. 带状模式中,随着 sBeginDate 之后的数据出现,分片数量的增加无需再平衡
【扩容】2. 带状模式没有自动增添分片的能力,需要运维手工提前增加分片;如果路由策略计算出的分片并不存在时,会导致失败
【扩容】3. 环状模式中,如果新旧 [sBeginDate,sEndDate] 之间有重叠,需要进行部分数据迁移;如果新旧 [sBeginDate,sEndDate] 之间没有重叠,需要数据再平衡

配置注意点
【配置项】1. 在 rule.xml 中,可配置项为 <propertyname="sBeginDate"> 、 <propertyname="sPartionDay"> 、 <propertyname="dateFormat"> 、 <propertyname="sEndDate"> 和 <propertyname="defaultNode">
【配置项】2.在 rule.xml 中配置 <propertyname="dateFormat">,符合 java.text.SimpleDateFormat 规范的字符串,用于告知 DBLE 如何解析sBeginDate和sEndDate

【配置项】3.在 rule.xml 中配置 <propertyname="sBeginDate">,必须是符合 dateFormat 的日期字符串

【配置项】4.在 rule.xml 中配置 <propertyname="sEndDate">,必须是符合 dateFormat 的日期字符串;配置了该项使用的是环状模式,若没有配置该项则使用的是带状模式

【配置项】5.在 rule.xml 中配置 <propertyname="sPartionDay">,非负整数,该分片策略以 86400000 毫秒(24 小时整)作为一份,而 sPartionDay 告诉 DBLE 把每多少份放在同一个分片

【配置项】6.在 rule.xml 中配置 <propertyname="defaultNode"> 标签,非必须配置项,不配置该项的话,用户的分片索引值没落在 mapFile 定义

‘柒’ 阿里巴巴客群一般分为哪些种类

第一类 有钱任性型,第二类型,天上掉馅饼型,第三类型 持之以恒型,第四种 聪明勤奋型
阿里巴巴一直在面向未来探索B类新电商模式,并从2019年开始重点构建“新供给、新链接、新营销”三新体系。买家是三新体系的核心,缺少买家维度的数字化经营体系是不完整的。
平台场景目标群体及场景间买家差异性尚不明确,客群矩阵就是为场景中控解决这一业务痛点、提高场货分发效能而专门设置的算法研究主题。

同时,客群矩阵也是用户增长和算法特征的核心数据。鉴于客群矩阵如此重要且拥有诸多应用,其构建迫在眉睫。
阿里巴巴意在将客群矩阵打造成平台的一个风向标,以便业务有目标、有层次、有差异、高效地选品和进行场景运营及商家运营,为用户增长和算法模型优化提供动力,为数字化运营提供依据。我们主要围绕人、货、场、商4个维度构建。

‘捌’ 国内火热的运营岗位,为什么在美国却没有

从美国硅谷一家着名网络公司回国的一位朋友,在硅谷担任产品经理,通过增加两个工作岗位的朋友的介绍来找我。他想找我的原因也很有趣。——他回到国内后发现到处都能听到人们谈论“运营”,但美国互联网基本上没有“运营”这样明确的工作岗位,所以很困惑,想找我沟通,到底什么是运营?说起来真有趣美国是互联网的发源地。自互联网以来,中国互联网的很多东西都不是模仿美国互联网,从商业模式到产品形态。

与国内将这一部分,归类为“运营”工作岗位相比,美国互联网公司的做法截然不同。一般来说,新排水转换在美国大部分是通过销售或广告投放来完成的。这两部分工作往往由一家公司内的销售部门或营销部门承担。用户维护和管理工作通常由用户经验部门负责,一些科技背景丰富的公司经常引进数据科学家和增长黑客,通过明确的算法和模型,通过数据和技术手段系统地实现用户增长。

阅读全文

与用户增长算法模型相关的资料

热点内容
php七牛视频上传 浏览:11
php五星 浏览:309
使用api访问外部文件夹 浏览:218
自来水加密阀能控制水量吗 浏览:348
移动花卡定向app怎么订 浏览:427
php调用txt 浏览:258
西安软件公司程序员鼓励师 浏览:133
预制桩的加密区怎么区分 浏览:84
ea安装游戏选择文件夹 浏览:870
linuxapache负载均衡配置 浏览:649
pac文件编译软件 浏览:711
基于51单片机的电子时钟设计 浏览:846
手机屏幕解压的小游戏 浏览:749
gcc编译手册pdf 浏览:589
梁箍筋未标注加密区 浏览:629
自家网络连不上上面显示加密 浏览:388
编译后无法运行图片 浏览:595
linux系统修改文件命令 浏览:704
iphone如何安装中国石化app 浏览:179
app怎么写简历 浏览:681