基于关联规则的推荐算法的优缺点_3分钟轻松了解个性化推荐算法

① 谁有金融数据挖掘，关联规则分析与挖掘的一些介绍啊

雨林算法的数据结构：
AVC-set:节点n包含的所有纪录在某个属性上的投影，其中该AVC-set包括了属性的不同值在每个类别上的计数。
AVC-group:一个节点n上所有的AVC -set的集合
AVC-set的所占内存的大小正比于对应属性的不同值个数，AVC-group并不是数据库信息的简单的压缩，它只是提供了建立决策树需要的信息， AVC-group所占用的内存空间远远小于数据库所实际占用的空间。
一般设计方案：
AVC_set
{
//存储属性的各个值
DistinctValue[]
//存储属性各个值在某个类上对应的计数
DistinctValueCountForClassA[]
DistinctValueCountForClassB[]
… …
}
AVC_group
{
//节点n中的每个属性的avc_set
AVC_set[]
}
自顶向下决策树算法
BuildTree(Node m,datapatition D,algorithm decisionTree)
对D使用决策树算法decisionTree得到分裂指标crit(n)
令k为节点n的子节点个数
if(k>0)
建立n的k个子节点c1,…,ck
使用最佳分割将D分裂为D1,…,Dk
for(i=1;i<=k;i++)
BuildTree(ci,Di)
endfor
endif
RainForest 算法框架重新定义的部分：
1a) for 每一个属性的谓词p,寻找最佳的分割
1b) decisionTree.find_best_partitioning(AVC-set of p)
1c) endfor
2a) k= decisionTree.decide_splitting_criterion();//决定最终的分割

雨林算法的常规过程：
建立节点的AVC-group
(通过读取整个原始数据库或者某个分支的数据库表或文件)
选择分裂属性和分裂标准：取决于使用雨林算法框架的具体算法，通过逐一检查AVC-set来选择。
将数据分解到各个子节点：必须读取整个数据集(数据库或文件)，将各条数据分解到各个子节点中，此时如果有足够的内存，我们将建立一个或多个子节点的AVC-group

参考资料：李岱 rainforest.ppt 什么是数据挖掘
数据挖掘(Data Mining)，又称为数据库中的知识发现(Knowledge Discovery in Database, KDD)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程，简单的说，数据挖掘就是从大量数据中提取或“挖掘”知识。
并非所有的信息发现任务都被视为数据挖掘。例如，使用数据库管理系统查找个别的记录，或通过因特网的搜索引擎查找特定的Web页面，则是信息检索（information retrieval）领域的任务。虽然这些任务是重要的，可能涉及使用复杂的算法和数据结构，但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构，从而有效地组织和检索信息。尽管如此，数据挖掘技术也已用来增强信息检索系统的能力。
编辑本段数据挖掘的起源
为迎接前一节中的这些挑战，来自不同学科的研究者汇集到一起，开始着手开发可以处理不同数据类型的更有效的、可伸缩的工具。这些工作建立在研究者先前使用的方法学和算法之上，在数据挖掘领域达到高潮。特别地是，数据挖掘利用了来自如下一些领域的思想：(1) 来自统计学的抽样、估计和假设检验，(2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想，这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。
一些其他领域也起到重要的支撑作用。特别地，需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能（并行）计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据，并且当数据不能集中到一起处理时更是至关重要。
编辑本段数据挖掘能做什么

1)数据挖掘能做以下六种不同事情（分析方法）：
· 分类（Classification）
· 估值（Estimation）
· 预言（Prediction）
· 相关性分组或关联规则（Affinity grouping or association rules）
· 聚集（Clustering）
· 描述和可视化（Des cription and Visualization）
· 复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)
2)数据挖掘分类
以上六种数据挖掘的分析方法可以分为两类：直接数据挖掘；间接数据挖掘
· 直接数据挖掘
目标是利用可用的数据建立一个模型，这个模型对剩余的数据，对一个特定的变量（可以理解成数据库中表的属性，即列）进行描述。
· 间接数据挖掘
目标中没有选出某一具体的变量，用模型进行描述；而是在所有的变量中建立起某种关系。
· 分类、估值、预言属于直接数据挖掘；后三种属于间接数据挖掘
3)各种分析方法的简介
· 分类（Classification）
首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘分类的技术，建立分类模型，对于没有分类的数据进行分类。
例子：
a. 信用卡申请者，分类为低、中、高风险
b. 分配客户到预先定义的客户分片
注意：类的个数是确定的，预先定义好的
· 估值（Estimation）
估值与分类类似，不同之处在于，分类描述的是离散型变量的输出，而估值处理连续值的输出；分类的类别是确定数目的，估值的量是不确定的。
例子：
a. 根据购买模式，估计一个家庭的孩子个数
b. 根据购买模式，估计一个家庭的收入
c. 估计real estate的价值
一般来说，估值可以作为分类的前一步工作。给定一些输入数据，通过估值，得到未知的连续变量的值，然后，根据预先设定的阈值，进行分类。例如：银行对家庭贷款业务，运用估值，给各个客户记分（Score 0~1）。然后，根据阈值，将贷款级别分类。
· 预言（Prediction）
通常，预言是通过分类或估值起作用的，也就是说，通过分类或估值得出模型，该模型用于对未知变量的预言。从这种意义上说，预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测，这种预测是需要时间来验证的，即必须经过一定时间后，才知道预言准确性是多少。
· 相关性分组或关联规则（Affinity grouping or association rules）
决定哪些事情将一起发生。
例子：
a. 超市中客户在购买A的同时，经常会购买B，即A => B(关联规则)
b. 客户在购买A后，隔一段时间，会购买B （序列分析）
· 聚集（Clustering）
聚集是对记录分组，把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类，不需要训练集。
例子：
a. 一些特定症状的聚集可能预示了一个特定的疾病
b. 租VCD类型不相似的客户聚集，可能暗示成员属于不同的亚文化群
聚集通常作为数据挖掘的第一步。例如，"哪一种类的促销对客户响应最好？"，对于这一类问题，首先对整个客户做聚集，将客户分组在各自的聚集里，然后对每个不同的聚集，回答问题，可能效果更好。
· 描述和可视化（Des cription and Visualization）
是对数据挖掘结果的表示方式。
编辑本段数据挖掘中的关联规则上面算法讲的很清楚了，我来举个例子：

Training data：
Id age income class
1 young 65 G
2 young 15 B
3 young 75 G
4 senior 40 B
5 senior 100 G
6 senior 60 G

AVC set „age“ for N1：
value class count
young B 1
young G 2
senior B 1
senior G 2

AVC set „income“ for N1：
value class count
15 B 1
40 B 1
60 G 1
65 G 1
75 G 1
100 G 1

AVC set „income“ for N2：
value class count
15 B 1
65 G 1
75 G 1

AVC set „age“ for N2:
value class count
young B 1
young G 2

最后推出雨林： N1
age=young / \ age=senior
/ \
N2 N3

最后提醒一点，对于雨林算法，训练样本集不要大于3百万。否则改用SPRINT。
1.什么是关联规则
在描述有关关联规则的一些细节之前，我们先来看一个有趣的故事： "尿布与啤酒"的故事。
在一家超市里，有一个有趣的现象：尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话，而是发生在美国沃尔玛连锁店超市的真实案例，并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统，为了能够准确了解顾客在其门店的购买习惯，沃尔玛对其顾客的购物行为进行购物篮分析，想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上，沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是："跟尿布一起购买最多的商品竟是啤酒！经过大量实际调查和分析，揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式：在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%～40%的人同时也为自己买一些啤酒。产生这一现象的原因是：美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
按常规思维，尿布与啤酒风马牛不相及，若不是借助数据挖掘技术对大量交易数据进行挖掘分析，沃尔玛是不可能发现数据内在这一有价值的规律的。
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题，以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化，如引入随机采样、并行的思想等，以提高算法挖掘规则的效率；对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。
2.关联规则挖掘过程、分类及其相关算法
2.1关联规则挖掘的过程
关联规则挖掘过程主要包含两个阶段：第一阶段必须先从资料集合中找出所有的高频项目组(Frequent Itemsets)，第二阶段再由这些高频项目组中产生关联规则(Association Rules)。
关联规则挖掘的第一阶段必须从原始资料集合中，找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言，必须达到某一水平。一项目组出现的频率称为支持度(Support)，以一个包含A与B两个项目的2-itemset为例，我们可以经由公式(1)求得包含{A,B}项目组的支持度，若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时，则{A,B}称为高频项目组。一个满足最小支持度的k-itemset，则称为高频k-项目组(Frequent k-itemset)，一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1，直到无法再找到更长的高频项目组为止。
关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则，是利用前一步骤的高频k-项目组来产生规则，在最小信赖度(Minimum Confidence)的条件门槛下，若一规则所求得的信赖度满足最小信赖度，称此规则为关联规则。例如：经由高频k-项目组{A,B}所产生的规则AB，其信赖度可经由公式(2)求得，若信赖度大于等于最小信赖度，则称AB为关联规则。
就沃尔马案例而言，使用关联规则挖掘技术，对交易资料库中的纪录进行资料挖掘，首先必须要设定最小支持度与最小信赖度两个门槛值，在此假设最小支持度min_support=5% 且最小信赖度min_confidence=70%。因此符合此该超市需求的关联规则将必须同时满足以上两个条件。若经过挖掘过程所找到的关联规则“尿布，啤酒”，满足下列条件，将可接受“尿布，啤酒”的关联规则。用公式可以描述Support(尿布，啤酒)>=5%且Confidence(尿布，啤酒)>=70%。其中，Support(尿布，啤酒)>=5%于此应用范例中的意义为:在所有的交易纪录资料中，至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。Confidence(尿布，啤酒)>=70%于此应用范例中的意义为:在所有包含尿布的交易纪录资料中，至少有70%的交易会同时购买啤酒。因此，今后若有某消费者出现购买尿布的行为，超市将可推荐该消费者同时购买啤酒。这个商品推荐的行为则是根据“尿布，啤酒”关联规则，因为就该超市过去的交易纪录而言，支持了“大部份购买尿布的交易，会同时购买啤酒”的消费行为。
从上面的介绍还可以看出，关联规则挖掘通常比较适用与记录中的指标取离散值的情况。如果原始数据库中的指标值是取连续的数据，则在关联规则挖掘之前应该进行适当的数据离散化（实际上就是将某个区间的值对应于某个值），数据的离散化是数据挖掘前的重要环节，离散化的过程是否合理将直接影响关联规则的挖掘结果。
2.2关联规则的分类
按照不同情况，关联规则可以进行分类如下：
1.基于规则中处理的变量的类别，关联规则可以分为布尔型和数值型。
布尔型关联规则处理的值都是离散的、种类化的，它显示了这些变量之间的关系；而数值型关联规则可以和多维关联或多层关联规则结合起来，对数值型字段进行处理，将其进行动态的分割，或者直接对原始的数据进行处理，当然数值型关联规则中也可以包含种类变量。例如：性别=“女”=>职业=“秘书” ，是布尔型关联规则；性别=“女”=>avg（收入）=2300，涉及的收入是数值类型，所以是一个数值型关联规则。
2.基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。
在单层的关联规则中，所有的变量都没有考虑到现实的数据是具有多个不同的层次的；而在多层的关联规则中，对数据的多层性已经进行了充分的考虑。例如：IBM台式机=>Sony打印机，是一个细节数据上的单层关联规则；台式机=>Sony打印机，是一个较高层次和细节层次之间的多层关联规则。
3.基于规则中涉及到的数据的维数，关联规则可以分为单维的和多维的。
在单维的关联规则中，我们只涉及到数据的一个维，如用户购买的物品；而在多维的关联规则中，要处理的数据将会涉及多个维。换成另一句话，单维关联规则是处理单个属性中的一些关系；多维关联规则是处理各个属性之间的某些关系。例如：啤酒=>尿布，这条规则只涉及到用户的购买的物品；性别=“女”=>职业=“秘书”，这条规则就涉及到两个字段的信息，是两个维上的一条关联规则。
2.3关联规则挖掘的相关算法
1.Apriori算法：使用候选项集找频繁项集
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。
该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递推的方法。
可能产生大量的候选集,以及可能需要重复扫描数据库，是Apriori算法的两大缺点。
2.基于划分的算法
Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块，每次单独考虑一个分块并对它生成所有的频集，然后把产生的频集合并，用来生成所有可能的频集，最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存，每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的，可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后，处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈；而另一方面，每个独立的处理器生成频集的时间也是一个瓶颈。
3.FP-树频集算法
针对Apriori算法的固有缺陷，J. Han等提出了不产生候选挖掘频繁项集的方法：FP-树频集算法。采用分而治之的策略，在经过第一遍扫描之后，把数据库中的频集压缩进一棵频繁模式树（FP-tree），同时依然保留其中的关联信息，随后再将FP-tree分化成一些条件库，每个库和一个长度为1的频集相关，然后再对这些条件库分别进行挖掘。当原始数据量很大的时候，也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明，FP-growth对不同长度的规则都有很好的适应性，同时在效率上较之Apriori算法有巨大的提高。
3.该领域在国内外的应用
3．1关联规则发掘技术在国内外的应用
就目前而言，关联规则挖掘技术已经被广泛应用在西方金融行业企业中，它可以成功预测银行客户需求。一旦获得了这些信息，银行就可以改善自身营销。现在银行天天都在开发新的沟通客户的方法。各银行在自己的ATM机上就捆绑了顾客可能感兴趣的本行产品信息，供使用本行ATM机的用户了解。如果数据库中显示，某个高信用限额的客户更换了地址，这个客户很有可能新近购买了一栋更大的住宅，因此会有可能需要更高信用限额，更高端的新信用卡，或者需要一个住房改善贷款，这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候，数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点，同时也可以显示出顾客会对什么产品感兴趣。
同时，一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则中规则进行挖掘，然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售，也就是购买某种商品的顾客会看到相关的另外一种商品的广告。
但是目前在我国，“数据海量，信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能，却无法发现数据中存在的各种有用的信息，譬如对这些数据进行分析，发现其数据模式及特征，然后可能发现某个客户、消费群体或组织的金融和商业兴趣，并可观察金融市场的变化趋势。可以说，关联规则挖掘的技术在我国的研究与应用并不是很广泛深入。
3．2近年来关联规则发掘技术的一些研究
由于许多应用问题往往比超市购买问题更复杂，大量研究从不同的角度对关联规则做了扩展，将更多的因素集成到关联规则挖掘方法之中，以此丰富关联规则的应用领域，拓宽支持管理决策的范围。如考虑属性之间的类别层次关系，时态关系，多表挖掘等。近年来围绕关联规则的研究主要集中于两个方面，即扩展经典关联规则能够解决问题的范围，改善经典关联规则挖掘算法效率和规则兴趣性。
编辑本段数据挖掘技术实现
在技术上可以根据它的工作过程分为：数据的抽取、数据的存储和管理、数据的展现等关键技术。
·数据的抽取
数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境，它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面，未来的技术发展将集中在系统功能集成化方面，以适应数据仓库本身或数据源的变化，使系统更便于管理和维护。
·数据的存储和管理
数据仓库的组织管理方式决定了它有别于传统数据库的特性，也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多，且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前，许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能，将普通关系数据库改造成适合担当数据仓库的服务器。
·数据的展现
在数据展现方面主要的方式有：
查询：实现预定义查询、动态查询、OLAP查询与决策支持智能查询；报表：产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表；可视化：用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系；统计：进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析；挖掘：利用数据挖掘等方法，从数据中得到关于数据关系和模式的知识。
编辑本段数据挖掘与数据仓库融合发展
数据挖掘和数据仓库的协同工作，一方面，可以迎合和简化数据挖掘过程中的重要步骤，提高数据挖掘的效率和能力，确保数据挖掘中数据来源的广泛性和完整性。另一方面，数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。
数据挖掘和数据仓库是融合与互动发展的，其学术研究价值和应用研究前景将是令人振奋的。它是数据挖掘专家、数据仓库技术人员和行业专家共同努力的成果，更是广大渴望从数据库“奴隶”到数据库“主人”转变的企业最终用户的通途。
统计学与数据挖掘
统计学和数据挖掘有着共同的目标：发现数据中的结构。事实上，由于它们的目标相似，一些人（尤其是统计学家）认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法，尤其是计算机学科，例如数据库技术和机器学习，而且它所关注的某些领域和统计学家所关注的有很大不同。
1．统计学的性质
试图为统计学下一个太宽泛的定义是没有意义的。尽管可能做到，但会引来很多异议。相反，我要关注统计学不同于数据挖掘的特性。
差异之一同上节中最后一段提到的相关，即统计学是一门比较保守的学科，目前有一种趋势是越来越精确。当然，这本身并不是坏事，只有越精确才能避免错误，发现真理。但是如果过度的话则是有害的。这个保守的观点源于统计学是数学的分支这样一个看法，我是不同意这个观点的,尽管统计学确实以数学为基础（正如物理和工程也以数学为基础，但没有被认为是数学的分支），但它同其它学科还有紧密的联系。
数学背景和追求精确加强了这样一个趋势：在采用一个方法之前先要证明，而不是象计算机这

② Arnoldi算法的优缺点

1.优点：适合稀疏数据集。算法原理简单，易实现。适合事务数据库的关联规则挖掘。2.缺点：可能产生庞大的候选集。算法需多次遍历数据集，算法效率低，耗时。
Apriori算法是第一个关联规则挖掘算法，也是最经典的算法。它利用逐层搜索的迭代方法找出数据库中项集的关系，以形成规则，其过程由连接（类矩阵运算）与剪枝（去掉那些没必要的中间结果）组成。该算法中项集的概念即为项的集合。包含K个项的集合为k项集。项集出现的频率是包含项集的事务数，称为项集的频率。如果某项集满足最小支持度，则称它为频繁项集。

③ 最小二乘法、回归分析法、灰色预测法、决策论、神经网络等5个算法的使用范围及优缺点是什么

最小二乘法：通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。优点：实现简单，计算简单。缺点：不能拟合非线性数据.
回归分析法：指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。在大数据分析中，回归分析是一种预测性的建模技术，它研究的是因变量（目标）和自变量（预测器）之间的关系。这种技术通常用于预测分析，时间序列模型以及发现变量之间的因果关系。优点：在分析多因素模型时，更加简单和方便，不仅可以预测并求出函数，还可以自己对结果进行残差的检验，检验模型的精度。缺点：回归方程式只是一种推测，这影响了因子的多样性和某些因子的不可测性，使得回归分析在某些情况下受到限制。
灰色预测法：
色预测法是一种对含有不确定因素的系统进行预测的方法。它通过鉴别系统因素之间发展趋势的相异程度，即进行关联分析，并对原始数据进行生成处理来寻找系统变动的规律，生成有较强规律性的数据序列，然后建立相应的微分方程模型，从而预测事物未来发展趋势的状况。它用等时间距离观测到的反应预测对象特征的一系列数量值构造灰色预测模型，预测未来某一时刻的特征量，或者达到某一特征量的时间。优点：对于不确定因素的复杂系统预测效果较好，且所需样本数据较小。缺点：基于指数率的预测没有考虑系统的随机性，中长期预测精度较差。
决策树：在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。优点：能够处理不相关的特征；在相对短的时间内能够对大型数据源做出可行且效果良好的分析；计算简单，易于理解，可解释性强；比较适合处理有缺失属性的样本。缺点：忽略了数据之间的相关性；容易发生过拟合（随机森林可以很大程度上减少过拟合）；在决策树当中,对于各类别样本数量不一致的数据，信息增益的结果偏向于那些具有更多数值的特征。
神经网络：优点：分类的准确度高；并行分布处理能力强,分布存储及学习能力强，对噪声神经有较强的鲁棒性和容错能力，能充分逼近复杂的非线性关系；具备联想记忆的功能。缺点：神经网络需要大量的参数，如网络拓扑结构、权值和阈值的初始值；不能观察之间的学习过程，输出结果难以解释，会影响到结果的可信度和可接受程度；学习时间过长,甚至可能达不到学习的目的。

④ 基于规则的分词系统和基于统计的分词系统各有哪些优缺点

众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子I am a student，用中文则为：“我是一个学生”。计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词。我是一个学生，分词的结果是：我是一个学生。
中文分词技术属于自然语言处理技术范畴，对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但如何让计算机也能理解？其处理过程就是分词算法。

现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

1、基于字符串匹配的分词方法

这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下：

1）正向最大匹配法（由左到右的方向）；

2）逆向最大匹配法（由右到左的方向）；

3）最少切分（使每一句中切出的词数最小）。

还可以将上述各种方法相互组合，例如，可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点，正向最小匹配和逆向最小匹配一般很少使用。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。

一种方法是改进扫描方式，称为特征扫描或标志切分，优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而极大地提高切分的准确率。

对于机械分词方法，可以建立一个一般的模型，在这方面有专业的学术论文，这里不做详细论述。

2、基于理解的分词方法

这种分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。

3、基于统计的分词方法

从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典（常用词词典）进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

到底哪种分词算法的准确度更高，目前并无定论。对于任何一个成熟的分词系统来说，不可能单独依靠某一种算法来实现，都需要综合不同的算法。笔者了解，海量科技的分词算法就采用“复方分词法”，所谓复方，相当于用中药中的复方概念，即用不同的药才综合起来去医治疾病，同样，对于中文词的识别，需要多种算法来处理不同的问题。

⑤ 关联规则的经典算法有哪些，各自的优缺点

决策树贝叶斯人工神经网络 k-近邻支持向量机基于关联规则的分类集成学习

⑥ 推荐系统的主要推荐方法

基于内容的推荐（Content-based Recommendation）是信息过滤技术的延续与发展，它是建立在项目的内容信息上作出推荐的，而不需要依据用户对项目的评价意见，更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中，项目或对象是通过相关的特征的属性来定义，系统基于用户评价对象的特征，学习用户的兴趣，考察用户资料与待预测项目的相匹配程度。用户的资料模型取决于所用学习方法，常用的有决策树、神经网络和基于向量的表示方法等。基于内容的用户资料是需要有用户的历史数据，用户资料模型可能随着用户的偏好改变而发生变化。
基于内容推荐方法的优点是：1）不需要其它用户的数据，没有冷开始问题和稀疏问题。2）能为具有特殊兴趣爱好的用户进行推荐。3）能推荐新的或不是很流行的项目，没有新项目问题。4）通过列出推荐项目的内容特征，可以解释为什么推荐那些项目。5）已有比较好的技术，如关于分类学习方面的技术已相当成熟。
缺点是要求内容能容易抽取成有意义的特征，要求特征内容有良好的结构性，并且用户的口味必须能够用内容特征形式来表达，不能显式地得到其它用户的判断情况。协同过滤推荐（Collaborative Filtering Recommendation）技术是推荐系统中应用最早和最为成功的技术之一。它一般采用最近邻技术，利用用户的历史喜好信息计算用户之间的距离，然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度，系统从而根据这一喜好程度来对目标用户进行推荐。协同过滤最大优点是对推荐对象没有特殊的要求，能处理非结构化的复杂对象，如音乐、电影。
协同过滤是基于这样的假设：为一用户找到他真正感兴趣的内容的好方法是首先找到与此用户有相似兴趣的其他用户，然后将他们感兴趣的内容推荐给此用户。其基本思想非常易于理解，在日常生活中，我们往往会利用好朋友的推荐来进行一些选择。协同过滤正是把这一思想运用到电子商务推荐系统中来，基于其他用户对某一内容的评价来向目标用户进行推荐。
基于协同过滤的推荐系统可以说是从用户的角度来进行相应推荐的，而且是自动的即用户获得的推荐是系统从购买模式或浏览行为等隐式获得的，不需要用户努力地找到适合自己兴趣的推荐信息，如填写一些调查表格等。
和基于内容的过滤方法相比，协同过滤具有如下的优点：1）能够过滤难以进行机器自动内容分析的信息，如艺术品，音乐等。2）共享其他人的经验，避免了内容分析的不完全和不精确，并且能够基于一些复杂的，难以表述的概念（如信息质量、个人品味）进行过滤。3）有推荐新信息的能力。可以发现内容上完全不相似的信息，用户对推荐信息的内容事先是预料不到的。这也是协同过滤和基于内容的过滤一个较大的差别，基于内容的过滤推荐很多都是用户本来就熟悉的内容，而协同过滤可以发现用户潜在的但自己尚未发现的兴趣偏好。4）能够有效的使用其他相似用户的反馈信息，较少用户的反馈量，加快个性化学习的速度。
虽然协同过滤作为一种典型的推荐技术有其相当的应用，但协同过滤仍有许多的问题需要解决。最典型的问题有稀疏问题（Sparsity）和可扩展问题（Scalability）。基于关联规则的推荐（Association Rule-based Recommendation）是以关联规则为基础，把已购商品作为规则头，规则体为推荐对象。关联规则挖掘可以发现不同商品在销售过程中的相关性，在零售业中已经得到了成功的应用。管理规则就是在一个交易数据库中统计购买了商品集X的交易中有多大比例的交易同时购买了商品集Y，其直观的意义就是用户在购买某些商品的时候有多大倾向去购买另外一些商品。比如购买牛奶的同时很多人会同时购买面包。
算法的第一步关联规则的发现最为关键且最耗时，是算法的瓶颈，但可以离线进行。其次，商品名称的同义性问题也是关联规则的一个难点。由于各种推荐方法都有优缺点，所以在实际中，组合推荐（Hybrid Recommendation）经常被采用。研究和应用最多的是内容推荐和协同过滤推荐的组合。最简单的做法就是分别用基于内容的方法和协同过滤推荐方法去产生一个推荐预测结果，然后用某方法组合其结果。尽管从理论上有很多种推荐组合方法，但在某一具体问题中并不见得都有效，组合推荐一个最重要原则就是通过组合后要能避免或弥补各自推荐技术的弱点。
在组合方式上，有研究人员提出了七种组合思路：1）加权（Weight）：加权多种推荐技术结果。2）变换（Switch）：根据问题背景和实际情况或要求决定变换采用不同的推荐技术。3）混合（Mixed）：同时采用多种推荐技术给出多种推荐结果为用户提供参考。4）特征组合（Feature combination）：组合来自不同推荐数据源的特征被另一种推荐算法所采用。5）层叠（Cascade）：先用一种推荐技术产生一种粗糙的推荐结果，第二种推荐技术在此推荐结果的基础上进一步作出更精确的推荐。6）特征扩充（Feature augmentation）：一种技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中。7）元级别（Meta-level）：用一种推荐方法产生的模型作为另一种推荐方法的输入。

⑦ 3分钟轻松了解个性化推荐算法

推荐这种体验除了电商网站，还有新闻推荐、电台音乐推荐、搜索相关内容及广告推荐，基于数据的个性化推荐也越来越普遍了。今天就针对场景来说说这些不同的个性化推荐算法吧。
说个性化之前，先提一下非个性化。非个性化的推荐也是很常见的，毕竟人嘛都有从众心理，总想知道大家都在看什么。非个性化推荐的方式主要就是以比较单一的维度加上半衰期去看全局排名，比如，30天内点击排名，一周热门排名。

但是只靠非个性化推荐有个弊端，就是马太效应，点的人越多的，经过推荐点得人有更多。。。强者越强，弱者机会越少就越弱，可能导致两级分化严重，一些比较优质素材就被埋没了。

所以，为了解决一部分马太效应的问题，也主要是顺应数据化和自动化的模式，就需要增加个性化的推荐（可算说到正题了。。。）个性化的优点是不仅体验好，而且也大大增加了效率，让你更快找到你感兴趣的东西。YouTube也曾做过实验测试个性化和非个性化的效果，最终结果显示个性化推荐的点击率是同期热门视频的两倍。

1.新闻、视频、资讯和电台（基于内容推荐）

一般来说，如果是推荐资讯类的都会采用基于内容的推荐，甚至早期的邮件过滤也采用这种方式。

基于内容的推荐方法就是根据用户过去的行为记录来向用户推荐相似额推荐品。简单来说就是你常常浏览科技新闻，那就更多的给你推荐科技类的新闻。

复杂来说，根据行为设计权重，根据不同维度属性区分推荐品都是麻烦的事，常用的判断用户可能会喜欢推荐品程度的余弦向量公式长这样，我就不解释了（已经勾起了我关于高数不好的回忆）。。。

但是，这种算法缺点是由于内容高度匹配，导致推荐结果的惊喜度较差，而且有冷启动的问题，对新用户不能提供可靠的推荐结果。并且，只有维度增加才能增加推荐的精度，但是维度一旦增加计算量也成指数型增长。如果是非实体的推荐品，定义风格也不是一件容易的事，同一个作者的文风和曲风也会发生改变。

2.电商零售类（协同过滤推荐和关联规则推荐）

说电商推荐那不可能不讲到亚马逊，传言亚马逊有三成的销售额都来自个性化的商品推荐系统。实际上，我自己也常常在这里找到喜欢的书，也愿意主动的去看他到底给我推荐了什么。

一般，电商主流推荐算法是基于一个这样的假设，“跟你喜好相似的人喜欢的东西你也很有可能喜欢。”即协同过滤过滤算法。主要的任务就是找出和你品味最相近的用户，从而根据最近他的喜好预测你也可能喜欢什么。

这种方法可以推荐一些内容上差异较大但是又是用户感兴趣的物品，很好的支持用户发现潜在的兴趣偏好。也不需要领域知识，并且随着时间推移性能提高。但是也存在无法向新用户推荐的问题，系统刚刚开始时推荐质可能较量差。

电商行业也常常会使用到基于关联规则的推荐。即以关联规则为基础，把已购商品作为规则头，规则体为推荐对象。比如，你购买了羽毛球拍，那我相应的会向你推荐羽毛球周边用品。关联规则挖掘可以发现不同商品在销售过程中的相关性，在零售业中已经得到了成功的应用。

3.广告行业（基于知识推荐）

自从可以浏览器读取cookies，甚至获得年龄属性等信息，广告的个性化投放就也可以根据不同场景使用了。

当用户的行为数据较少时，基于知识的推荐可以帮助我们解决这类问题。用户必须指定需求，然后系统设法给出解决方式。假设，你的广告需要指定某地区某年龄段的投放，系统就根据这条规则进行计算。基于知识的推荐在某种程度是可以看成是一种推理技术。这种方法不需要用户行为数据就能推荐，所以不存在冷启动问题。推荐结果主要依赖两种形式，基于约束推荐和基于实例推荐。

4.组合推荐

由于各种推荐方法都有优缺点，所以在实际中，并不像上文讲的那样采用单一的方法进行建模和推荐（我真的只是为了解释清楚算法）。。。

在组合方式上，也有多种思路：加权、变换、混合、特征组合、层叠、特征扩充、元级别。并且，为了解决冷启动的问题，还会相应的增加补足策略，比如根据用户模型的数据，结合挖掘的各种榜单进行补足，如全局热门、分类热门等。还有一些开放性的问题，比如，需不需要帮助用户有品味的提升，引导人去更好的生活。

最后，我总想，最好的推荐效果是像一个了解你的朋友一样跟你推荐，因为他知道你喜欢什么，最近对什么感兴趣，也总能发现一些有趣的新东西。这让我想到有一些朋友总会兴致勃勃的过来说，嘿，给你推荐个东西，你肯定喜欢，光是听到这句话我好像就开心起来，也许这就是我喜欢这个功能的原因。

⑧ 个性化推荐系统的基本框架

个性化推荐是一种功能，它会通过用户的个性化需求给他推荐符合其需求的内容，如果选配助听器可以去专业的助听器验配中心，结合自己的听力和听力需求来验配，找到合适自己听力参数的助听器。

⑨ 机器学习中常见的算法的优缺点之决策树

决策树在机器学习中是一个十分优秀的算法，在很多技术中都需要用到决策树这一算法，由此可见，决策树是一个经典的算法，在这篇文章中我们给大家介绍决策树算法的优缺点，希望这篇文章能够更好的帮助大家理解决策树算法。
其实决策树倍受大家欢迎的原因就是其中的一个优势，那就是易于解释。同时决策树可以毫无压力地处理特征间的交互关系并且是非参数化的，因此你不必担心异常值或者数据是否线性可分。但是决策树的有一个缺点就是不支持在线学习，于是在新样本到来后，决策树需要全部重建。另一个缺点就是容易出现过拟合，但这也就是诸如随机森林RF之类的集成方法的切入点。另外，随机森林经常是很多分类问题的赢家，决策树训练快速并且可调，同时大家无须担心要像支持向量机那样调一大堆参数，所以在以前都一直很受欢迎。
那么决策树自身的优点都有什么呢，总结下来就是有六点，第一就是决策树易于理解和解释，可以可视化分析，容易提取出规则。第二就是可以同时处理标称型和数值型数据。第三就是比较适合处理有缺失属性的样本。第四就是能够处理不相关的特征。第五就是测试数据集时，运行速度比较快。第六就是在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
那么决策树的缺点是什么呢？总结下来有三点，第一就是决策树容易发生过拟合，但是随机森林可以很大程度上减少过拟合。第二就是决策树容易忽略数据集中属性的相互关联。第三就是对于那些各类别样本数量不一致的数据，在决策树中，进行属性划分时，不同的判定准则会带来不同的属性选择倾向；信息增益准则对可取数目较多的属性有所偏好，而增益率准则CART则对可取数目较少的属性有所偏好，但CART进行属性划分时候不再简单地直接利用增益率尽心划分，而是采用一种启发式规则。
通过上述的内容相信大家已经知道了决策树的优点和缺点了吧，大家在学习或者使用决策树算法的时候可以更好的帮助大家理解决策树的具体情况，只有了解了这些算法，我们才能够更好的使用决策树算法。

导航:首页 > 源码编译 > 基于关联规则的推荐算法的优缺点

基于关联规则的推荐算法的优缺点

与基于关联规则的推荐算法的优缺点相关的资料