非参数算法_大数据算法有哪些

1. 大数据算法有哪些

大数据是一个很广的概念，并没有大数据算法这种东西，您估计想问的是大数据挖掘的算法：
1.朴素贝叶斯
超级简单，就像做一些数数的工作。如果条件独立假设成立的话，NB将比鉴别模型收敛的更快，所以你只需要少量的训练数据。即使条件独立假设不成立，NB在实际中仍然表现出惊人的好。
2. 回归
LR有很多方法来对模型正则化。比起NB的条件独立性假设，LR不需要考虑样本是否是相关的。与决策树与支持向量机不同，NB有很好的概率解释，且很容易利用新的训练数据来更新模型（使用在线梯度下降法）。
3.决策树
DT容易理解与解释。DT是非参数的，所以你不需要担心野点和数据是否线性可分的问题，此外，RF在很多分类问题中经常表现得最好，且速度快可扩展，也不像SVM那样需要调整大量的参数，所以最近RF是一个非常流行的算法。
4.支持向量机
很高的分类正确率，对过拟合有很好的理论保证，选取合适的核函数，面对特征线性不可分的问题也可以表现得很好。SVM在维数通常很高的文本分类中非常的流行。

想要了解更多有关数据挖掘的信息，可以了解一下CDA数据分析师的课程。大数据分析师现在有专业的国际认证证书了， “CDA 数据分析师”具体指在互联网、金融、零售、咨询、电信、医疗、旅游等行业专门从事数据的采集、清洗、处理、分析并能制作业务报告、提供决策的新型数据分析人才。全球 CDA 持证者秉承着先进商业数据分析的新理念，遵循着《CDA 数据分析师职业道德和行为准则》新规范，发挥着自身数据科学专业能力，推动科技创新进步，助力经济持续发展。点击预约免费试听课。

2. knn算法是什么

KNN（K- Nearest Neighbor）法即K最邻近法，最初由Cover和Hart于1968年提出，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。

作为一种非参数的分类算法，K-近邻（KNN）算法是非常有效和容易实现的。它已经广泛应用于分类、回归和模式识别等。

介绍

KNN算法本身简单有效，它是一种lazy-learning算法，分类器不需要使用训练集进行训练，训练时间复杂度为0。KNN分类的计算复杂度和训练集中的文档数目成正比，也就是说，如果训练集中文档总数为n，那么KNN的分类时间复杂度为O(n)。

KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

3. 用于数据挖掘的分类算法有哪些，各有何优劣

朴素贝叶斯(Naive Bayes, NB)
超级简单，就像做一些数数的工作。如果条件独立假设成立的话，NB将比鉴别模型（如Logistic回归）收敛的更快，所以你只需要少量的训练数据。即使条件独立假设不成立，NB在实际中仍然表现出惊人的好。如果你想做类似半监督学习，或者是既要模型简单又要性能好，NB值得尝试。

Logistic回归(Logistic Regression, LR)
LR有很多方法来对模型正则化。比起NB的条件独立性假设，LR不需要考虑样本是否是相关的。与决策树与支持向量机（SVM）不同，NB有很好的概率解释，且很容易利用新的训练数据来更新模型（使用在线梯度下降法）。如果你想要一些概率信息（如，为了更容易的调整分类阈值，得到分类的不确定性，得到置信区间），或者希望将来有更多数据时能方便的更新改进模型，LR是值得使用的。

决策树（Decision Tree, DT）
DT容易理解与解释（对某些人而言——不确定我是否也在他们其中）。DT是非参数的，所以你不需要担心野点（或离群点）和数据是否线性可分的问题（例如，DT可以轻松的处理这种情况：属于A类的样本的特征x取值往往非常小或者非常大，而属于B类的样本的特征x取值在中间范围）。DT的主要缺点是容易过拟合，这也正是随机森林（Random Forest, RF）（或者Boosted树）等集成学习算法被提出来的原因。此外，RF在很多分类问题中经常表现得最好（我个人相信一般比SVM稍好），且速度快可扩展，也不像SVM那样需要调整大量的参数，所以最近RF是一个非常流行的算法。

支持向量机（Support Vector Machine, SVM）
很高的分类正确率，对过拟合有很好的理论保证，选取合适的核函数，面对特征线性不可分的问题也可以表现得很好。SVM在维数通常很高的文本分类中非常的流行。由于较大的内存需求和繁琐的调参，我认为RF已经开始威胁其地位了。

回到LR与DT的问题（我更倾向是LR与RF的问题），做个简单的总结：两种方法都很快且可扩展。在正确率方面，RF比LR更优。但是LR可以在线更新且提供有用的概率信息。鉴于你在Square(不确定推断科学家是什么，应该不是有趣的化身)，可能从事欺诈检测：如果你想快速的调整阈值来改变假阳性率与假阴性率，分类结果中包含概率信息将很有帮助。无论你选择什么算法，如果你的各类样本数量是不均衡的（在欺诈检测中经常发生），你需要重新采样各类数据或者调整你的误差度量方法来使各类更均衡。

4. 局部加权回归算法是参数学习算法还是非参数学习算法

既然是局部加权就是参数学习算法。

5. 高斯过程说它是非参数模型，这点怎么理解

1、Clarke Modal最理想的模型:

其中N为多径径数，Cn为每一径的幅度增益，wd为最大多普勒频散，an为每一径来波方向，phin为每一径初始相位。其中Cn，an，phin是随机数，在径数N很大的时候，g(t)可被视为高斯随机过程，an,phin看做在(-pi,pi]均匀分布，由此有以下结论：（1）信号幅度服从瑞利分布；（2）相位在(-pi,pi]均匀分布；（3）信道响应的二阶统计特性：如自相关满足贝塞尔曲线J(wd*tau),（tau:相关时间差，之前我写过一篇速度估计的日志，其中的相关算法就是基于自相关的二阶统计特性估计移动速度），信号两个正交分量的互相关为0；（4）以及四阶统计特性。由于告诫统计特性不好表达，直接给出公式了：

2、Jake Modal:这是现在常用的信道模型，与Clarke的不同时，归一化后每一径幅度增益相同且为1/sqrt(N),每径初始相位都为0，第n径来波方向为2*pi*n/N,n=1,2,3,..N。也就是上述中的Cn，an，phin为：

Jake模型大名就不说了，我觉得大家之所以那么爱用它是因为它将Clarke理论模型优化了，它是可以用仿真实现的。毕竟Clarke是个统计模型，每一径来波方向都在(-pi,pi]均匀分布的随机数，但只当多径数量趋于无穷的时候才符合以上统计特性，看到许多文章都用100个正弦分量来合成一个径，这对系统仿真来说代价太大。那么怎么才能用有限个的正弦分量(N)产生符合Clarke统计特性的信道呢？Jake模型为了减少计算量，就人为的把N径均匀的分布在(-pi,pi]范围内，仿真的时候这N个径不是(-pi,pi]的随机数，而是公式an=2*pi*n/N给出的特定值，这样即使N很小也能保证N个径合成的信号与Clarke模型理论一致的，图1给出了N=6时的情况。可以说Jake模型为Clarke理论模型找到了实际仿真可用的信道设计方案。但是有些地方理想的比较过分，比如每一径的增益都一样（实际中可能吗？多径延时特别小的话可以吧），而且初始相位也相同（可能吗？多径延时特别小的话可以吧），这样设计可能对算法仿真结果上有好处，不过做工程的话还是希望仿真模型更接近实际一些吧，所以文章【1】对Jake模型进行改进。

图1 方位角an分布

但Jake模型的有一处设计让我很惊叹它的巧妙，即径数的选择N=4M+2，有了这个条件就可以简化仿真运算，可以减少做硬件用到的震荡器（正弦分量）数量，想想本来要用N个正弦分量，现在只需M=(N-2)/4个了，简化运算量。就拿TD-SCDMA信道来说吧，通常给出5个径的Power Average和多径时延tau_t，注意这里的径区别于上述径。此处为“大径”，大径由多径时延区分开，而其中每一个“大径”由无穷个“小径”合成，这些“小径”才是上面模型所提到的径的概念，“小径”合成的大径服从上述的Clarke模型或Jake模型的统计特性，假设有6个小径N=6，那么M=1，从图1可以看出这6个“小径”方位角分布的对称关系，从而将信道模型化简为：

从上面看出，Jake模型和Clarke有那么多不同，就可以很容易理解为什么Jake模型的统计特性与Clarke理论不符了，下面给出公式：

3、改进信道：尽管Jake信道那么的受欢迎，但是由于其高阶统计特性与理想不符，所以文章【1】的作者对它进行了改进，其实我倒是觉得这个信道怎么又朝着Clarke改回去了，说白了就是让幅度、初始相位、来波方向尽可能随机以符合Clarke理论的统计分布，但同时又能保证如Jake模型中所有径总体来看在（-pi,pi]上均匀分布的，是有可借鉴之处的。挺适合我之前说的速度估计算法使用，毕竟相关算法、CrossingRate算法都是由理论Clarke模型推出来的嘛。既能保证统计特性符合Clarke理论，又借鉴了Jake模型的优点能减少硬件实现和仿真时用到的正弦分量(径数N)的个数。另外文章【1】说Clarke模型无法产生用于频率选择性和MIMO的信道，这个我是百思不得其解，怎样的统计特性才符合呢？为什么文章【1】的统计特性就可以产生符合MIMO的信道呢，想通了留到总结(2)记录好了。下面给出Cn，an，phi公式：

其高阶统计特性如下，与在径数大的时候与Clarke完全一致：

6. 什么是knn算法

作为一种非参数的分类算法，K-近邻（KNN）算法是非常有效和容易实现的。它已经广泛应用于分类、回归和模式识别等。在应用KNN算法解决问题的时候，要注意两个方面的问题——样本权重和特征权重。利用SVM来确定特征的权重，提出了基于SVM的特征加权算法（FWKNN,feature
weighted
KNN）。实验表明，在一定的条件下，FWKNN能够极大地提高分类准确率。

7. 如何使用SPSS进行等级资料的Spearman非参数相关分析

操作，前面部分与连续变量的相关方法一致：
打开数据文件
分析-相关-双变量，对话框里缺省的算法是pearson，你把后面spearman的勾勾上，计算的就是spearman相关

8. knn是什么意思

作为一种非参数的分类算法，K-近邻（KNN）算法是非常有效和容易实现的。它已经广泛应用于分类、回归和模式识别等。

在应用KNN算法解决问题的时候，要注意两个方面的问题——样本权重和特征权重。利用SVM来确定特征的权重，提出了基于SVM的特征加权算法（FWKNN，featureweightedKNN）。实验表明，在一定的条件下，FWKNN能够极大地提高分类准确率。

(8)非参数算法扩展阅读：

KNN（K- Nearest Neighbor）法即K最邻近法，最初由 Cover和Hart于1968年提出，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路非常简单直观：

如果一个样本在特征空间中的K个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

9. 为什么决策树是非参数学习算法

为什么决策树是一种分类方法却可以用于预测决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。

导航:首页 > 源码编译 > 非参数算法

非参数算法

与非参数算法相关的资料