简述KNN算法的优缺点_机器学习中算法的优缺点之最近邻算法

‘壹’ 什么是knn算法

作为一种非参数的分类算法，K-近邻（KNN）算法是非常有效和容易实现的。它已经广泛应用于分类、回归和模式识别等。在应用KNN算法解决问题的时候，要注意两个方面的问题——样本权重和特征权重。利用SVM来确定特征的权重，提出了基于SVM的特征加权算法（FWKNN,feature
weighted
KNN）。实验表明，在一定的条件下，FWKNN能够极大地提高分类准确率。

‘贰’ knn和kmeans的区别是什么

区别1：分类的目标不同。

聚类和分类最大的不同在于，knn分类的目标是事先已知的，而kmeans聚类则不一样，聚类事先不知道目标变量是什么，类别没有像分类那样被预先定义出来，所以，聚类有时也叫无监督学习。聚类分析试图将相似的对象归入同一簇，将不相似的对象归为不同簇，

区别2：速度不同。

K-means算法虽然比较容易实现，但是其可能收敛到局部最优解，且在大规模数据集上收敛速度相对较慢。

区别3：K的含义不同。

KNN，K的含义：来了一个样本x，要给它分类，即求出它的y，就从数据集中，在x附近找离它最近的K个数据点，这K个数据点，类别c占的个数最多，就把x的label设为c。

K-Means，K的含义：K是人工固定好的数字，假设数据集合可以分为K个簇，由于是依靠人工定好，需要一点先验知识。

‘叁’ 为什么k临近算法不能处理特征很多的数据集

机器学习中常常要用到分类算法，在诸多的分类算法中有一种算法名为k-近邻算法，也称为kNN算法。
一、kNN算法的工作原理
二、适用情况
三、算法实例及讲解
---1.收集数据
---2.准备数据
---3.设计算法分析数据
---4.测试算法

一、kNN算法的工作原理
官方解释：存在一个样本数据集，也称作训练样本集，并且样本中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系，输入没有标签的新数据后，将新数据的每个特征与样本集中的数据对应的特征进行比较，然后算法提取样本集中特征最相似的数据（最近邻）的分类标签。一般来说，我们只选择样本集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数，最后，选择k个最相似的数据中出现次数最多的分类，作为新数据的分类。
我的理解：k-近邻算法就是根据“新数据的分类取决于它的邻居”进行的，比如邻居中大多数都是退伍军人，那么这个人也极有可能是退伍军人。而算法的目的就是先找出它的邻居，然后分析这几位邻居大多数的分类，极有可能就是它本省的分类。

二、适用情况
优点：精度高，对异常数据不敏感（你的类别是由邻居中的大多数决定的，一个异常邻居并不能影响太大），无数据输入假定；
缺点：计算发杂度高（需要计算新的数据点与样本集中每个数据的“距离”，以判断是否是前k个邻居），空间复杂度高（巨大的矩阵）；
适用数据范围：数值型（目标变量可以从无限的数值集合中取值）和标称型（目标变量只有在有限目标集中取值）。

‘肆’ 什么叫做knn算法

在模式识别领域中，最近邻居法（KNN算法，又译K-近邻算法）是一种用于分类和回归的非参数统计方法。

在这两种情况下，输入包含特征空间（Feature Space）中的k个最接近的训练样本。

1、在k-NN分类中，输出是一个分类族群。一个对象的分类是由其邻居的“多数表决”确定的，k个最近邻居（k为正整数，通常较小）中最常见的分类决定了赋予该对象的类别。若k=1，则该对象的类别直接由最近的一个节点赋予。

2、在k-NN回归中，输出是该对象的属性值。该值是其k个最近邻居的值的平均值。

最近邻居法采用向量空间模型来分类，概念为相同类别的案例，彼此的相似度高，而可以借由计算与已知类别案例之相似度，来评估未知类别案例可能的分类。

K-NN是一种基于实例的学习，或者是局部近似和将所有计算推迟到分类之后的惰性学习。k-近邻算法是所有的机器学习算法中最简单的之一。

无论是分类还是回归，衡量邻居的权重都非常有用，使较近邻居的权重比较远邻居的权重大。例如，一种常见的加权方案是给每个邻居权重赋值为1/ d，其中d是到邻居的距离。

邻居都取自一组已经正确分类（在回归的情况下，指属性值正确）的对象。虽然没要求明确的训练步骤，但这也可以当作是此算法的一个训练样本集。

k-近邻算法的缺点是对数据的局部结构非常敏感。

K-均值算法也是流行的机器学习技术，其名称和k-近邻算法相近，但两者没有关系。数据标准化可以大大提高该算法的准确性。

参数选择

如何选择一个最佳的K值取决于数据。一般情况下，在分类时较大的K值能够减小噪声的影响，但会使类别之间的界限变得模糊。一个较好的K值能通过各种启发式技术（见超参数优化）来获取。

噪声和非相关性特征的存在，或特征尺度与它们的重要性不一致会使K近邻算法的准确性严重降低。对于选取和缩放特征来改善分类已经作了很多研究。一个普遍的做法是利用进化算法优化功能扩展，还有一种较普遍的方法是利用训练样本的互信息进行选择特征。

在二元（两类）分类问题中，选取k为奇数有助于避免两个分类平票的情形。在此问题下，选取最佳经验k值的方法是自助法。

‘伍’ 关于KNN算法是否稳定

有可能是训练样本不够，也有可能是KNN算法本身对你要研究的问题就不太适合

‘陆’ KNN算法，k近邻

K最近邻(k-Nearest Neighbour，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

‘柒’ 机器学习中算法的优缺点之最近邻算法

机器学习中有个算法是十分重要的，那就是最近邻算法，这种算法被大家称为KNN。我们在学习机器学习知识的时候一定要学习这种算法，其实不管是什么算法都是有自己的优缺点的，KNN算法也不例外，在这篇文章中我们就详细的给大家介绍一下KNN算法的优缺点，大家一定要好好学起来哟。
说到KNN算法我们有必要说一下KNN算法的主要过程，KNN算法的主要过程有四种，第一就是计算训练样本和测试样本中每个样本点的距离，第二个步骤就是对上面所有的距离值进行排序(升序)。第三个步骤就是选前k个最小距离的样本。第四个步骤就是根据这k个样本的标签进行投票，得到最后的分类类别。
那么大家是否知道如何选择一个最佳的K值，这取决于数据。一般情况下，在分类时较大的K值能够减小噪声的影响，但会使类别之间的界限变得模糊。一般来说，一个较好的K值可通过各种启发式技术来获取，比如说交叉验证。另外噪声和非相关性特征向量的存在会使K近邻算法的准确性减小。近邻算法具有较强的一致性结果，随着数据趋于无限，算法保证错误率不会超过贝叶斯算法错误率的两倍。对于一些好的K值，K近邻保证错误率不会超过贝叶斯理论误差率。
那么KNN算法的优点是什么呢？KNN算法的优点具体体现在六点，第一就是对数据没有假设，准确度高，对outlier不敏感。第二就是KNN是一种在线技术，新数据可以直接加入数据集而不必进行重新训练。第三就是KNN理论简单，容易实现。第四就是理论成熟，思想简单，既可以用来做分类也可以用来做回归。第五就是可用于非线性分类。第六就是训练时间复杂度为O(n)。由此可见，KNN算法的优点是有很多的。
那么KNN算法的缺点是什么呢？这种算法的缺点具体体现在六点，第一就是样本不平衡时，预测偏差比较大。第二就是KNN每一次分类都会重新进行一次全局运算。第三就是k值大小的选择没有理论选择最优，往往是结合K-折交叉验证得到最优k值选择。第四就是样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）效果差。第五就是需要大量内存。第六就是对于样本容量大的数据集计算量比较大。
正是由于这些优点和缺点，KNN算法应用领域比较广泛，在文本分类、模式识别、聚类分析，多分类领域中处处有KNN算法的身影。
在这篇文章中我们给大家介绍了很多关于KNN算法的相关知识，通过对这些知识的理解相信大家已经知道该算法的特点了吧，希望这篇文章能够帮助大家更好的理解KNN算法。

‘捌’ 请简述为什么kNN算法是懒惰的

kNN算法，对于分类的不同属性定义距离。对于一个新的待分类样本点，只取k个与该样本距离最近的点，然后找这k个点所归属的最多的类做为新样本点的分类。由于只取k个点，不需要全部样本点来做分类，所以说这个算法懒惰。

‘玖’ knn算法是什么

KNN（K- Nearest Neighbor）法即K最邻近法，最初由Cover和Hart于1968年提出，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。

作为一种非参数的分类算法，K-近邻（KNN）算法是非常有效和容易实现的。它已经广泛应用于分类、回归和模式识别等。

介绍

KNN算法本身简单有效，它是一种lazy-learning算法，分类器不需要使用训练集进行训练，训练时间复杂度为0。KNN分类的计算复杂度和训练集中的文档数目成正比，也就是说，如果训练集中文档总数为n，那么KNN的分类时间复杂度为O(n)。

KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

导航:首页 > 源码编译 > 简述KNN算法的优缺点

简述KNN算法的优缺点

与简述KNN算法的优缺点相关的资料