ais数据异常检测python_python怎么实现数据的异常值的处理

❶ python异常和错误的区别

什么是错误?
错误分为两种情况：第一种语法错误，代码不符合解释器或者编译器语法;第二种逻辑错误，不完整或者不合法输入或者计算出现问题。
什么是异常?
所谓的异常就是执行过程中出现万体导致程序无法执行，同样分为两种情况：第一种程序遇到逻辑或者算法问题;第二种运行过程中计算机错误，内存不够或者IO错误。
Python中错误和异常有什么区别?
错误是代码运行前的语法或者逻辑错误，语法错误在执行前修改，逻辑错误无法修改;
而异常分为两个步骤，异常产生，检查到错误且解释器认为是异常，抛出异常;第二是异常处理，截获异常，忽略或者终止程序处理异常。
从软件方面来说，错误是语法或者逻辑上的问题，语法错误指示软件的结构上有错误，导致不能被解释器解释或者编译器无法编译，这些错误必须在程序执行前进行纠正;当程序语法正确后，剩下的就是逻辑错误问题，逻辑错误可能是由于不完整或不合法的输入导致，在其他情况下，可能是逻辑无法生成、计算或输出结果需要的过程无法执行。这些错误通常分别被称为域错误和范围错误。
当Python检测到一个错误时，解释器就会指出当前已经无法继续执行下去，这时就出现异常。
而异常它是因为程序出现了错误而在正常控制流以外采取的行为，这个行为分为两个阶段：首先是引起异常发生的错误，然后是检测阶段;
第一个阶段是在发生了一个异常条件后发生的，只要检测到错误并且意识到异常条件，解释器会引发一个异常，引发也可以叫作触发或生成，解释器通过它通知当前控制流有错误发生;
Python也允许程序员自己引发异常，无论是Python解释器还是程序员引发的，异常就是错误发生的信号，当前流将被打断，用来处理这个错误并采取相应的操作，这就是第二个阶段。
对异常的处理发生在第二阶段，异常引发后，可以调用很多不同的操作，可以是忽视错误，或是减轻问题的影响后设法继续执行程序，所以的这些操作都代表一种继续，或是控制的分支，关键是程序员在错误发生时可以指示程序如何执行。
类似Python这样支持引发和处理异常的语言，可以让开发人员在错误发生时更直接地控制它们，程序员不仅仅有了检测错误的能力，还可以在它们发生时采取更可靠的补救措施。

❷ python数据分析综合项目--空气质量指数分析

近年来，我国的环境问题比较严重，很多城市出现了雾霾天气，当然也有很多城市空气依旧清新，为了研究具体的空气环境城市分布，我们采用了假设检验以及线性回归的思想对AQI（空气质量指数）进行分析和预测，其中AQI的值越大，表示空气质量越差，AQI值越小，表明空气质量越好。

1.列出空气质量优秀/较差的五个城市
2.全国空气质量分布情况
3.临海城市和内陆城市的空气质量对比
4.影响空气指数的因素
5.空气质量均值验证

City 城市名
AQI 空气质量指数
Precipitation 降雨量
GDP 城市生产总值
Temperature 温度
Longitude 经度
Latitude 纬度
Altitude 海拔高度
PopulationDensity 人口密度
Coastal 是否沿海
GreenCoverageRate 绿化覆盖率
Incineration(10,000ton) 焚烧量（10000吨）

在进行数据分析之前，我们对数据集进行观察并对其中的缺失值、重复值、异常值进行处理

我们发现降雨量数据中包含了4个缺失值，为了保证数据的精确，我们查一下降雨量的数据分布

很明显的呈现右偏分布，因此采用平均数来替代缺失值并不妥，我们这里用中位数来代替

GDP属性中检测出8条异常值，我们这里采取用极端值替换的方式，将异常值替换成最大值

数据集处理完毕之后，我们开始进行数据分析

按照AQI降序排列，选出排名前五以及后五的城市，进行可视化，结果如下

结论：空气质量较好的城市为韶关市、南平市、梅州市、基隆市、三明市，空气质量堪忧的城市分别为焦作市、锦州市、保定市、朝阳市、北京市

这里我们将AQI指数分为六个等级，并根据等级统计全国空气质量的等级情况

我们再用散点图绘制下全国的空气质量分布

结论：我国城市的空气质量集中在一级、二级和三级，高污染城市比例较低；从地理位置来看，西部城市空气质量优于东部城市，南部城市优于北部城市。

根据上面的结论我们发现，仿佛临海城市的空气质量普遍高于内陆地区，那么这个结论是否是真的呢？还需要进一步验证。

首先，我们来统计下不同地理环境的城市数量

第二步，绘制临海和内陆城市的AQI分布图

我们发现内陆城市AQI集中分布在50-100区间内，而沿海城市AQI集中分布在0-50区间，在此样本中，沿海的AQI分布低于内陆城市，但是这毕竟是样本，无法推测出总体分布情况，还需进一步探测。

第三步，统计AQI均值并绘制分布密度图

第四步，差异检验，查看内陆沿海AQI均值分布是否显着

我们先假设内陆城市和沿海城市的平均值相同

结果得出支持的概率为0.006，远低于0.05，因此我们否定原假设，选择备择假设，即内陆城市和沿海城市的平均值不相同

结论：经过分析，我们发现有超过99%的概率可以证明临海城市空气质量优于内陆城市的空气质量。

为了探究影响空气质量的具体因素，我们需要计算出两个变量之间的相关系数，以此进行判断，这里采用热力图进行可视化操作。

结论：从显示结果看出，AQI主要受降雨量和纬度的影响，其中降雨量越多，空气质量越好（0.4）；纬度越低，空气质量越好（-0.55）
当然，从整个图片来看，也能发现很多变量之间的关系，比如GDP与焚烧量的正相关系数达到了0.9，温度与纬度的负相关系数达到了-0.81等。

传闻空气质量均值在71左右，这个消息是否是准确的呢？我们进行一次验证。

首先计算样本的均值

结果显示为75.334

那么总体的均值是否为71呢？这里先假设总体的均值为71，进行t检验

结论：可以看出，偏离均值1.81倍的标准差，而且p值大于0.05，我们接受原假设（即空气质量均值在71左右）另外，我们还可以计算出在置信度为95%时，空气质量均值的置信区间为70-80。

❸ Python中程序异常都能被处理吗

“异常”是Python对象，表示一个错误。

如果不想出现异常后程序自动停止运行，编程的人，就要主动捕捉异常，并自己作出相应处理。

捕捉异常可以使用try/except语句。

try/except语句用来检测try语句块中的错误，从而让except语句捕获异常信息并处理。

下面是try/except的示例，说明了怎样处理各种异常：

try:

<语句> #运行别的代码

except <名字>：

<语句> #如果在try部份引发了'name'异常

except <名字>，<数据>:

<语句> #如果引发了'name'异常，获得附加的数据

else:

<语句> #如果没有异常发生

Python的各种标准异常是预先定义好的。基本上包括了常见的异常情况，主要有以下内容。

异常名称描述

BaseException 所有异常的基类

SystemExit 解释器请求退出

KeyboardInterrupt 用户中断执行(通常是输入^C)

Exception 常规错误的基类

StopIteration 迭代器没有更多的值

GeneratorExit 生成器(generator)发生异常来通知退出

StandardError 所有的内建标准异常的基类

ArithmeticError 所有数值计算错误的基类

FloatingPointError 浮点计算错误

OverflowError 数值运算超出最大限制

ZeroDivisionError 除(或取模)零 (所有数据类型)

AssertionError 断言语句失败

AttributeError 对象没有这个属性

EOFError 没有内建输入,到达EOF 标记

EnvironmentError 操作系统错误的基类

IOError 输入/输出操作失败

OSError 操作系统错误

WindowsError 系统调用失败

ImportError 导入模块/对象失败

LookupError 无效数据查询的基类

IndexError 序列中没有此索引(index)

KeyError 映射中没有这个键

MemoryError 内存溢出错误(对于Python 解释器不是致命的)

NameError 未声明/初始化对象 (没有属性)

UnboundLocalError 访问未初始化的本地变量

ReferenceError 弱引用(Weak reference)试图访问已经垃圾回收了的对象

RuntimeError 一般的运行时错误

NotImplementedError 尚未实现的方法

SyntaxError Python 语法错误

IndentationError 缩进错误

TabError Tab 和空格混用

SystemError 一般的解释器系统错误

TypeError 对类型无效的操作

ValueError 传入无效的参数

UnicodeError Unicode 相关的错误

UnicodeDecodeError Unicode 解码时的错误

UnicodeEncodeError Unicode 编码时错误

UnicodeTranslateError Unicode 转换时错误

Warning 警告的基类

DeprecationWarning 关于被弃用的特征的警告

FutureWarning 关于构造将来语义会有改变的警告

OverflowWarning 旧的关于自动提升为长整型(long)的警告

PendingDeprecationWarning 关于特性将会被废弃的警告

RuntimeWarning 可疑的运行时行为(runtime behavior)的警告

SyntaxWarning 可疑的语法的警告

UserWarning 用户代码生成的警告

Python系统处理异常就是提示一下，停止运行。不想停止，只有自己处理。

可以不带类型，所有异常执行同一组语句：

try:
正常的操作
except:
发生异常，执行这块代码
else:
如果没有异常执行这块代码

也可以多个异常共用一段代码：

ry:
正常的操作
except(Exception1[, Exception2[,...ExceptionN]]]):
发生以上多个异常中的一个，执行这块代码
else:
如果没有异常执行这块代码

还有一种格式，可以有finally部分：

try:
fh = open("testfile", "w")
try:
fh.write("这是一个测试文件，用于测试异常!!")
finally:
print "关闭文件"
fh.close()except IOError:
print "Error: 没有找到文件或读取文件失败"

当在try块中抛出一个异常，立即执行finally块代码。

finally块中的所有语句执行后，异常被再次触发，并执行except块代码。

参数的内容不同于异常。

除了标准异常，我们也可以自己定义异常，并进行处理,这时用到raise语句：

raise [Exception [, args [, traceback]]]

语句中 Exception 是异常的类型（例如，NameError）参数标准异常中任一种，args 是自已提供的异常参数。

最后一个参数是可选的（在实践中很少使用），如果存在，是跟踪异常对象。

相应的异常处理程序示例如下：

try:
正常语句，内含raise语句

except Exception,err:
触发自定义异常

else:
其余代码

❹ 对于异常值的检测

离群点，是一个数据对象，它显着不同于其他数据对象，与其他数据分布有较为显着的不同。有时也称非离群点为“正常数据”，离群点为“异常数据”。

离群点跟噪声数据不一样，噪声是被观测变量的随机误差或方差。一般而言，噪声在数据分析（包括离群点分析）中不是令人感兴趣的，需要在数据预处理中剔除的，减少对后续模型预估的影响，增加精度。

离群点检测是有意义的，因为怀疑产生它们的分布不同于产生其他数据的分布。因此，在离群点检测时，重要的是搞清楚是哪种外力产生的离群点。

常见的异常成因:

通常，在其余数据上做各种假设，并且证明检测到的离群点显着违反了这些假设。如统计学中的假设检验，基于小概率原理，对原假设进行判断。一般检测离群点，是人工进行筛选，剔除不可信的数据，例如对于房屋数据，面积上万，卧室数量过百等情况。而在面对大量的数据时，人工方法耗时耗力，因此，才有如下的方法进行离群点检测。

统计学方法是基于模型的方法，即为数据创建一个模型，并且根据对象拟合模型的情况来评估它们。大部分用于离群点检测的统计学方法都是构建一个概率分布模型，并考虑对象有多大可能符合该模型。

离群点的概率定义：离群点是一个对象，关于数据的概率分布模型，它具有低概率。这种情况的前提是必须知道数据集服从什么分布，如果估计错误就造成了重尾分布。

a. 参数法：

当数据服从正太分布的假设时在正态分布的假定下，u±3σ区域包含99.7%的数据，u±2σ包含95.4%的数据，u±1σ包含68.3%的数据。其区域外的数据视为离群点。

当数据是非正态分布时，可以使用切比雪夫不等式，它对任何分布形状的数据都适用。根据切比雪夫不等式，至少有(1-1/k 2 )的数据落在±k个标准差之内。所以，有以下结论：

计算得到：通过绘制箱线图可以直观地找到离群点，或者通过计算四分位数极差（IQR）定义为Q3-Q1。比Q1小1.5倍的IQR或者比Q3大1.5倍的IQR的任何对象都视为离群点，因为Q1-1.5IQR和Q3+1.5IQR之间的区域包含了99.3%的对象。

涉及两个或多个属性或变量的数据称为多元数据。核心思想是把多元离群点检测任务转换成一元离群点检测问题。

- 卡方统计量的多元离群点检测 ：正态分布的假定下，卡方统计量也可以用来捕获多元离群点，对象，卡方统计量是：，是在第i维上的值，是所有对象在第i维上的均值，而n是维度。如果对象的卡方统计量很大，则该对象是离群点。

b. 非参数法：

构造直方图
为了构造一个好的直方图，用户必须指定直方图的类型和其他参数（箱数、等宽or等深）。最简单的方法是，如果该对象落入直方图的一个箱中，则该对象被看做正常的，否则被认为是离群点。也可以使用直方图赋予每个对象一个离群点得分，比如对象的离群点得分为该对象落入的箱的容积的倒数。但这个方法很难选择一个较好的直方图参数。

注意：
传统的观点都认为孤立点是一个单独的点,然而很多的现实情况是异常事件具有一定的时间和空间的局部性,这种局部性会产生一个小的簇.这时候离群点（孤立点）实际上是一个小簇（图下图的C1和C3）。

一个对象是异常的，如果它远离大部分点。这种方法比统计学方法更一般、更容易使用，因为确定数据集的有意义的邻近性度量比确定它的统计分布更容易。不依赖统计检验，将基于邻近度的离群点看作是那些没有“足够多“邻居的对象。这里的邻居是用 邻近度（距离） 来定义的。最常用的距离是绝对距离（曼哈顿）和欧氏距离等等。

一个对象的离群点得分由到它的k-最近邻的距离给定。离群点得分对k的取值高度敏感。如果k太小，则少量的邻近离群点可能导致离群点较少；如果K太大，则点数少于k的簇中所有的对象可能都成了离群点，导致离群点过多。为了使该方案对于k的选取更具有鲁棒性，可以使用k个最近邻的平均距离。

从基于密度的观点来说，离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。基于密度的离群点检测与基于邻近度的离群点检测密切相关，因为密度通常用邻近度定义。

定义密度
一种常用的定义密度的方法是，定义密度为到k个最近邻的平均距离的倒数 。如果该距离小，则密度高，反之亦然。

另一种密度定义是使用DBSCAN聚类算法使用的密度定义，即一个对象周围的密度等于该对象指定距离d内对象的个数。 需要小心的选择d，如果d太小，则许多正常点可能具有低密度，从而离群点较多。如果d太大，则许多离群点可能具有与正常点类似的密度（和离群点得分）无法区分。使用任何密度定义检测离群点具有与基于邻近度的离群点方案类似的特点和局限性。特殊地，当数据包含不同密度的区域时，它们不能正确的识别离群点。

定义相对密度
为了正确的识别这种数据集中的离群点，我们需要与对象邻域相关的密度概念，也就是定义相对密度。常见的有两种方法：
（1）使用基于SNN密度的聚类算法使用的方法；
（2）用点x的密度与它的最近邻y的平均密度之比作为相对密度。使用相对密度的离群点检测（局部离群点要素LOF技术）:

一种利用聚类检测离群点的方法是丢弃远离其他簇的小簇。这个方法可以和其他任何聚类技术一起使用，但是需要最小簇大小和小簇与其他簇之间距离的阈值。这种方案对簇个数的选择高度敏感。使用这个方案很难将离群点得分附加到对象上。

一种更系统的方法，首先聚类所有的点，对某个待测点评估它属于某一簇的程度。（基于原型的聚类可用离中心点的距离来评估，对具有目标函数（例如kmeans法时的簇的误差平方和）的聚类技术，该得分反映删除对象后目标函数的改进），如果删去此点能显着地改善此项目标函数，则可以将该点定位为孤立点。

基于聚类的离群点：一个对象是基于聚类的离群点，如果该对象不强属于任何簇。离群点对初始聚类的影响：如果通过聚类检测离群点，则由于离群点影响聚类，存在一个问题：结构是否有效。为了处理该问题，可以使用如下方法：

对象是否被认为是离群点可能依赖于簇的个数（如k很大时的噪声簇）。该问题也没有简单的答案。一种策略是对于不同的簇个数重复该分析。另一种方法是找出大量小簇，其想法是（1）较小的簇倾向于更加凝聚，（2）如果存在大量小簇时一个对象是离群点，则它多半是一个真正的离群点。不利的一面是一组离群点可能形成小簇而逃避检测。

根据已有训练集检测新样本是否异常

异常检测根据原始数据集的不同可分为两类：
novelty detection: 训练集中没有异常样本
outlier detection: 训练集中有异常样本

异常样本：
数量少，比较分散

novelty detection和outlier detection的区别：

Sklearn异常检测模型一览

5.1 奇异点检测（Novelty Detection）
奇异点检测，就是判断待测样本到底是不是在原来数据的概率分布内。概率学上认为，所有的数据都有它的隐藏的分布模式，这种分布模式可以由概率模型来具象化。

5.1 离群点检测（Outlier Detection）
不同与奇异点检测是，现在我们没有一个干净的训练集（训练集中也有噪声样本）。下面介绍的三种离群点检测算法其实也都可以用于奇异点检测。

如果我们认为，可达密度小的目标样本点就是异常点，这样未尝不可。但是，LOF算法更进一步。

LOF可以用来判断经纬度的异常。

使用python进行异常值(outlier)检测实战:KMeans + PCA + IsolationForest + SVM + EllipticEnvelope

文章引用：数据挖掘：数据清洗——异常值处理

❺ python怎么实现数据的异常值的处理

异常值也称离群值,具体地说,判断标准依据实际情况,根据业务知识及实际需要而定.
要是一般地说,可以用公式计算：
upper adjacent value = 75th percentile + (75th percentile – 25th percentile) * 1.5
lower adjacent value = 25th percentile – (75th percentile – 25th percentile) * 1.5
翻译过来：
上界=75%分位数+（75%分位数-25%分位数）*1.5
下界=25%分位数- （75%分位数-25%分位数）*1.5
比上界大的,和比下界小的都是异常值.

❻ python如何做数据分析

Python做数据分析比较好用且流行的是numpy、pandas库，有兴趣的话，可以深入了解、学习一下。

❼ Python中错误与异常的规范

8. 错误和异常
至今为止还没有进一步的谈论过错误信息，不过在你已经试验过的那些例子中，可能已经遇到过一些。Python 中（至少）有两种错误：语法错误和异常（ syntax errors 和 exceptions ）。
8.1. 语法错误
语法错误，也被称作解析错误，也许是你学习 Python 过程中最常见抱怨:
>>> while True print('Hello world')
File "
", line 1, in ?
while True print('Hello world')
^
SyntaxError: invalid syntax
语法分析器指出错误行，并且在检测到错误的位置前面显示一个小“箭头”。错误是由箭头前面的标记引起的（或者至少是这么检测的）：这个例子中，函数 print() 被发现存在错误，因为它前面少了一个冒号（ ':' ）。错误会输出文件名和行号，所以如果是从脚本输入的你就知道去哪里检查错误了。

❽ Python如何检测恶意刷单行为

1、打开python。2、输入检测类的代码。将账号的订单数和ip地主数量两个变量进行异常值检测，分析出黄牛恶意下单的行为特征，多次重复下单，下单地址区间极短，甚至相同地址。

❾ Python 异常处理总结

什么是异常？

异常即是一个事件，该事件会在程序执行过程中发生，影响了程序的正常执行。一般情况下，在Python无法正常处理程序时就会发生一个异常。

异常是Python对象，表示一个错误。当Python脚本发生异常时我们需要捕获处理它，否则程序会终止执行。

python提供了两个非常重要的功能来处理python程序在运行中出现的异常和错误。你可以使用该功能来调试python程序。

异常处理：本站Python教程会具体介绍。
断言(Assertions)：本站Python教程会具体介绍。

异常处理

捕捉异常可以使用try/except语句。try/except语句用来检测try语句块中的错误，从而让except语句捕获异常信息并处理。如果你不想在异常发生时结束你的程序，只需在try里捕获它。

语法：

以下为简单的try….except…else的语法：

try的工作原理是，当开始一个try语句后，python就在当前程序的上下文中作标记，这样当异常出现时就可以回到这里，try子句先执行，接下来会发生什么依赖于执行时是否出现异常。

· 如果当try后的语句执行时发生异常，python就跳回到try并执行第一个匹配该异常的except子句，异常处理完毕，控制流就通过整个try语句（除非在处理异常时又引发新的异常）。

· 如果在try后的语句里发生了异常，却没有匹配的except子句，异常将被递交到上层的try，或者到程序的最上层（这样将结束程序，并打印缺省的出错信息）。

· 如果在try子句执行时没有发生异常，python将执行else语句后的语句（如果有else的话），然后控制流通过整个try语句。

实例

下面是简单的例子，它打开一个文件，在该文件中的内容写入内容，且并未发生异常：

以上程序输出结果：

实例

下面是简单的例子，它打开一个文件，在该文件中的内容写入内容，但文件没有写入权限，发生了异常：

以上程序输出结果：

使用except而不带任何异常类型

你可以不带任何异常类型使用except，如下实例：

以上方式try-except语句捕获所有发生的异常。但这不是一个很好的方式，我们不能通过该程序识别出具体的异常信息。因为它捕获所有的异常。

使用except而带多种异常类型

你也可以使用相同的except语句来处理多个异常信息，如下所示：

try-finally 语句

try-finally 语句无论是否发生异常都将执行最后的代码。

实例

如果打开的文件没有可写权限，输出如下所示：

同样的例子也可以写成如下方式：

当在try块中抛出一个异常，立即执行finally块代码。finally块中的所有语句执行后，异常被再次提出，并执行except块代码。参数的内容不同于异常。

异常的参数

一个异常可以带上参数，可作为输出的异常信息参数。你可以通过except语句来捕获异常的参数，如下所示：

变量接收的异常值通常包含在异常的语句中。在元组的表单中变量可以接收一个或者多个值。

元组通常包含错误字符串，错误数字，错误位置。

实例

以下为单个异常的实例：

以上程序执行结果如下：

触发异常

我们可以使用raise语句自己触发异常

raise语法格式如下：

语句中Exception是异常的类型（例如，NameError）参数是一个异常参数值。该参数是可选的，如果不提供，异常的参数是”None”。

最后一个参数是可选的（在实践中很少使用），如果存在，是跟踪异常对象。

实例

一个异常可以是一个字符串，类或对象。 Python的内核提供的异常，大多数都是实例化的类，这是一个类的实例的参数。

定义一个异常非常简单，如下所示：

注意：为了能够捕获异常，”except”语句必须有用相同的异常来抛出类对象或者字符串。

例如我们捕获以上异常，”except”语句如下所示：

用户自定义异常

通过创建一个新的异常类，程序可以命名它们自己的异常。异常应该是典型的继承自Exception类，通过直接或间接的方式。

以下为与RuntimeError相关的实例，实例中创建了一个类，基类为RuntimeError，用于在异常触发时输出更多的信息。

在try语句块中，用户自定义的异常后执行except块语句，变量 e 是用于创建Networkerror类的实例。

在你定义以上类后，你可以触发该异常，如下所示：

来源 | 脚本之家原文链接：http://www.jb51.net/article/47996.htm

❿ Python数据分析 | 数据描述性分析

首先导入一些必要的数据处理包和可视化的包，读文档数据并通过前几行查看数据字段。

对于我的数据来说，由于数据量比较大，因此对于缺失值可以直接做删除处理。

得到最终的数据，并提取需要的列作为特征。

对类别数据进行统计：

类别型字段包括location、cpc_class、pa_country、pa_state、pa_city、assignee六个字段，其中：

单变量统计描述是数据分析中最简单的形式，其中被分析的数据只包含一个变量，不处理原因或关系。单变量分析的主要目的是通过对数据的统计描述了解当前数据的基本情况，并找出数据的分布模型。
单变量数据统计描述从集中趋势上看，指标有：均值，中位数，分位数，众数；从离散程度上看，指标有：极差、四分位数、方差、标准差、协方差、变异系数，从分布上看，有偏度，峰度等。需要考虑的还有极大值，极小值（数值型变量）和频数，构成比（分类或等级变量）。

对于数值型数据，首先希望了解一下数据取值范围的分布，因此可以用统计图直观展示数据分布特征，如：柱状图、正方图、箱式图、频率多边形和饼状图。

按照发布的时间先后作为横坐标，数值范围的分布情况如图所示.

还可以根据最终分类的结果查看这些数值数据在不同类别上的分布统计。

箱线图可以更直观的查看异常值的分布情况。

异常值指数据中的离群点，此处定义超出上下四分位数差值的1.5倍的范围为异常值，查看异常值的位置。

参考：
python数据分析之数据分布 - yancheng111 - 博客园
python数据统计分析 -

科尔莫戈罗夫检验(Kolmogorov-Smirnov test)，检验样本数据是否服从某一分布，仅适用于连续分布的检验。下例中用它检验正态分布。

在使用k-s检验该数据是否服从正态分布，提出假设：x从正态分布。最终返回的结果，p-value=0.9260909172362317，比指定的显着水平（一般为5%）大，则我们不能拒绝假设：x服从正态分布。这并不是说x服从正态分布一定是正确的，而是说没有充分的证据证明x不服从正态分布。因此我们的假设被接受，认为x服从正态分布。如果p-value小于我们指定的显着性水平，则我们可以肯定的拒绝提出的假设，认为x肯定不服从正态分布，这个拒绝是绝对正确的。

衡量两个变量的相关性至少有以下三个方法：

皮尔森相关系数（Pearson correlation coefficient）是反应俩变量之间线性相关程度的统计量，用它来分析正态分布的两个连续型变量之间的相关性。常用于分析自变量之间，以及自变量和因变量之间的相关性。

返回结果的第一个值为相关系数表示线性相关程度，其取值范围在[-1,1]，绝对值越接近1，说明两个变量的相关性越强，绝对值越接近0说明两个变量的相关性越差。当两个变量完全不相关时相关系数为0。第二个值为p-value，统计学上，一般当p-value<0.05时，可以认为两变量存在相关性。

斯皮尔曼等级相关系数(Spearman’s correlation coefficient for ranked data ) ，它主要用于评价顺序变量间的线性相关关系，在计算过程中，只考虑变量值的顺序（rank, 秩或称等级），而不考虑变量值的大小。常用于计算类型变量的相关性。

返回结果的第一个值为相关系数表示线性相关程度，本例中correlation趋近于1表示正相关。第二个值为p-value，p-value越小，表示相关程度越显着。

kendall ：

也可以直接对整体数据进行相关性分析，一般来说，相关系数取值和相关强度的关系是：0.8-1.0 极强 0.6-0.8 强 0.4-0.6 中等 0.2-0.4 弱 0.0-0.2 极弱。

导航:首页 > 编程语言 > ais数据异常检测python

ais数据异常检测python

与ais数据异常检测python相关的资料