⑴ 工程测量时,如何用格拉布斯准则剔除异常值
在做测量不确定度的评定时,对于测量结果进行数据处理之前,往往要进行异常值的剔除工作。超出在规定条件下预期的误差叫做异常值。产生异常值的原因一般是由于疏忽、失误或突然发生的不该发生的原因造成的,如读错、记错、仪器示值突然跳动、突然震动、操作失误等。所以必须在计算测量结果及不确定度评定中要考虑异常值的判别和剔除。
异常值的判别方法也叫异常值检验法,即:判断异常值的统计检验法。其方法有很多种,例如格拉布斯法、狄克逊法、偏度-峰度法、拉依达法、奈尔法等等。每种方法都有其适用范围和优缺点。每种统计检验法都会犯错误1和错误2。但是有人做过统计,在所有方法中,格拉布斯法犯这两种错误的概率最小,所以本文介绍如何使用格拉布斯法来剔除异常值,其判别步骤如下:
1、假设现在有一组测量数据为:例如测量10次(n=10),获得以下数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
2、排列数据:将上述测量数据按从小到大的顺序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。
3、计算平均值x-和标准差s:x-=7.89;标准差s=2.704。计算时,必须将所有10个数据全部包含在内。
4、计算偏离值:平均值与最小值之差为7.89-4.7=3.19;最大值与平均值之差为14.0-7.89=6.11。
5、确定一个可疑值:比较起来,最大值与平均值之差6.11大于平均值与最小值之差3.19,因此认为最大值14.0是可疑值。
6、计算Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序号——10号;因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。由于 x10-x-是残差,而s是标准差,因而可认为G10是残差与标准差的比值。下面要把计算值Gi与格拉布斯表给出的临界值GP(n)比较,如果计算的Gi值大于表中的临界值GP(n),则能判断该测量数据是异常值,可以剔除。但是要提醒,临界值GP(n)与两个参数有关:检出水平α (与置信概率P有关)和测量次数n (与自由度f有关)。
7、定检出水平α:如果要求严格,检出水平α可以定得小一些,例如定α=0.01,那么置信概率P=1-α=0.99;如果要求不严格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
8、查格拉布斯表获得临界值:根据选定的P值(此处为0.95)和测量次数n(此处为10),查格拉布斯表,横竖相交得临界值G95(10)=2.176。
9、比较计算值Gi和临界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。
10、判断是否为异常值:因为Gi>G95(10),可以判断测量值14.0为异常值,将它从10个测量数据中剔除。
11、余下数据考虑:剩余的9个数据再按以上步骤计算,如果计算的Gi>G95(9),仍然是异常值,剔除;如果Gi<G95(9),不是异常值,则不剔除。本例余下的9个数据中没有异常值。
⑵ 工业工程中 剔除异常值三倍标准差法 中的标准差怎么计算具体例子说明。
设有n个数x1、x2、...、xn,则这n个数的标准差为σ=√{[(x1-xp)^2+(x2-xp)^2+...+(xn-xp)^2]/(n-1)}①,①式中xp为n个数的平均值:xp=(x1+x2+...+xn)/n②;如果某个数偏离平均值大于3σ,则应剔除;假定|xi-xp|≥3σ,则视xi为异常值,应剔除。剔除异常值后应根据留存的数据个数重新计算标准差,重新检查异常值,直到无异常值为止。
⑶ 从数据集中剔除异常数据一般用什么数据算法
聚类可以。将正常的数据聚类在一起,离群点可以认为是异常数据。如果可以知道异常值的特征,尝试一下决策树或者svm一些分类的算法。
⑷ 如何用统计方法去除一组数中的异常值
可以选择以下方法。用线性回归的办法求得某一点到直线最远,去除这一点即可。异常值也称离群值,具体地说,判断标准依据实际情况,根据业务知识及实际需要而定。
要是一般地说,可以用公式计算:
upper adjacent value = 75th percentile + (75th percentile – 25th percentile) * 1.5。
lower adjacent value = 25th percentile – (75th percentile – 25th percentile) * 1.5。
(4)异常值剔除算法扩展阅读:
计算统计量:
μ=(X1+X2+…+Xn)/n。
s=(∑(Xi-μ)/(n-1))½(i=1,2…n)。
Gn=(X(n)-μ)/s。
式中μ——样本平均值;
s——样本标准差;
Gn——格拉布斯检验统计量。
确定检出水平α,查表(见GB4883)得出对应n,α的格拉布斯检验临界值G1-α(n)。当Gn>G1-α(n),则判断Xn为异常值,否则无异常值。给出剔除水平α’的G1-α’(n),当当Gn>G1-α’(n)时,Xn为高度异常值,应剔除。
⑸ excel剔除异常值时的计算公式是什么
步骤1:打开EXCEL,按表2格式输入数据并建立工作表,其中数据个数为13。
步骤2:通过EXCEL提供的MAX函数、MIN函数、MEDIAN函数、STDEV函数,求出数据的最大值、最小值、中位数、标准差。具体求法如下:
取单元格C2,键入公式:=MAX(A2:A14),确认即求得最大值为0.691。
maxx2、取单元格C3,键入公式:=MIN(A2:A14),确认即求得最小值为0.527。
minx3、取单元格C4,键入公式:=MEDIAN (A2:A14),确认即求得中位数为0.556; eM4、取单元格C5,键入公式:=STDEV (A2:A13),确认即求得标准差为0.048。
⑹ excel剔除异常值时的计算公式是什么
异常值有3种,但有一种可以判断所有的异常值,那就是=ISNA()
所以用If() 结合 ISNA() 即可实现你要的功能。
假设你的原公式是f(x)
则: = if(ISNA(f(x)),"",f(X))
⑺ 剔除“异常值”的一般原则是啥
异常值(outlier)是指一组测定值中与平均值的偏差超过两倍标准差的测定值,与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。异常值outlier:一组测定值中与平均值的偏差超过两倍标准差的测定值。与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。在处理数据时,应剔除高度异常的异常值。异常值是否剔除,视具体情况而定。在统计检验时,指定为检出异常值的显着性水平α=0.05,称为检出水平;指定为检出高度异常的异常值的显着性水平α=0.01,称为舍弃水平,又称剔除水平(reject level)。异常值是指一组测定值中与平均值的偏差超过两倍标准差的测定值。与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。在处理数据时,应剔除高度异常的异常值。异常值是否剔除,视具体情况而定。在统计检验时,指定为检出异常值的显着性水平α=0.05,称为检出水平;指定为检出高度异常的异常值的显着性水平α=0.01,称为舍弃水平,又称剔除水平(reject level)。标准化数值(Z-score)可用来帮助识别异常值。Z分数标准化后的数据服从正态分布。因此,应用Z分数可识别异常值。我们建议将Z分数低于-3或高于3的数据看成是异常值。这些数据的准确性要复查,以决定它是否属于该数据集。肖维勒准则法(
Chauvenet):经典方法,改善了拉依达准则,过去应用较多,但它没有固定的概率意义,特别是当测量数据值n无穷大时失效。
⑻ spss 异常值剔除 用什么方法
我常用一下方法:
1、可以通过“分析”下“描述统计“下“频率”的”绘制“直方图”,看图发现频数出现最少的值,就可能是异常值,但还要看距离其它情况的程度。
2、可通过“分析”下的“描述统计”下的“探索”下的“绘制”选项的“叶茎图”,看个案偏离箱体边缘(上端、下端)的距离是箱体的几倍,“○”代表在1.5-3倍之间(离群点),“*”代表超过3倍(极端离群点)。
3、可以通过“分析”下“描述统计“下“描述”下的选项“将标准化存为变量Z”,选择相应的变量,“确定”。将生成新变量,如果值超过2,肯定是异常值。
⑼ 如何剔除数据中的异常值
剔除数据中的异常值的方法:
箱盒图:实验研究时经常使用,非常直观的展示出异常数据。
散点图:研究X和Y的关系时,可直观展示查看是否有异常数据。
描述分析:可通过最大最小值等各类指标大致判断数据是否有异常。
其它:比如结合正态分布图,频数分析等判断是否有异常值。
定义:
异常值outlier:一组测定值中与平均值的偏差超过两倍标准差的测定值 。与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。在处理数据时,应剔除高度异常的异常值。异常值是否剔除,视具体情况而定。
在统计检验时,指定为检出异常值的显着性水平α=0.05,称为检出水平;指定为检出高度异常的异常值的显着性水平α=0.01,称为舍弃水平,又称剔除水平(reject level)。
⑽ 测试中的异常数据剔除用什么方法
统计学中剔除异常数据的方法很多,但在检测和测试中经常用的方法有2种:
1-拉依达准则(也称之为3σ准则):
很简单,就是首先求得n次独立检测结果的实验标准差s和残差,│残差│大于3s的测量值即为异常值删去,然后重新反复计算,将所有异常值剔除。
但这个方法有局限,数据样本必须大于10,一般要求大于50。所以,这个方法现在不常用了,国标里面已经剔除该方法!
2-格拉布斯准则(Grubbs):
这个方法比较常用,尤其是我们检测领域。
方法也很简单,还是首先求得n次独立检测结果的实验标准差s和残差,│残差│/s的值大于g(n)的测量值即为异常值,可删去;同样重新反复计算之,将所有异常值剔除。
g(n)指临界系数,可直接查表获得. 95%的系数可参见下表: