⑴ 工程測量時,如何用格拉布斯准則剔除異常值
在做測量不確定度的評定時,對於測量結果進行數據處理之前,往往要進行異常值的剔除工作。超出在規定條件下預期的誤差叫做異常值。產生異常值的原因一般是由於疏忽、失誤或突然發生的不該發生的原因造成的,如讀錯、記錯、儀器示值突然跳動、突然震動、操作失誤等。所以必須在計算測量結果及不確定度評定中要考慮異常值的判別和剔除。
異常值的判別方法也叫異常值檢驗法,即:判斷異常值的統計檢驗法。其方法有很多種,例如格拉布斯法、狄克遜法、偏度-峰度法、拉依達法、奈爾法等等。每種方法都有其適用范圍和優缺點。每種統計檢驗法都會犯錯誤1和錯誤2。但是有人做過統計,在所有方法中,格拉布斯法犯這兩種錯誤的概率最小,所以本文介紹如何使用格拉布斯法來剔除異常值,其判別步驟如下:
1、假設現在有一組測量數據為:例如測量10次(n=10),獲得以下數據:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0。
2、排列數據:將上述測量數據按從小到大的順序排列,得到4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。可以肯定,可疑值不是最小值就是最大值。
3、計算平均值x-和標准差s:x-=7.89;標准差s=2.704。計算時,必須將所有10個數據全部包含在內。
4、計算偏離值:平均值與最小值之差為7.89-4.7=3.19;最大值與平均值之差為14.0-7.89=6.11。
5、確定一個可疑值:比較起來,最大值與平均值之差6.11大於平均值與最小值之差3.19,因此認為最大值14.0是可疑值。
6、計算Gi值:Gi=(xi-x- )/s;其中i是可疑值的排列序號——10號;因此G10=( x10-x- )/s=(14.0-7.89)/2.704=2.260。由於 x10-x-是殘差,而s是標准差,因而可認為G10是殘差與標准差的比值。下面要把計算值Gi與格拉布斯表給出的臨界值GP(n)比較,如果計算的Gi值大於表中的臨界值GP(n),則能判斷該測量數據是異常值,可以剔除。但是要提醒,臨界值GP(n)與兩個參數有關:檢出水平α (與置信概率P有關)和測量次數n (與自由度f有關)。
7、定檢出水平α:如果要求嚴格,檢出水平α可以定得小一些,例如定α=0.01,那麼置信概率P=1-α=0.99;如果要求不嚴格,α可以定得大一些,例如定α=0.10,即P=0.90;通常定α=0.05,P=0.95。
8、查格拉布斯表獲得臨界值:根據選定的P值(此處為0.95)和測量次數n(此處為10),查格拉布斯表,橫豎相交得臨界值G95(10)=2.176。
9、比較計算值Gi和臨界值G95(10):Gi=2.260,G95(10)=2.176,Gi>G95(10)。
10、判斷是否為異常值:因為Gi>G95(10),可以判斷測量值14.0為異常值,將它從10個測量數據中剔除。
11、餘下數據考慮:剩餘的9個數據再按以上步驟計算,如果計算的Gi>G95(9),仍然是異常值,剔除;如果Gi<G95(9),不是異常值,則不剔除。本例餘下的9個數據中沒有異常值。
⑵ 工業工程中 剔除異常值三倍標准差法 中的標准差怎麼計算具體例子說明。
設有n個數x1、x2、...、xn,則這n個數的標准差為σ=√{[(x1-xp)^2+(x2-xp)^2+...+(xn-xp)^2]/(n-1)}①,①式中xp為n個數的平均值:xp=(x1+x2+...+xn)/n②;如果某個數偏離平均值大於3σ,則應剔除;假定|xi-xp|≥3σ,則視xi為異常值,應剔除。剔除異常值後應根據留存的數據個數重新計算標准差,重新檢查異常值,直到無異常值為止。
⑶ 從數據集中剔除異常數據一般用什麼數據演算法
聚類可以。將正常的數據聚類在一起,離群點可以認為是異常數據。如果可以知道異常值的特徵,嘗試一下決策樹或者svm一些分類的演算法。
⑷ 如何用統計方法去除一組數中的異常值
可以選擇以下方法。用線性回歸的辦法求得某一點到直線最遠,去除這一點即可。異常值也稱離群值,具體地說,判斷標准依據實際情況,根據業務知識及實際需要而定。
要是一般地說,可以用公式計算:
upper adjacent value = 75th percentile + (75th percentile – 25th percentile) * 1.5。
lower adjacent value = 25th percentile – (75th percentile – 25th percentile) * 1.5。
(4)異常值剔除演算法擴展閱讀:
計算統計量:
μ=(X1+X2+…+Xn)/n。
s=(∑(Xi-μ)/(n-1))½(i=1,2…n)。
Gn=(X(n)-μ)/s。
式中μ——樣本平均值;
s——樣本標准差;
Gn——格拉布斯檢驗統計量。
確定檢出水平α,查表(見GB4883)得出對應n,α的格拉布斯檢驗臨界值G1-α(n)。當Gn>G1-α(n),則判斷Xn為異常值,否則無異常值。給出剔除水平α』的G1-α』(n),當當Gn>G1-α』(n)時,Xn為高度異常值,應剔除。
⑸ excel剔除異常值時的計算公式是什麼
步驟1:打開EXCEL,按表2格式輸入數據並建立工作表,其中數據個數為13。
步驟2:通過EXCEL提供的MAX函數、MIN函數、MEDIAN函數、STDEV函數,求出數據的最大值、最小值、中位數、標准差。具體求法如下:
取單元格C2,鍵入公式:=MAX(A2:A14),確認即求得最大值為0.691。
maxx2、取單元格C3,鍵入公式:=MIN(A2:A14),確認即求得最小值為0.527。
minx3、取單元格C4,鍵入公式:=MEDIAN (A2:A14),確認即求得中位數為0.556; eM4、取單元格C5,鍵入公式:=STDEV (A2:A13),確認即求得標准差為0.048。
⑹ excel剔除異常值時的計算公式是什麼
異常值有3種,但有一種可以判斷所有的異常值,那就是=ISNA()
所以用If() 結合 ISNA() 即可實現你要的功能。
假設你的原公式是f(x)
則: = if(ISNA(f(x)),"",f(X))
⑺ 剔除「異常值」的一般原則是啥
異常值(outlier)是指一組測定值中與平均值的偏差超過兩倍標准差的測定值,與平均值的偏差超過三倍標准差的測定值,稱為高度異常的異常值。異常值outlier:一組測定值中與平均值的偏差超過兩倍標准差的測定值。與平均值的偏差超過三倍標准差的測定值,稱為高度異常的異常值。在處理數據時,應剔除高度異常的異常值。異常值是否剔除,視具體情況而定。在統計檢驗時,指定為檢出異常值的顯著性水平α=0.05,稱為檢出水平;指定為檢出高度異常的異常值的顯著性水平α=0.01,稱為舍棄水平,又稱剔除水平(reject level)。異常值是指一組測定值中與平均值的偏差超過兩倍標准差的測定值。與平均值的偏差超過三倍標准差的測定值,稱為高度異常的異常值。在處理數據時,應剔除高度異常的異常值。異常值是否剔除,視具體情況而定。在統計檢驗時,指定為檢出異常值的顯著性水平α=0.05,稱為檢出水平;指定為檢出高度異常的異常值的顯著性水平α=0.01,稱為舍棄水平,又稱剔除水平(reject level)。標准化數值(Z-score)可用來幫助識別異常值。Z分數標准化後的數據服從正態分布。因此,應用Z分數可識別異常值。我們建議將Z分數低於-3或高於3的數據看成是異常值。這些數據的准確性要復查,以決定它是否屬於該數據集。肖維勒准則法(
Chauvenet):經典方法,改善了拉依達准則,過去應用較多,但它沒有固定的概率意義,特別是當測量數據值n無窮大時失效。
⑻ spss 異常值剔除 用什麼方法
我常用一下方法:
1、可以通過「分析」下「描述統計「下「頻率」的」繪制「直方圖」,看圖發現頻數出現最少的值,就可能是異常值,但還要看距離其它情況的程度。
2、可通過「分析」下的「描述統計」下的「探索」下的「繪制」選項的「葉莖圖」,看個案偏離箱體邊緣(上端、下端)的距離是箱體的幾倍,「○」代表在1.5-3倍之間(離群點),「*」代表超過3倍(極端離群點)。
3、可以通過「分析」下「描述統計「下「描述」下的選項「將標准化存為變數Z」,選擇相應的變數,「確定」。將生成新變數,如果值超過2,肯定是異常值。
⑼ 如何剔除數據中的異常值
剔除數據中的異常值的方法:
箱盒圖:實驗研究時經常使用,非常直觀的展示出異常數據。
散點圖:研究X和Y的關系時,可直觀展示查看是否有異常數據。
描述分析:可通過最大最小值等各類指標大致判斷數據是否有異常。
其它:比如結合正態分布圖,頻數分析等判斷是否有異常值。
定義:
異常值outlier:一組測定值中與平均值的偏差超過兩倍標准差的測定值 。與平均值的偏差超過三倍標准差的測定值,稱為高度異常的異常值。在處理數據時,應剔除高度異常的異常值。異常值是否剔除,視具體情況而定。
在統計檢驗時,指定為檢出異常值的顯著性水平α=0.05,稱為檢出水平;指定為檢出高度異常的異常值的顯著性水平α=0.01,稱為舍棄水平,又稱剔除水平(reject level)。
⑽ 測試中的異常數據剔除用什麼方法
統計學中剔除異常數據的方法很多,但在檢測和測試中經常用的方法有2種:
1-拉依達准則(也稱之為3σ准則):
很簡單,就是首先求得n次獨立檢測結果的實驗標准差s和殘差,│殘差│大於3s的測量值即為異常值刪去,然後重新反復計算,將所有異常值剔除。
但這個方法有局限,數據樣本必須大於10,一般要求大於50。所以,這個方法現在不常用了,國標裡面已經剔除該方法!
2-格拉布斯准則(Grubbs):
這個方法比較常用,尤其是我們檢測領域。
方法也很簡單,還是首先求得n次獨立檢測結果的實驗標准差s和殘差,│殘差│/s的值大於g(n)的測量值即為異常值,可刪去;同樣重新反復計算之,將所有異常值剔除。
g(n)指臨界系數,可直接查表獲得. 95%的系數可參見下表: