計量系列14:異常值(離群值)的判別和剔除

“可疑值是否都是異常值?異常值是否都要剔除?

在計量校準和檢測實驗室,常常對同一被測量進行多次測量(包含多批次分組測量),而在多個測得值中存在一些可疑值,它們明顯離群,是直接剔除重新取樣,還是保留“真實”資料?

01

異常值的判別

在測量過程中,由於某種原因,比如測量儀器的突然跳動,設施的突然變化,場地的突然震動,電磁干擾,人為的誤操作或讀數錯誤等都會造成測得值的不可靠。

對一個被測量重複測量所得多個測得值中,存在與其他測得值偏離較遠的個別值,我們稱之為異常值,或離群值,或粗大誤差。

測得值中混雜異常值,影響到均值和標準偏差的計算結果,也會影響到重複性和不確定度,最終影響到測量結果。

如果已經發現存在產生異常值的條件發生,則採用物理判別法隨時判別並剔除。

如果測量過程正常,但測得值中有可疑值,如何判別其是否為異常值,則可採用統計判別法。

給定一個置信機率,並確定一個離群限,凡超過此離群限的,就認為它不屬於隨機誤差範圍,可將其作為異常值剔除。

02

格拉布斯準則

一組重複測得值為xi,其隨機誤差滿足正態分佈,假設其殘差絕對值最大值對應測得值為可疑值xd,如果滿足下式,則判定可疑值xd為異常值。

計量系列14:異常值(離群值)的判別和剔除

式中,G為與顯著性水平和測量次數有關的格拉布斯臨界值,為常數,可查詢臨界值表得到。

格拉布斯準則不建議用於六次以下的樣本(即測量次數n不小於6)。

格拉布斯準則適用於單個異常值的剔除。但從常規測量的經驗看,一般不存在多個異常值,故該方法是最常用的檢驗方法。

計量系列14:異常值(離群值)的判別和剔除

看累了就欣賞一下畫吧

03

其他常用準則

拉依達準則( 或 3σ準則)

拉依達準則處理原理及方法僅侷限於對正態或近似正態分佈的樣本資料處理,它是以測量次數充分大為前提(n10,一般要求大於50),當測量次數少的情形用該準則剔除異常值是不可靠的。

一組重複測得值為xi,假設某個可疑值xd的殘差絕對值滿足下式,則判定可疑值xd為異常值。

計量系列14:異常值(離群值)的判別和剔除

數值分佈在(μ-3σ,μ+3σ)中的機率為0。9973,超出值即認為是異常值。

因為在顯著性水平為0。05、測量次數為50時的格拉布斯臨界值為2。956,約等於3。因此拉依達準則和格拉布斯準則是統一的。

狄克遜(Dixon)準則

公式比較複雜,我就不輸入了,感興趣的自己百度吧。狄克遜準則可以多次剔除異常值,但每次只能剔除一個,剔除後重新按照從小到大的順序排列,並再次檢驗是否存在異常值。

04

選擇與應用

一般測量次數不足50次,異常值不大於1個,所以格拉布斯準則是最常用的檢驗方法。如果測量次數大於50次,也可用拉依達準則。當直觀感覺兩側各存在一個異常值時,可採用狄克遜準則進行多次剔除。

但是否剔除異常值需綜合考慮。當對測量儀器進行採購驗收時,則不應隨意剔除,應增加試驗次數,看異常值是否仍然存在,如果存在,則是儀器本身的質量問題。如果不再出現,應採用顯著性水平為0。01對應的格拉布斯臨界值計算,保證剔除的是統計離群值,而非歧離值。同時,用狄克遜準則進行檢驗,如果兩種準則均判定為異常值,則剔除,如果只有一種準則判定為異常值,則最好按正常值處理。

現實中,如果實驗室不加分析,人為地丟掉異常值(甚至是偏離均值較大的非異常值),得到“較小”的離散性是違反規律的。遲早會在以後的測量中暴露出來,帶來計量檢測質量的不可靠和實驗室計量檢測能力的質疑。

如果覺得此文對您有一點點幫助,請轉發分享給更多需要的人。

你 “在看” 我嗎?