如何在統(tǒng)計中確定異常值?
異常值是與一組數(shù)據(jù)中的大多數(shù)數(shù)據(jù)差別很大的數(shù)據(jù)值。這些值超出了數(shù)據(jù)中存在的總體趨勢。仔細檢查一組數(shù)據(jù)以尋找異常值會導(dǎo)致一些困難。雖然很容易看出,可能通過使用stemplot,某些值與其余數(shù)據(jù)不同,但必須將該值視為異常值有多大差異?我們將研究一個特定的測量,這將給我們一個客觀的標(biāo)準(zhǔn),什么構(gòu)成異常值。
Interquartile Range
四分位間距是我們可以用來確定極值是否確實是異常值的范圍。四分位間距基于數(shù)據(jù)集的五個數(shù)字摘要的一部分,即第一個四分位數(shù)和第三個四分位數(shù)。四分位間距的計算涉及單個算術(shù)運算。我們要做的就是找到四分位間距,就是從第三四分位數(shù)中減去第一個四分位數(shù)。由此產(chǎn)生的差異告訴我們?nèi)绾畏稚⑽覀償?shù)據(jù)的中間部分。
14確定異常值15 16
將四分位間距(IQR)乘以1.5將為我們提供一種確定某個值是否為異常值的方法。如果我們從第一個四分位數(shù)中減去1.5 x IQR,則任何小于此數(shù)字的數(shù)據(jù)值都被視為異常值。同樣,如果我們將1.5 x IQR添加到第三四分位數(shù),則任何大于此數(shù)字的數(shù)據(jù)值都被視為異常值。科普背景
強異常值
一些異常值顯示出與數(shù)據(jù)集其余部分的極端偏差。在這些情況下,我們可以采取上述步驟,僅更改我們將IQR乘以的數(shù)字,并定義某種類型的異常值。如果我們從第一個四分位數(shù)中減去3.0 x IQR,則任何低于此數(shù)字的點都稱為強異常值。同樣,在第三四分位數(shù)上添加3.0 x IQR可以讓我們定義st通過查看大于此數(shù)字的點來顯示異常值。
弱異常值
除了強異常值外,還有另一類異常值。如果數(shù)據(jù)值是異常值,但不是強異常值,那么我們說該值是弱異常值。我們將通過探索一些例子來看待這些概念。
示例1
首先,假設(shè)我們有數(shù)據(jù)集{1,2,2,3,3,4,5,5,9}。數(shù)字9當(dāng)然看起來可能是一個異常值。它遠遠大于集合其余部分的任何其他值。為了客觀地確定9是否是異常值,我們使用上述方法。第一個四分位數(shù)是2,第三個四分位數(shù)是5,這意味著四分位數(shù)范圍是3。我們將四分位間距乘以1.5,得到4.5,然后將這個數(shù)字加到第三四分位數(shù)。結(jié)果9.5大于我們的任何數(shù)據(jù)值。因此沒有異常值。
示例2
現(xiàn)在,我們查看與以前相同的數(shù)據(jù)集,不同的是**值為10而不是9:{1、2、2、3、3、4、5、5、10}。第一個四分位數(shù),第三個四分位數(shù)和四分位間距與示例1相同。當(dāng)我們將1.5 x IQR=4.5添加到第三四分位數(shù)時,總和為9.5。由于10大于9.5,因此被認(rèn)為是異常值。
10是強還是弱異常值?為此,我們需要看3 x IQR=9。當(dāng)我們在第三四分位數(shù)加9時,我們最終得到14的總和。由于10不大于14,因此它不是一個強異常值。因此,我們得出結(jié)論,10是一個弱異常值。
識別異常值的原因
我們總是需要注意異常值。有時它們是由錯誤引起的。其他時間異常值表示存在先前未知的現(xiàn)象。我們需要勤奮檢查異常值的另一個原因是因為所有的描述性統(tǒng)計數(shù)據(jù)都很敏感異常值。配對數(shù)據(jù)的均值,標(biāo)準(zhǔn)差和相關(guān)系數(shù)只是這些類型統(tǒng)計數(shù)據(jù)中的一小部分。