統(tǒng)計中的相關(guān)性是什么?
有時數(shù)字數(shù)據(jù)是成對的。也許古生物學(xué)家測量同一恐龍物種的五個化石中股骨(腿骨)和肱骨(臂骨)的長度。將手臂長度與腿部長度分開考慮,并計算諸如平均值或標準偏差之類的事情可能是有意義的。但是,如果研究人員很想知道這兩種測量之間是否存在關(guān)系呢?它'僅僅從腿部分開看手臂是不夠的。相反,古生物學(xué)家應(yīng)該為每個骨骼配對骨骼的長度,并使用稱為相關(guān)性的統(tǒng)計區(qū)域。
什么是相關(guān)性?在上面的例子中,假設(shè)研究人員研究了這些數(shù)據(jù),并得出了不太令人驚訝的結(jié)果,即具有較長臂的恐龍化石也具有較長的腿,并且具有較短臂的化石具有較短的腿。數(shù)據(jù)的散點圖顯示數(shù)據(jù)點都聚集在一條直線附近。然后研究人員會說,化石的臂骨和腿骨的長度之間存在強烈的直線關(guān)系,或相關(guān)性。需要做更多的工作來說明相關(guān)性有多強。
相關(guān)性和散點圖
由于每個數(shù)據(jù)點代表兩個數(shù)字,因此二維散點圖對于可視化數(shù)據(jù)非常有幫助。假設(shè)我們實際上掌握了恐龍數(shù)據(jù),五個化石有以下測量:
- 股骨50cm,肱骨41cm 21 22股骨57cm,肱骨61cm 23 24股骨61cm,肱骨71cm 25 26股骨66cm,肱骨70cm 27 28股骨75cm,肱骨82cm 29
數(shù)據(jù)的散點圖,在水平方向上進行股骨測量,在垂直方向上進行肱骨測量,得到上圖。每個點代表一個骨架的測量值。例如,左下角的點對應(yīng)池塘到骨架#1。右上角的點是骨架#5。
當(dāng)然看起來我們可以畫出一條非常接近所有點的直線。但是我們怎樣才能確定呢?親密關(guān)系在旁觀者的眼中。我們?nèi)绾沃牢覀儗?親密度"與其他人匹配的定義?我們有沒有辦法量化這種親密度?
相關(guān)系數(shù)
為了客觀地測量數(shù)據(jù)沿直線的接近程度,相關(guān)系數(shù)來拯救。相關(guān)系數(shù)通常表示為r,是-1和1之間的實數(shù)。r的值衡量基于公式的相關(guān)強度,消除過程中的任何主觀性。用車小知識在解釋r的值時,需要記住幾個準則。
- 如果r=0,則這些點是完全混雜的,數(shù)據(jù)之間**沒有直線關(guān)系。
- 如果r=-1或r=1,那么所有數(shù)據(jù)點都完美地排列在一條線上。
- 如果r是這些極值以外的值,則結(jié)果是不完美的一條直線。在現(xiàn)實世界的數(shù)據(jù)集中,這是最常見的結(jié)果。
- 如果r為正,則該線以正斜率上升。如果r為負,則該線將向下傾斜,斜率為負。
相關(guān)系數(shù)
的計算相關(guān)系數(shù)r的公式很復(fù)雜,如此處所示。公式的組成部分是兩組數(shù)值數(shù)據(jù)的均值和標準差,以及數(shù)據(jù)點的數(shù)量。對于大多數(shù)實際應(yīng)用,r手工計算很繁瑣。如果我們的數(shù)據(jù)已經(jīng)輸入到一個計算器或電子表格程序與統(tǒng)計命令,那么通常有一個內(nèi)置的功能離子計算r。
相關(guān)性的局限性
雖然相關(guān)性是一個強大的工具,但使用它有一些限制:
- 相關(guān)性并不能完全告訴我們有關(guān)數(shù)據(jù)的一切。平均值和標準偏差仍然很重要。
- 數(shù)據(jù)可以用比直線更復(fù)雜的曲線來描述,但這不會出現(xiàn)在r的計算中。
- 異常值強烈影響相關(guān)系數(shù)。如果我們在數(shù)據(jù)中看到任何異常值,我們應(yīng)該小心我們從r的值中得出的結(jié)論。
- 僅僅因為兩組數(shù)據(jù)是相關(guān)的,它就不會't意味著一個是另一個的原因。