直方圖類
直方圖是統(tǒng)計(jì)和概率中經(jīng)常使用的許多類型的圖形之一。直方圖通過(guò)使用垂直條提供定量數(shù)據(jù)的可視化顯示。條形的高度表示位于特定值范圍內(nèi)的數(shù)據(jù)點(diǎn)的數(shù)量。這些范圍稱為類或箱。
課程數(shù)量
實(shí)際上沒(méi)有關(guān)于應(yīng)該有多少課程的規(guī)則。關(guān)于課程的數(shù)量有幾件事需要考慮。如果只有一個(gè)類,那么所有的數(shù)據(jù)都將屬于這個(gè)類。我們的直方圖只是一個(gè)矩形,高度由我們數(shù)據(jù)集中的元素?cái)?shù)量給出。這不會(huì)產(chǎn)生非常有用或有用的直方圖。
另一方面,我們可以有很多課程。這將導(dǎo)致大量的酒吧,其中沒(méi)有一個(gè)可能會(huì)非常高。通過(guò)使用這種類型的直方圖來(lái)確定與數(shù)據(jù)的任何區(qū)別特征將是非常困難的。
為了防范這兩個(gè)極端,我們有一個(gè)經(jīng)驗(yàn)法則來(lái)確定直方圖的類數(shù)。當(dāng)我們有一組相對(duì)較小的數(shù)據(jù)時(shí),我們通常只使用大約五個(gè)類。如果數(shù)據(jù)集相對(duì)較大,那么我們使用大約20個(gè)類。
再次強(qiáng)調(diào),這是一個(gè)經(jīng)驗(yàn)法則,而不是**的統(tǒng)計(jì)原則。有充分的理由為數(shù)據(jù)設(shè)置不同數(shù)量的類。我們將在下面看到一個(gè)例子。
定義
在我們考慮幾個(gè)例子之前,我們將看到如何確定課程的實(shí)際內(nèi)容。我們通過(guò)查找數(shù)據(jù)范圍開(kāi)始此過(guò)程。換句話說(shuō),我們從**數(shù)據(jù)值中減去**數(shù)據(jù)值。
當(dāng)數(shù)據(jù)集相對(duì)較小時(shí),我們將范圍除以5。商是我們直方圖的類的寬度。在這個(gè)過(guò)程中,我們可能需要做一些四舍五入,這意味著課程總數(shù)可能不會(huì)達(dá)到五。
當(dāng)數(shù)據(jù)集相對(duì)較大時(shí),我們將范圍除以20。就像以前一樣,這個(gè)劃分問(wèn)題給了我們直方圖的類的寬度。此外,正如我們之前看到的,我們的舍入可能會(huì)導(dǎo)致略多于或略少于20個(gè)班級(jí)。
在大數(shù)據(jù)集或小數(shù)據(jù)集的情況下,我們使第一類從略小于最小數(shù)據(jù)值的點(diǎn)開(kāi)始。我們必須這樣做,使第一個(gè)數(shù)據(jù)值屬于第一類。其他后續(xù)類由我們劃分范圍時(shí)設(shè)置的寬度確定。我們知道,當(dāng)我們的**數(shù)據(jù)值包含在這個(gè)類中時(shí),我們處于**一個(gè)類。
示例
例如,我們將為數(shù)據(jù)集確定適當(dāng)?shù)念悓挾群皖悾?.1,1.9,2.3,3.0,3.2,4.1,4.2,4.4,5.5,5.5,5.6,5.7,5.9,6.2,7.1,7.9,8.3,9.0,9.2,11.1,11.2,14.4,15.5,15.5,16.7,18.9,19.2。
我們看到我們的集合中有27個(gè)數(shù)據(jù)點(diǎn)。這是一個(gè)相對(duì)較小的集合,所以我們將范圍除以五。范圍是19.2-1.1=18.1。我們劃分18.1/5=3.62。這意味著課堂寬度為4是合適的。我們的最小數(shù)據(jù)值是1.1,所以我們從一個(gè)小于這個(gè)的點(diǎn)開(kāi)始第一個(gè)類。由于我們的數(shù)據(jù)由正數(shù)組成,因此將第一類從0變?yōu)?是有意義的。
結(jié)果是:
- 0至4
- 4至8
- 8至12
- 12至16
- 16至20。
例外
可能有一些非常好的理由偏離上述一些建議。
例如,假設(shè)有一個(gè)多項(xiàng)選擇題測(cè)試,其中有35個(gè)問(wèn)題,高中有1000名學(xué)生參加測(cè)試。我們希望形成一個(gè)直方圖,顯示在考試中獲得一定分?jǐn)?shù)的學(xué)生人數(shù)。我們看到35/5=7和35/20=1.75。盡管我們的經(jīng)驗(yàn)法則為我們提供了用于直方圖的寬度為2或7的類的選擇,但具有寬度為1的類可能更好。這些課程將對(duì)應(yīng)于學(xué)生在測(cè)試中正確回答的每個(gè)問(wèn)題。其中第一個(gè)將以0為中心,**一個(gè)將以35為中心。
這是另一個(gè)例子,表明我們?cè)谔幚斫y(tǒng)計(jì)數(shù)據(jù)時(shí)總是需要考慮。
科普教育活動(dòng)