引導(dǎo)示例

Bootstrapping是一種強(qiáng)大的統(tǒng)計(jì)技術(shù)。當(dāng)我們正在使用的樣本量很小時(shí),它特別有用。在通常情況下,假設(shè)正態(tài)分布或t分布不能處理小于40的樣本量。Bootstrap技術(shù)適用于少于40個(gè)元素的樣本。原因是自舉涉及重采樣。這些技術(shù)對(duì)我們數(shù)據(jù)的分布沒(méi)有任何假設(shè)。

隨著計(jì)算資源變得更加容易獲得,引導(dǎo)變得越來(lái)越流行。這是因?yàn)闉榱耸棺耘e實(shí)用,必須使用計(jì)算機(jī)。在下面的引導(dǎo)示例中,我們將看到它是如何工作的。

示例

我們從一個(gè)我們一無(wú)所知的人口統(tǒng)計(jì)樣本開(kāi)始。我們的目標(biāo)是關(guān)于樣本平均值的90%置信區(qū)間。盡管用于確定置信區(qū)間的其他統(tǒng)計(jì)技術(shù)假設(shè)我們知道總體的均值或標(biāo)準(zhǔn)差,但自舉不需要樣本以外的任何東西。

就我們的例子而言,我們將假設(shè)樣本是1,2,4,4,10。

引導(dǎo)程序樣本

現(xiàn)在,我們從樣本中重新采樣以形成所謂的引導(dǎo)樣本。就像我們的原始樣本一樣,每個(gè)引導(dǎo)程序樣本的大小都為5。由于我們是隨機(jī)選擇然后替換每個(gè)值,因此引導(dǎo)程序樣本可能與原始樣本和彼此不同。

例如,我們將在現(xiàn)實(shí)世界中遇到的情況,我們會(huì)重復(fù)采樣數(shù)百次甚至數(shù)千次。在下面的內(nèi)容中,我們將看到20個(gè)引導(dǎo)程序樣本的示例趣味小知識(shí)

    34,2,1,10,4,2,35,36,4,10,10,2,4,37,38,1,4,1,4,39,40,4,1,1,4,10,41,42,4,4,1,4,4,4,4,2,43,44,4,10,10,10,4
  • 2,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,2,1,1,4
  • 1,10,2,10,10,10,10,10,10,10,10,10,10,4,4,4,4,4,4,4,4,4,4,4
  • 4,4,4,2,4
  • 10,4,1,4,4
  • 4,2,1,1,2
  • 10,2,2,1,1

Mean

由于我們使用引導(dǎo)程序來(lái)計(jì)算總體均值的置信區(qū)間,因此我們現(xiàn)在計(jì)算每個(gè)引導(dǎo)程序樣本的均值。這些裝置按升序排列為:2,2.4,2.6,2.6,2.8,3,3,3.2,3.4,3.6,3.8,4,4,4.2,4.6,5.2,6,6,6.6,7.6。

教育資源網(wǎng)_1

置信區(qū)間

我們現(xiàn)在從引導(dǎo)程序樣本列表中獲得一個(gè)置信區(qū)間。由于我們需要90%的置信區(qū)間,因此我們使用第95和第5個(gè)百分位數(shù)作為區(qū)間的終點(diǎn)。原因是我們將****-90%=10%分成兩半,以便我們將所有自舉樣本均值的中間90%。

對(duì)于上面的例子,我們的置信區(qū)間為2.4到6.6。