什么是統(tǒng)計(jì)引導(dǎo)?
Bootstrapping是一種統(tǒng)計(jì)技術(shù),屬于更廣泛的重采樣標(biāo)題。該技術(shù)涉及一個(gè)相對(duì)簡(jiǎn)單的過(guò)程,但重復(fù)了很多次,嚴(yán)重依賴于計(jì)算機(jī)計(jì)算。Bootstrapping提供了一種除置信區(qū)間之外的方法來(lái)估計(jì)總體參數(shù)。Bootstrapping似乎很像魔術(shù)。繼續(xù)閱讀以了解它如何獲得有趣的名稱。
引導(dǎo)的解釋
推理統(tǒng)計(jì)的一個(gè)目標(biāo)是確定人口參數(shù)的值。直接測(cè)量這一點(diǎn)通常太昂貴甚至不可能。所以我們使用統(tǒng)計(jì)抽樣。我們對(duì)人口進(jìn)行抽樣,測(cè)量此樣本的統(tǒng)計(jì)數(shù)據(jù),然后使用此統(tǒng)計(jì)數(shù)據(jù)來(lái)說(shuō)明人口的相應(yīng)參數(shù)。
例如,在巧克力工廠,我們可能想保證糖果棒具有特定的平均重量。稱量生產(chǎn)的每一個(gè)糖果棒都是不可行的,所以我們使用抽樣技術(shù)隨機(jī)選擇100個(gè)糖果棒。我們計(jì)算這100個(gè)糖果酒吧的平均值,并說(shuō)人口平均值落在我們樣本平均值的誤差范圍內(nèi)。
假設(shè)幾個(gè)月后我們想更準(zhǔn)確地知道-或者更少的誤差范圍-我們?cè)诓蓸由a(chǎn)線當(dāng)天的平均糖果重量是多少。我們不能使用今天的糖果酒吧,因?yàn)檫M(jìn)入圖片的變量太多(不同批次的牛奶,糖和可可豆,不同的太空的小知識(shí)大氣條件,不同的員工在線等)。從我們好奇的那一天起,我們所擁有的就是100個(gè)重量。如果沒有時(shí)間機(jī)器回到那一天,看起來(lái)最初的誤差幅度是我們所能希望的**的。
幸運(yùn)的是,我們可以使用自舉技術(shù)。在這種情況下,我們用repl隨機(jī)抽樣從100個(gè)已知重量開始。然后我們稱之為引導(dǎo)程序樣本。由于我們?cè)试S更換,因此此引導(dǎo)程序樣本很可能與我們的初始樣本不同。某些數(shù)據(jù)點(diǎn)可能會(huì)重復(fù),而自舉樣本中可能會(huì)省略最初100個(gè)數(shù)據(jù)點(diǎn)中的其他數(shù)據(jù)點(diǎn)。在計(jì)算機(jī)的幫助下,可以在相對(duì)較短的時(shí)間內(nèi)構(gòu)建數(shù)千個(gè)引導(dǎo)程序樣本。
示例
如上所述,要真正使用引導(dǎo)技術(shù),我們需要使用計(jì)算機(jī)。以下數(shù)值示例將有助于演示該過(guò)程的工作原理。如果我們從樣本2,4,5,6,6開始,那么以下所有都是可能的引導(dǎo)樣本:
- 34,2,5,5,6,6,35,36,4,5,6,6,37,38,2,2,4,5,5,39,40,2,2,2,4,6,41,42,2,2,2,2,2,43,44,4,6,6,6,45
技術(shù)史
Bootstrap技術(shù)在統(tǒng)計(jì)領(lǐng)域相對(duì)較新。第一次使用是由Bradley Efron在1979年的一篇論文中發(fā)表的。隨著計(jì)算能力的提高和成本的降低,自舉技術(shù)變得越來(lái)越普遍。
為什么名稱引導(dǎo)?
“bootstrapping”這個(gè)名字來(lái)自“用他的bootstraps抬起自己”這個(gè)詞。這是指一種傲慢而不可能的事情。盡可能努力地嘗試,你不能通過(guò)拖拉靴子上的皮革片來(lái)抬起自己。
有一些數(shù)學(xué)理論證明自舉技術(shù)是合理的。但是,使用自舉確實(shí)感覺你正在做不可能的事情。盡管似乎無(wú)法通過(guò)一次又一次地重復(fù)使用相同的樣本來(lái)改進(jìn)總體統(tǒng)計(jì)的估計(jì),但實(shí)際上,引導(dǎo)可以做到這一點(diǎn)。