非參數(shù)bootstrap方法,小數(shù)據(jù)集統(tǒng)計的大能手
責(zé)任編輯:傳說的落葉 時間:2018-12-18 10:15
[導(dǎo)讀]這兩篇文章都有引薦“bootstrap”方法,詳情請閱讀全文。
這兩篇文章都有引薦“bootstrap”方法:
中介和調(diào)節(jié)效應(yīng)自助法檢驗, 非正態(tài)截面數(shù)據(jù)
10種常用的的數(shù)據(jù)分析思路, 計量學(xué)者必備
在統(tǒng)計學(xué)中,自助法(Bootstrap Method,Bootstrapping或自助抽樣法)是一種從給定訓(xùn)練集中有放回的均勻抽樣,也就是說,每當(dāng)選中一個樣本,它等可能地被再次選中并被再次添加到訓(xùn)練集中。自助法由Bradley Efron于1979年在《Annals of Statistics》上發(fā)表。當(dāng)樣本來自總體,能以正態(tài)分布來描述,其抽樣分布(Sampling Distribution)為正態(tài)分布(The Normal Distribution);但當(dāng)樣本來自的總體無法以正態(tài)分布來描述,則以漸進分析法、自助法等來分析。采用隨機可置換抽樣(random sampling with replacement)。對于小數(shù)據(jù)集,自助法效果很好。
最常用的一種Bootstrap自助法,假設(shè)給定的數(shù)據(jù)集包含d個樣本。該數(shù)據(jù)集有放回地抽樣m次,產(chǎn)生m個樣本的訓(xùn)練集。這樣原數(shù)據(jù)樣本中的某些樣本很可能在該樣本集中出現(xiàn)多次。沒有進入該訓(xùn)練集的樣本最終形成檢驗集(測試集)。 顯然每個樣本被選中的概率是1/m,因此未被選中的概率就是(1-1/m),這樣一個樣本在訓(xùn)練集中沒出現(xiàn)的概率就是m次都未被選中的概率,即(1-1/m)^m。當(dāng)m趨于無窮大時,這一概率就將趨近于e^-1=0.368,所以留在訓(xùn)練集中的樣本大概就占原來數(shù)據(jù)集的63.2%。
例如:人工樣本為1,2,3;只有三個樣本,則可以從隨機變量X,分布為P(X=k)=1/3, k=1,2,3; 這樣的經(jīng)驗分布中用計算機根據(jù)上述分布自動產(chǎn)生樣本,如產(chǎn)生5個樣本:1 2 3 2 1;也可以是:3 3 2 1 1。
自助法在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練集和測試集時很有用;此外,自助法能從初始數(shù)據(jù)集中產(chǎn)生多個不同的訓(xùn)練集,這對集成學(xué)習(xí)等方法有很大的好處。然而,自助法產(chǎn)生的數(shù)據(jù)集改變了初始數(shù)據(jù)集的分布,這會引入估計偏差。因此,在初始數(shù)據(jù)量足夠時,留出法和交叉驗證法更常用一些。
下面,咱們通過一列slides來看看bootstrap方法。如果不懂這些具體運算,對這種方法有大致的印象也對今后的研究工作有很大的幫助。
可以到計量經(jīng)濟圈社群交流訪問。
- 分享到:
- 人工智能快訊:微軟2024年10月23日
- 阿里云開源AI應(yīng)用開發(fā)2024年10月23日
- 如何將阿里云服務(wù)器2024年10月23日
- 衡陽師范獲省計算機2024年10月16日
- 杭州文三3D打印創(chuàng)意設(shè)2024年10月10日
- 蘇州點鐵工業(yè)設(shè)計申2024年10月10日
- 2024年度中國皮革行業(yè)2024年10月10日
- 2024年世界:人工智能2024年10月10日
- 2024年湖南省“工業(yè)設(shè)2024年10月10日
- 快訊:福建旅游產(chǎn)品2024年10月10日