Bootstrapping je štatistická technika, ktorá spadá pod širšiu hlavičku prevzorkovania. Táto technika vyžaduje pomerne jednoduchý postup, ale opakuje sa toľkokrát, že je silne závislá od počítačových výpočtov. Bootstrapping poskytuje na odhad parametra populácie inú metódu ako intervaly spoľahlivosti. Zdá sa, že zavádzanie systému veľmi funguje ako mágia. Čítajte ďalej a zistite, ako získava zaujímavé meno.
Vysvetlenie zavedenia systému
Jeden cieľ inferenciálna štatistika je určiť hodnotu parametra populácie. Zvyčajne je príliš drahé alebo dokonca nemožné to priamo zmerať. Takže používame štatistické vzorkovanie. Odoberieme vzorku populácie, zmeráme štatistiku tejto vzorky a potom použijeme túto štatistiku na vyjadrenie niečoho o zodpovedajúci parameter populácie.
Napríklad v továrni na čokoládu by sme mohli chcieť zaručiť, že bonbóny majú zvláštnosť Priemerný hmotnosti. Nie je možné vážiť každú vyrobenú cukrovinkovú tyčinku, preto pomocou náhodných metód vyberáme 100 cukroviniek náhodne. Vypočítame priemer z týchto 100 tyčiniek a tvrdíme, že priemerný počet obyvateľov spadá do rozpätia chyby od priemeru našej vzorky.
Predpokladajme, že o niekoľko mesiacov neskôr to chceme vedieť s väčšou presnosťou - alebo menej miera chyby - aká bola priemerná hmotnosť cukroviniek v deň, keď sme odobrali vzorku na výrobnú linku. Nemôžeme použiť ani dnešné sladké tyčinky veľa premenných vstúpili do obrázka (rôzne dávky mlieka, cukru a kakaových bôbov, rôzne atmosférické podmienky, rôznych zamestnancov na linke atď.). Od dňa, kedy sme zvedaví, máme len 100 závaží. Bez toho, aby sa stroj času vrátil do tohto dňa, by sa zdalo, že počiatočná miera chyby je najlepšia, v ktorú môžeme dúfať.
Našťastie môžeme použiť technika zavádzania. V tejto situácii sme náhodne vzorka s náhradou zo 100 známych hmotností. Potom to nazývame ukážka bootstrapu. Pretože umožňujeme výmenu, táto vzorka bootstrapu pravdepodobne nie je totožná s našou pôvodnou vzorkou. Niektoré dátové body môžu byť duplikované a iné dátové body z pôvodných 100 môžu byť vo vzorke bootstrapu vynechané. Pomocou počítača je možné v relatívne krátkom čase zostaviť tisíce vzoriek bootstrap.
Príklad
Ako sme už uviedli, na skutočné používanie techník bootstrapu potrebujeme počítač. Nasledujúci číselný príklad pomôže ukázať, ako tento proces funguje. Ak začneme vzorkou 2, 4, 5, 6, 6, potom sú možné všetky nasledujúce bootstrapové vzorky:
- 2 ,5, 5, 6, 6
- 4, 5, 6, 6, 6
- 2, 2, 4, 5, 5
- 2, 2, 2, 4, 6
- 2, 2, 2, 2, 2
- 4,6, 6, 6, 6
História techniky
Techniky zavádzania sú v oblasti štatistiky relatívne nové. Prvé použitie bolo publikované v článku z roku 1979 Bradleyho Efrona. Ako sa výpočtový výkon zvýšil a stal sa lacnejším, techniky zavádzania sa rozšírili.
Prečo meno Bootstrapping?
Názov „bootstrapping“ pochádza zo vety „Zdvíhať sa pomocou jeho bootstrapov“. To sa týka niečoho, čo je absurdné a nemožné. Vyskúšajte to najťažšie, ako sa len dá, nemôžete sa zdvihnúť do vzduchu potiahnutím za kúsky kože na čižmách.
Existuje určitá matematická teória, ktorá ospravedlňuje techniky zavádzania systému. Avšak použitie bootstrappingu má pocit, že robíte nemožné. Aj keď sa nezdá, že by ste sa dokázali zlepšiť na základe odhadu štatistických údajov o populácii opakovaným opätovným použitím tej istej vzorky, bootstrapping to v skutočnosti môže urobiť.