Čo je distribúcia vzoriek?

Štatistické výbery sa v štatistikách používa pomerne často. V tomto procese sa snažíme určiť niečo o populácii. Pretože populácie sú typicky veľké, tvoríme štatistickú vzorku výberom podskupiny populácie, ktorá má vopred určenú veľkosť. Pri štúdiu vzorky môžeme pomocou inferenčných štatistík určiť niečo o populácii.

Štatistická vzorka veľkosti n zahŕňa jednu skupinu n jednotlivci alebo subjekty, ktoré boli náhodne vybrané z populácie. S koncepciou štatistickej vzorky úzko súvisí rozloženie odberu vzoriek.

Pôvod distribúcie vzoriek

Distribúcia vzorkovania nastane, keď vytvoríme viac ako jednu jednoduchá náhodná vzorka rovnakej veľkosti z danej populácie. Tieto vzorky sa považujú za navzájom nezávislé. Takže ak je jednotlivec v jednej vzorke, potom je rovnako pravdepodobné, že bude v ďalšej vzorke, ktorá sa odoberie.

Vypočítame konkrétnu štatistiku pre každú vzorku. Môže to byť vzorka Priemerný, rozptyl vzorky alebo pomer vzorky. Keďže štatistika závisí od vzorky, ktorú máme, každá vzorka zvyčajne vytvorí pre štatistiku záujmu inú hodnotu. Rozsah vyrábaných hodnôt je to, čo nám dáva našu distribúciu vzorkovania.

instagram viewer

Distribúcia vzoriek pre prostriedky

Napríklad vezmeme do úvahy rozdelenie vzoriek pre priemernú hodnotu. Priemer populácie je parameter, ktorý je zvyčajne neznámy. Ak vyberieme vzorku s veľkosťou 100, potom sa priemer tejto vzorky ľahko vypočíta spočítaním všetkých hodnôt a potom vydelením celkovým počtom dátových bodov, v tomto prípade 100. Jedna vzorka s veľkosťou 100 nám môže dať priemer 50. Ďalšia takáto vzorka môže mať priemer 49. Ďalších 51 a ďalšia vzorka mohla mať priemernú hodnotu 50,5.

Distribúcia týchto vzorových prostriedkov nám poskytuje distribúciu vzoriek. Chceli by sme zvážiť viac ako iba štyri vzorové prostriedky, ako sme to urobili vyššie. Pri niekoľkých ďalších vzorkách by sme mali dobrú predstavu o tvare distribúcie vzorkovania.

Prečo nám záleží?

Distribúcie vzoriek sa môžu zdať dosť abstraktné a teoretické. Ich používanie však má niekoľko veľmi dôležitých dôsledkov. Jednou z hlavných výhod je to, že eliminujeme variabilitu, ktorá je prítomná v štatistikách.

Predpokladajme napríklad, že začíname s populáciou s priemerom μ a štandardnou odchýlkou ​​σ. Štandardná odchýlka nám poskytuje mieru rozloženia distribúcie. Toto porovnáme s distribúciou vzoriek získanou vytvorením jednoduchých náhodných vzoriek veľkosti n. Distribúcia vzorkovania strednej hodnoty bude mať stále priemernú hodnotu μ, ale štandardná odchýlka je iná. Štandardná odchýlka pre distribúciu vzorkovania sa stáva σ / √ n.

Máme teda nasledujúce

  • Veľkosť vzorky 4 nám umožňuje rozdelenie vzorkovania so štandardnou odchýlkou ​​σ / 2.
  • Veľkosť vzorky 9 nám umožňuje distribúciu vzorkovania so štandardnou odchýlkou ​​σ / 3.
  • Veľkosť vzorky 25 nám umožňuje distribúciu vzorkovania so štandardnou odchýlkou ​​σ / 5.
  • Veľkosť vzorky 100 nám umožňuje distribúciu vzorkovania so štandardnou odchýlkou ​​σ / 10.

V praxi

V praxi štatistík zriedka tvoríme distribúcie vzoriek. Namiesto toho spracovávame štatistické údaje odvodené z jednoduchej náhodnej vzorky veľkosti n akoby boli jedným bodom zodpovedajúcej distribúcie vzorkovania. To opäť zdôrazňuje, prečo chceme mať relatívne veľké vzorky. Čím väčšia je veľkosť vzorky, tým menšie sú rozdiely v našej štatistike.

Všimnite si, že okrem stredu a šírenia nemôžeme povedať nič o tvare nášho rozdelenia vzoriek. Ukazuje sa, že za určitých pomerne širokých podmienok Veta centrálneho limitu sa dá použiť na to, aby sme povedali niečo celkom úžasné o tvare distribúcie vzoriek.