Interval dôvery pre pomer obyvateľstva

Intervaly spoľahlivosti sa dá použiť na odhad niekoľkých populácií parametre. Jeden typ parametra, ktorý sa dá odhadnúť pomocou inferenciálna štatistika je podiel obyvateľstva. Napríklad by sme mohli vedieť, aké percento obyvateľov USA podporuje konkrétny právny predpis. Pri tomto type otázky musíme nájsť interval spoľahlivosti.

V tomto článku sa dozvieme, ako zostaviť interval spoľahlivosti pre časť populácie, a preskúmame niektoré teórie, ktoré sú za tým.

Celkový rámec

Najprv sa pozrieme na celkový obraz skôr, ako sa dostaneme do špecifík. Typ intervalu spoľahlivosti, ktorý budeme brať do úvahy, má nasledujúcu formu:

Odhad +/- Rozpätie chyby

To znamená, že budeme musieť určiť dve čísla. Tieto hodnoty sú odhadom požadovaného parametra spolu s mierou chyby.

podmienky

Pred vykonaním akýchkoľvek štatistických testov alebo postupov je dôležité skontrolovať, či sú splnené všetky podmienky. Pokiaľ ide o interval spoľahlivosti pre časť populácie, musíme sa ubezpečiť, že platí nasledujúce:

  • Máme jednoduchá náhodná vzorka veľkosti n z veľkej populácie
  • instagram viewer
  • Naši jednotlivci boli vybraní nezávisle od seba.
  • V našej vzorke je najmenej 15 úspechov a 15 zlyhaní.

Ak posledná položka nie je spokojná, je možné, že bude možné mierne upraviť našu vzorku a použiť a plus-štyri interval spoľahlivosti. V nasledujúcom texte predpokladáme, že boli splnené všetky vyššie uvedené podmienky.

Vzorové a populačné proporcie

Začneme odhadom podielu našej populácie. Rovnako ako používame priemernú vzorku na odhad priemeru obyvateľstva, na odhad pomeru populácie používame vzorku. Pomer obyvateľstva je neznámym parametrom. Pomer vzorky je štatistika. Táto štatistika sa zistí spočítaním počtu úspechov vo vzorke a potom vydelením celkovým počtom jednotlivcov vo vzorke.

Podiel obyvateľstva je označený ako p a je samozrejmý. Zápis pomeru vzorky je trochu viac zapojený. Označujeme pomer vzorky ako p̂ a tento symbol čítame ako „p-hat“, pretože to vyzerá ako písmeno p s klobúkom hore.

Toto sa stáva prvou časťou nášho intervalu spoľahlivosti. Odhad p je p̂.

Distribúcia vzorkového podielu

Aby sme určili vzorec pre mieru chyby, musíme myslieť na distribúcia vzoriek p̂. Budeme potrebovať poznať priemer, štandardnú odchýlku a konkrétne rozdelenie, s ktorým pracujeme.

Vzorkovanie distribúcie p̂ je binomické rozdelenie s pravdepodobnosťou úspechu p a n štúdií. Tento typ náhodnej premennej má priemernú hodnotu p a smerodajná odchýlka (p(1 - p)/n)0.5. S tým sú spojené dva problémy.

Prvým problémom je, že binomické rozdelenie môže byť veľmi zložité. Prítomnosť faktoriálov môže viesť k niektorým veľmi veľkým počtom. Tu nám podmienky pomáhajú. Pokiaľ sú naše podmienky splnené, môžeme odhadnúť binomické rozdelenie so štandardným normálnym rozdelením.

Druhým problémom je to, že sa používa štandardná odchýlka p̂ p vo svojej definícii. Neznámy parameter populácie sa odhaduje pomocou toho istého parametra ako miera chyby. Toto kruhové zdôvodnenie je problém, ktorý je potrebné napraviť.

Cesta z tohto hlavolamu je nahradenie štandardnej odchýlky štandardnou chybou. Štandardné chyby sú založené na štatistikách, nie na parametroch. Na odhad smerodajnej odchýlky sa používa štandardná chyba. Táto stratégia má zmysel, pretože už nemusíme poznať hodnotu parametra p.

vzorec

Ak chcete použiť štandardnú chybu, nahradíme neznámy parameter p so štatistikou p̂. Výsledkom je nasledujúci vzorec intervalu spoľahlivosti pre časť populácie:

p̂ +/- z * (p̂ (1 - p̂) /n)0.5.

Tu je hodnota z * je určená našou úrovňou dôvery C. Presne pre štandardné normálne rozdelenie C percento štandardnej normálnej distribúcie je medzi -z * a z *. Spoločné hodnoty pre z * zahŕňajú 1,645 pre 90% spoľahlivosť a 1,96 pre 95% spoľahlivosť.

príklad

Pozrime sa, ako táto metóda funguje s príkladom. Predpokladajme, že by sme chceli s 95% istotou poznať percento voličov v okrese, ktorý sa identifikoval ako demokrat. V tomto kraji robíme jednoduchú náhodnú vzorku 100 ľudí a zistíme, že 64 z nich sa identifikuje ako demokrat.

Vidíme, že sú splnené všetky podmienky. Odhad podielu našej populácie je 64/100 = 0,64. Toto je hodnota podielu vzorky p̂ a je centrom nášho intervalu spoľahlivosti.

Rozpätie chyby sa skladá z dvoch častí. Prvý z nich je z*. Ako sme povedali, pre 95% istotu je hodnota z* = 1.96.

Druhá časť rozpätia chyby je daná vzorcom (p̂ (1 - p̂) /n)0.5. Nastavili sme p̂ = 0,64 a vypočítali sme = štandardná chyba, ktorá má byť (0,64 (0,36) / 100)0.5 = 0.048.

Tieto dve čísla sa znásobia a získame chybu 0,09408. Konečný výsledok je:

0.64 +/- 0.09408,

alebo to môžeme prepísať ako 54,592% na 73,408%. Sme si teda 95% presvedčení, že skutočný podiel obyvateľov Demokratov je niekde v rozmedzí týchto percent. To znamená, že v dlhodobom horizonte bude naša technika a vzorec zachytávať podiel obyvateľstva 95% času.

Súvisiace nápady

S týmto typom intervalu spoľahlivosti je spojených množstvo nápadov a tém. Mohli by sme napríklad vykonať hypotézny test týkajúci sa hodnoty podielu obyvateľstva. Mohli by sme tiež porovnať dva proporcie z dvoch rôznych populácií.

instagram story viewer