Intervaly spoľahlivosti sú súčasťou inferenciálna štatistika. Základnou myšlienkou tejto témy je odhadnúť hodnotu neznámej populácie parameter pomocou štatistickej vzorky. Môžeme nielen odhadnúť hodnotu parametra, ale môžeme tiež prispôsobiť naše metódy na odhad rozdielu medzi dvoma súvisiacimi parametrami. Napríklad by sme mohli chcieť nájsť rozdiel v percente mužskej volebnej populácie USA, ktorá podporuje konkrétny právny predpis, v porovnaní so ženskou volebnou populáciou.
Uvidíme, ako urobiť tento typ výpočtu vytvorením intervalu spoľahlivosti pre rozdiel medzi dvoma pomermi obyvateľstva. V procese preskúmame niektoré teórie, z ktorých vychádza tento výpočet. Uvidíme niekoľko podobností v tom, ako konštruujeme a interval spoľahlivosti pre jednu časť populácie ako aj interval spoľahlivosti pre rozdiel dvoch priemerov obyvateľstva.
Všeobecné
Predtým, ako sa pozrieme na konkrétny vzorec, ktorý použijeme, pozrime sa na celkový rámec, do ktorého tento typ intervalu spoľahlivosti zapadá. Forma typu intervalu spoľahlivosti, ktorý sa pozrieme, je daný nasledujúcim vzorcom:
Odhad +/- Rozpätie chyby
Je veľa intervalov spoľahlivosti tohto typu. Potrebujeme počítať dve čísla. Prvou z týchto hodnôt je odhad parametra. Druhou hodnotou je miera chyby. Táto miera chybovosti predstavuje skutočnosť, že máme odhad. Interval spoľahlivosti nám poskytuje rozsah možných hodnôt pre náš neznámy parameter.
podmienky
Pred akýmkoľvek výpočtom by sme sa mali uistiť, že sú splnené všetky podmienky. Aby sme našli interval spoľahlivosti pre rozdiel dvoch pomerov obyvateľstva, musíme sa ubezpečiť, že platí nasledujúce:
- Máme dve jednoduché náhodné vzorky z veľkých populácií. Výraz „veľký“ tu znamená, že populácia je najmenej 20-krát väčšia ako veľkosť vzorky. Veľkosti vzoriek budú označené n1 a n2.
- Naši jednotlivci boli vybraní nezávisle od seba.
- V každej našej vzorke je najmenej desať úspechov a desať zlyhaní.
Ak posledná položka v zozname nie je splnená, môže existovať spôsob, ako to obísť. Môžeme zmeniť plus-štyri interval spoľahlivosti konštrukciu a získanie robustné výsledky. Pri ďalšom postupe predpokladáme, že boli splnené všetky uvedené podmienky.
Vzorky a podiely obyvateľstva
Teraz sme pripravení zostaviť náš interval spoľahlivosti. Začneme odhadom rozdielu medzi pomermi našej populácie. Obidva tieto podiely obyvateľstva sa odhadujú na základe podielu vzorky. Tieto proporcie vzorky sú štatistiky, ktoré sa zistia vydelením počtu úspechov v každej vzorke a potom vydelením príslušnou veľkosťou vzorky.
Prvý podiel obyvateľstva je označený ako p1. Ak je počet úspechov v našej vzorke z tejto populácie k1, potom máme podiel vzorky k1 / n1.
Túto štatistiku označujeme p̂1. Tento symbol sme čítali ako „s1- „“ pretože to vyzerá ako symbol p1 s klobúkom hore.
Podobným spôsobom môžeme vypočítať podiel vzorky z našej druhej populácie. Parameter z tejto populácie je p2. Ak je počet úspechov v našej vzorke z tejto populácie k2, a náš pomer vzorky je p̂2 = k2 / n2.
Tieto dve štatistiky sa stanú prvou časťou nášho intervalu spoľahlivosti. Odhad p1 je p̂1. Odhad p2 je p̂2. Takže odhad rozdielu p1 - p2 je p̂1 - p̂2.
Distribúcia vzorkovania rozdielu pomerov vzoriek
Ďalej musíme získať vzorec pre rozpätie chyby. Aby sme to dosiahli, najprv zvážime distribúcia vzoriek p̂1 . Toto je binomické rozdelenie s pravdepodobnosťou úspechu p1 a n1 štúdií. Priemer tohto rozdelenia je pomer p1. Štandardná odchýlka tohto typu náhodnej premennej má rozptyl p1 (1 - p1 )/n1.
Distribúcia vzorkovania p̂2 je podobný ako u p̂1 . Jednoducho zmeňte všetky indexy z 1 na 2 a máme binomické rozdelenie so strednou hodnotou p2 a rozptyl p2 (1 - p2 )/n2.
Teraz potrebujeme niekoľko výsledkov z matematických štatistík, aby sme mohli určiť distribúciu vzorkovania p̂1 - p̂2. Priemer tejto distribúcie je p1 - p2. Vzhľadom na to, že rozdiely sa sčítajú, vidíme, že rozptyl distribúcie vzorkovania je p1 (1 - p1 )/n1 + p2 (1 - p2 )/n2. Štandardná odchýlka distribúcie je druhá odmocnina tohto vzorca.
Musíme urobiť niekoľko úprav. Prvým je, že vzorec pre štandardnú odchýlku p̂1 - p̂2 používa neznáme parametre p1 a p2. Ak by sme tieto hodnoty skutočne poznali, potom by to vôbec nebol zaujímavý štatistický problém. Nebudeme musieť odhadovať rozdiel medzi p1 a p2.. Namiesto toho by sme mohli jednoducho vypočítať presný rozdiel.
Tento problém možno vyriešiť skôr výpočtom štandardnej chyby ako štandardnej odchýlky. Musíme iba nahradiť podiely obyvateľstva vzorkami. Štandardné chyby sa počítajú z štatistík namiesto parametrov. Štandardná chyba je užitočná, pretože efektívne odhaduje štandardnú odchýlku. To pre nás znamená, že už nemusíme poznať hodnotu parametrov p1 a p2. .Pretože tieto pomery vzoriek sú známe, je štandardná chyba daná druhou odmocninou nasledujúceho výrazu:
p1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.
Druhou položkou, ktorú musíme riešiť, je konkrétna forma distribúcie vzoriek. Ukázalo sa, že na priblíženie vzorkovacej distribúcie p̂ môžeme použiť normálne rozdelenie1 - p̂2. Dôvod je trochu technický, ale je uvedený v nasledujúcom odseku.
Obidve p̂1 a p̂2 mať distribúciu vzorkovania, ktorá je binomická. Každá z týchto binomických distribúcií sa dá celkom dobre aproximovať normálnym rozdelením. Tak p̂1 - p̂2 je náhodná premenná. Tvorí sa ako lineárna kombinácia dvoch náhodných premenných. Každá z nich je aproximovaná normálnym rozdelením. Rozloženie odberu vzoriek p of1 - p̂2 je bežne distribuovaný.
Vzorec intervalu spoľahlivosti
Teraz máme všetko, čo potrebujeme na zostavenie nášho intervalu spoľahlivosti. Odhad je (p̂1 - p̂2) a miera chybovosti je z * [p1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5. Hodnota, ktorú zadáme z * je daná úrovňou dôvery C. Bežne používané hodnoty pre z * sú 1,645 pre 90% spoľahlivosť a 1,96 pre 95% spoľahlivosť. Tieto hodnoty pre z * označujú časť štandardného normálneho rozdelenia, kde presne C percento distribúcie je medzi -z * a z *.
Nasledujúci vzorec nám dáva interval spoľahlivosti pre rozdiel medzi dvoma pomermi obyvateľstva:
(p1 - p̂2) +/- z * [p1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5