Rozdiel v populácii udáva, ako sa dá rozložiť súbor údajov. Bohužiaľ je zvyčajne nemožné presne vedieť, čo je tento parameter populácie. Na kompenzáciu nášho nedostatku vedomostí používame tému nazývanú inferenciálna štatistika intervaly spoľahlivosti. Uvidíme príklad, ako vypočítať interval spoľahlivosti pre odchýlku populácie.
Vzorec intervalu spoľahlivosti
Vzorec pre (1 - α) interval spoľahlivosti rozptylu populácie. Je daný nasledujúcim reťazcom nerovností:
[ (n - 1)s2] / B < σ2 < [ (n - 1)s2] / .
Tu n je veľkosť vzorky, s2 je rozptyl vzorky. Číslo je bod rozloženia chí-kvadrát s n -1 stupňov voľnosti, pri ktorej je presne a / 2 plochy pod krivkou vľavo od . Podobným spôsobom číslo B je bod rovnakého rozloženia chí-kvadrát s presne α / 2 plochy pod krivkou napravo od B.
predkola
Začneme súborom údajov s 10 hodnotami. Táto sada dátových hodnôt bola získaná jednoduchou náhodnou vzorkou:
97, 75, 124, 106, 120, 131, 94, 97,96, 102
Bolo by potrebné vykonať nejakú prieskumnú analýzu údajov, aby sa preukázalo, že neexistujú žiadne extrémne hodnoty. Zostavením a
stonka a list vidíme, že tieto údaje sú pravdepodobne z distribúcie, ktorá je približne normálne distribuovaná. To znamená, že môžeme pokračovať v nájdení 95% intervalu spoľahlivosti pre odchýlku populácie.Vzorová odchýlka
Musíme odhadnúť rozptyl populácie s rozptylom vzorky označeným ako s2. Začneme teda výpočtom tejto štatistiky. V podstate sme v priemere súčet druhých odchýliek z priemeru. Namiesto toho, aby sa táto suma vydelila n delíme to n - 1.
Zistili sme, že priemer vzorky je 104.2. Pomocou tohto máme súčet druhých odchýlok od priemeru daný:
(97 – 104.2)2 + (75 – 104.3)2 +... + (96 – 104.2)2 + (102 – 104.2)2 = 2495.6
Túto sumu vydelíme 10 - 1 = 9, aby sme získali rozptyl vzorky 277.
Distribúcia Chi-Square
Teraz sa obraciame na našu distribúciu chí-kvadrát. Pretože máme 10 hodnôt údajov, máme 9 stupne slobody. Pretože chceme strednú 95% našej distribúcie, potrebujeme 2,5% v každom z dvoch chvostov. Poraďte sa s tabuľkou alebo softvérom chí-kvadrát a zistíme, že hodnoty v tabuľkách 2.7004 a 19.023 pokrývajú 95% plochy distribúcie. Tieto čísla sú a B, resp.
Teraz máme všetko, čo potrebujeme, a sme pripravení zostaviť náš interval spoľahlivosti. Vzorec pre ľavý koncový bod je [(n - 1)s2] / B. To znamená, že náš ľavý koncový bod je:
(9 x 277) / 19,023 = 133
Správny koncový bod sa zistí nahradením B s :
(9 x 277) / 2,7004 = 923
Sme si teda 95% istí, že rozdiely v populácii sa pohybujú medzi 133 a 923.
Štandardná odchýlka populácie
Pretože štandardná odchýlka je druhou odmocninou rozptylu, táto metóda by sa mohla použiť na zostavenie intervalu spoľahlivosti pre štandardnú odchýlku populácie. Všetko, čo by sme museli urobiť, je vziať hranaté korene koncových bodov. Výsledkom by bol 95% interval spoľahlivosti pre smerodajná odchýlka.