Inferenčné štatistiky dostane svoje meno od toho, čo sa deje v tejto oblasti štatistiky. Namiesto jednoduchého popisu súboru údajov sa inferenciálna štatistika snaží odvodiť niečo o populácii na základe a štatistická vzorka. Jedným konkrétnym cieľom inferenčnej štatistiky je určenie hodnoty neznámej populácie parameter. Rozsah hodnôt, ktoré používame na odhad tohto parametra, sa nazýva interval spoľahlivosti.
Forma intervalu spoľahlivosti
Interval spoľahlivosti pozostáva z dvoch častí. Prvá časť je odhad parametra populácie. Tento odhad sa získa pomocou a jednoduchá náhodná vzorka. Z tejto vzorky vypočítame štatistiku, ktorá zodpovedá parametru, ktorý chceme odhadnúť. Napríklad, ak by sme mali záujem o priemernú výšku všetkých študentov prvého stupňa v Spojených štátoch, mali by sme použite jednoduchú náhodnú vzorku amerických prvého porovnávača, zmerajte všetky z nich a potom vypočítajte priemernú výšku našich vzorky.
Druhou časťou intervalu spoľahlivosti je miera chyby. Je to nevyhnutné, pretože náš odhad sa môže líšiť od skutočnej hodnoty parametra populácie. Aby sme mohli zohľadniť ďalšie potenciálne hodnoty parametra, musíme vytvoriť rozsah čísel. Miera chyby to robí a každý interval spoľahlivosti má nasledujúcu formu:
Odhad ± marža chyby
Odhad je v strede intervalu a potom z tohto odhadu odpočítame a pridáme medzu chyby, aby sme získali rozsah hodnôt pre parameter.
Úroveň sebavedomia
Ku každému intervalu spoľahlivosti je pripojená úroveň spoľahlivosti. Toto je pravdepodobnosť alebo percento, ktoré naznačuje, koľko istoty by sme mali pripísať nášmu intervalu spoľahlivosti. Ak sú všetky ostatné aspekty situácie rovnaké, čím vyššia je úroveň spoľahlivosti, tým väčší je interval spoľahlivosti.
Táto úroveň dôvery môže viesť k určitému zmätku. Nejde o vyhlásenie o postupe odberu vzoriek ani o populácii. Namiesto toho naznačuje úspech procesu budovania intervalu spoľahlivosti. Napríklad intervaly spoľahlivosti s 80% istotou budú v dlhodobom horizonte chýbať jeden z každých päťkrát skutočný parameter populácie.
Teoreticky by sa pre úroveň spoľahlivosti mohlo použiť akékoľvek číslo od nuly do jedného. V praxi predstavuje 90%, 95% a 99% obvyklú úroveň spoľahlivosti.
Rozpätie chyby
Miera chyby na úrovni spoľahlivosti je určená niekoľkými faktormi. Vidíme to skúmaním vzorca na mieru chyby. Miera chyby má formu:
Rozpätie chyby = (štatistika pre úroveň spoľahlivosti) * (štandardná odchýlka / chyba)
Štatistika úrovne spoľahlivosti závisí od toho, čo rozdelenia pravdepodobnosti sa používa a akú úroveň dôvery sme si vybrali. Napríklad, ak Cje naša úroveň dôvery a pracujeme s normálne rozdelenie, potom C je plocha pod krivkou medzi -z* na z*. Toto číslo z* je číslo v našom vzorci chyby.
Štandardná odchýlka alebo štandardná chyba
Ďalším nevyhnutným výrazom v našom rozpätí chýb je štandardná odchýlka alebo štandardná chyba. Tu sa uprednostňuje štandardná odchýlka distribúcie, s ktorou pracujeme. Zvyčajne však nie sú známe parametre z populácie. Toto číslo zvyčajne nie je k dispozícii pri vytváraní intervalov spoľahlivosti v praxi.
Na vyriešenie tejto neistoty v poznaní štandardnej odchýlky namiesto toho používame štandardnú chybu. Štandardná chyba, ktorá zodpovedá štandardnej odchýlke, je odhadom tejto štandardnej odchýlky. Čo robí štandardnú chybu tak silnou, je to, že sa počíta z jednoduchej náhodnej vzorky, ktorá sa používa na výpočet nášho odhadu. Nie sú potrebné žiadne ďalšie informácie, keďže vzorka pre nás robí všetky odhady.
Rôzne intervaly spoľahlivosti
Existuje celý rad rôznych situácií, ktoré si vyžadujú intervaly spoľahlivosti. Tieto intervaly spoľahlivosti sa používajú na odhad množstva rôznych parametrov. Aj keď sú tieto aspekty odlišné, všetky tieto intervaly spoľahlivosti sú spojené v rovnakom celkovom formáte. Niektoré bežné intervaly spoľahlivosti sú intervaly pre priemernú populáciu, rozptyl populácie, pomer populácie, rozdiel dvoch priemerných obyvateľov a rozdiel dvoch pomerov obyvateľstva.