Intervaly spoľahlivosti sú kľúčovou súčasťou inferenčných štatistík. Môžeme použiť určitú pravdepodobnosť a informácie z a rozdelenia pravdepodobnosti na odhad parametra populácie pomocou vzorky. Vyhlásenie a interval spoľahlivosti sa robí takým spôsobom, že je ľahko nepochopený. Preskúmame správnu interpretáciu intervalov spoľahlivosti a preskúmame štyri chyby, ktoré sa týkajú tejto oblasti štatistiky.
Čo je interval spoľahlivosti?
Interval spoľahlivosti možno vyjadriť buď ako rozsah hodnôt, alebo v tejto forme:
Odhad ± Rozpätie chyby
Interval spoľahlivosti sa zvyčajne uvádza s úrovňou spoľahlivosti.Bežné úrovne spoľahlivosti sú 90%, 95% a 99%.
Pozrime sa na príklad, v ktorom chceme použiť vzorový priemer na odvodenie priemeru populácie. Predpokladajme, že výsledkom bude interval spoľahlivosti od 25 do 30. Ak povieme, že sme si 95% istí, že neznáma populácia Priemerný je obsiahnutá v tomto intervale, potom skutočne hovoríme, že sme tento interval našli pomocou metódy, ktorá je úspešná pri poskytovaní správnych výsledkov 95% času. Z dlhodobého hľadiska bude naša metóda neúspešná 5% času. Inými slovami, nedokážeme zachytiť skutočnú populáciu, čo znamená iba jednu z každých 20 krát.
Chyba č. 1
Teraz sa pozrieme na sériu rôznych chýb, ktoré sa môžu pri riešení intervalov spoľahlivosti vyskytnúť. Jedným z nesprávnych tvrdení, ktoré sa často robia o intervale spoľahlivosti pri 95% úrovni spoľahlivosti, je, že existuje 95% pravdepodobnosť, že interval spoľahlivosti obsahuje skutočný priemer populácie.
Dôvod, prečo sa jedná o chybu, je v skutočnosti dosť jemný. Kľúčovou myšlienkou týkajúcou sa intervalu spoľahlivosti je to, že použitá pravdepodobnosť vstúpi do obrazu metóda, ktorá sa používa, pri určovaní intervalu spoľahlivosti je, že sa vzťahuje na metódu, ktorá je použité.
Chyba č. 2
Druhou chybou je interpretácia 95% intervalu spoľahlivosti, keď hovorí, že 95% všetkých údajov v populácii spadá do intervalu. 95% hovorí opäť o metóde testu.
Aby sme videli, prečo je vyššie uvedené tvrdenie nesprávne, mohli by sme zvážiť normálnu populáciu s a smerodajná odchýlka 1 a priemer 5. Vzorka, ktorá mala dva údajové body, každý s hodnotami 6, má priemer vzorky 6. 95% interval spoľahlivosti pre priemernú populáciu by bol 4,6 až 7,4. To sa jednoznačne neprekrýva s 95% normálne rozdelenie, takže nebude obsahovať 95% populácie.
Chyba č. 3
Treťou chybou je povedať, že 95% interval spoľahlivosti znamená, že 95% všetkých možných vzoriek znamená, že spadajú do rozsahu intervalu. Znovu zvážte príklad z poslednej časti. Akákoľvek vzorka veľkosti dva, ktorá pozostávala iba z hodnôt menších ako 4,6, by mala mať priemernú hodnotu menšiu ako 4,6. Tieto prostriedky vzorky by teda spadali mimo tento konkrétny interval spoľahlivosti. Vzorky, ktoré zodpovedajú tomuto opisu, tvoria viac ako 5% z celkovej sumy. Je preto chybou povedať, že tento interval spoľahlivosti zachytáva 95% všetkých prostriedkov vzorky.
Chyba č. 4
Štvrtou chybou pri riešení intervalov spoľahlivosti je myšlienka, že sú jediným zdrojom chýb. Aj keď existuje interval chýb spojený s intervalom spoľahlivosti, existujú aj iné miesta, ktoré môžu chyby preniknúť do štatistickej analýzy. Niekoľko príkladov takýchto druhov chýb by mohlo byť z nesprávneho návrhu experimentu, zo zaujatosti vo vzorkovaní alebo z neschopnosti získať údaje z určitej podskupiny populácie.