chi-kvadrát test zhody je užitočné porovnať teoretický model na pozorované údaje. Tento test je typom všeobecnejšieho testu chí-kvadrát. Rovnako ako v prípade akejkoľvek témy v matematike alebo štatistike, môže byť užitočné preštudovať si príklad, aby sme pochopili, čo sa deje, prostredníctvom príkladu testu dobrého stavu chi-kvadrát.
Zvážte štandardné balenie mliečnych čokolád M & Ms. Existuje šesť rôznych farieb: červená, oranžová, žltá, zelená, modrá a hnedá. Predpokladajme, že sme zvedaví na distribúciu týchto farieb a opýtajte sa, vyskytuje sa všetkých šesť farieb v rovnakom pomere? Toto je typ otázky, na ktorú je možné odpovedať testom dobrej zhody.
nastavenie
Začneme tým, že si všimneme nastavenie a prečo je test dobrej zhody vhodný. Naša farebná premenná je kategorická. K dispozícii je šesť úrovní tejto premennej, ktorá zodpovedá šiestim možným farbám. Budeme predpokladať, že M & Ms, ktoré počítame, budú jednoduchou náhodnou vzorkou z populácie všetkých M & Ms.
Nulové a alternatívne hypotézy
nulové a alternatívne hypotézy pre náš test dobrej spôsobilosti odrážajte predpoklad, ktorý robíme o populácii. Pretože testujeme, či sa farby vyskytujú v rovnakých pomeroch, naša nulová hypotéza bude, že všetky farby sa vyskytujú v rovnakom pomere. Formálnejšie, ak p1 je populačný podiel červených cukroviniek, p2 je populačný pomer pomarančových cukroviniek a tak ďalej, potom je nulová hypotéza p1 = p2 =... = p6 = 1/6.
Alternatívna hypotéza je, že aspoň jeden z pomerov populácie sa nerovná 1/6.
Skutočné a očakávané počty
Skutočný počet je počet cukroviniek pre každú zo šiestich farieb. Očakávaný počet sa týka toho, čo by sme očakávali, keby neplatná hypotéza bola pravdivá. Necháme to n byť veľkosť našej vzorky. Očakávaný počet červených cukroviniek je p1 n alebo n/6. V skutočnosti je v tomto príklade očakávaný počet cukroviniek pre každú zo šiestich farieb jednoducho n doba pjaalebo n/6.
Chi-kvadrát Štatistika pre dobro fit
Teraz pre konkrétny príklad vypočítame štatistiku chí-kvadrát. Predpokladajme, že máme jednoduchú náhodnú vzorku 600 cukroviniek M&M s nasledujúcou distribúciou:
- 212 z cukroviniek sú modré.
- 147 z cukroviniek sú oranžové.
- 103 cukríkov je zelených.
- 50 cukroviniek je červených.
- 46 cukroviniek je žltých.
- 42 cukroviniek je hnedých.
Ak by bola neplatná hypotéza pravdivá, potom by sa očakávané počty pre každú z týchto farieb rovili (1/6) x 600 = 100. Teraz to používame pri výpočte štatistiky štvorcov chi.
Vypočítame príspevok k našej štatistike z každej z farieb. Každý z nich má tvar (skutočný - očakávaný)2/Expected.:
- Pre modrú máme (212 - 100)2/100 = 125.44
- Oranžové máme (147 - 100)2/100 = 22.09
- Pre zelenú máme (103 - 100)2/100 = 0.09
- Pre červenú máme (50 - 100)2/100 = 25
- Pre žltú máme (46 - 100)2/100 = 29.16
- Pre hnedého máme (42 - 100)2/100 = 33.64
Potom všetky tieto príspevky spočítame a zistíme, že naša štatistika štvorcov je 125,44 + 22,09 + 0,09 + 25 + 29,16 + 33,64 = 235,42.
Stupne slobody
Počet stupne slobody pre test dobrej zhody je jednoducho o jeden menší, ako je počet úrovní našej premennej. Pretože tam bolo šesť farieb, máme 6 - 1 = 5 stupňov voľnosti.
Chi-štvorcový stôl a hodnota P
Štatistika chí-kvadrát 235,42, ktorú sme vypočítali, zodpovedá konkrétnemu miestu na rozmiestnení chí-kvadrát s piatimi stupňami voľnosti. Teraz potrebujeme p-hodnota, určuje pravdepodobnosť získania testovacej štatistiky aspoň tak extrémne ako 235,42, pričom sa predpokladá, že neplatná hypotéza je pravdivá.
Na tento výpočet možno použiť program Microsoft Excel. Zistili sme, že naša štatistika testu s piatimi stupňami voľnosti má p-hodnotu 7,29 x 10-49. Toto je extrémne malá hodnota p.
Pravidlo rozhodnutia
Rozhodujeme sa, či odmietneme nulovú hypotézu na základe veľkosti p-hodnoty. Pretože máme veľmi nepatrnú p-hodnotu, odmietame nulovú hypotézu. Dospeli sme k záveru, že M & Ms nie sú rovnomerne rozdelené medzi šesť rôznych farieb. Na stanovenie intervalu spoľahlivosti pre časť populácie jednej konkrétnej farby sa môže použiť následná analýza.